ptyhon中文本挖掘精简版

import xlrd
import jieba
import sys  
import importlib
import os         #python内置的包,用于进行文件目录操作,我们将会用到os.listdir函数  
import pickle    #导入cPickle包并且取一个别名pickle #持久化类
import random
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from pylab import mpl  
from sklearn.naive_bayes import MultinomialNB # 导入多项式贝叶斯算法包
from sklearn import svmfrom sklearn import metrics 
from sklearn.datasets.base import Bunch
from sklearn.feature_extraction.text import TfidfVectorizer
importlib.reload(sys)#把内容和类别转化成一个向量的形式
trainContentdatasave=[] #存储所有训练和测试数据的分词
testContentdatasave=[]trainContentdata = []
testContentdata = []
trainlabeldata = []
testlabeldata = []#导入文本描述的训练和测试数据
def importTrainContentdata():file = '20180716_train.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):trainContentdata.append(ws.cell(r, 0).value)def importTestContentdata():file = '20180716_test.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):testContentdata.append(ws.cell(r, 0).value)   #导入类别的训练和测试数据
def importTrainlabeldata():file = '20180716_train_label.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):trainlabeldata.append(ws.cell(r, 0).value)def importTestlabeldata():file = '20180716_test_label.xls'wb = xlrd.open_workbook(file)ws = wb.sheet_by_name("Sheet1")for r in range(ws.nrows):testlabeldata.append(ws.cell(r, 0).value)if __name__=="__main__": importTrainContentdata()importTestContentdata()importTrainlabeldata()importTestlabeldata()'''贝叶斯clf = MultinomialNB(alpha=0.052).fit(train_set.tdm, train_set.label)  #clf = svm.SVC(C=0.7, kernel='poly', gamma=10, decision_function_shape='ovr')clf.fit(train_set.tdm, train_set.label)  predicted=clf.predict(test_set.tdm)逻辑回归tv = TfidfVectorizer()train_data = tv.fit_transform(X_train)test_data = tv.transform(X_test)lr = LogisticRegression(C=3)lr.fit(train_set.tdm, train_set.label)predicted=lr.predict(test_set.tdm)print(lr.score(test_set.tdm, test_set.label))#print(test_set.tdm)#SVMclf = SVC(C=1500)clf.fit(train_set.tdm, train_set.label)predicted=clf.predict(test_set.tdm)print(clf.score(test_set.tdm, test_set.label))'''tv = TfidfVectorizer()train_data = tv.fit_transform(trainContentdata)test_data = tv.transform(testContentdata)clf = SVC(C=1500)clf.fit(train_data, trainlabeldata)print(clf.score(test_data, testlabeldata))a=[]b=[]for i in range(len(predicted)):b.append((int)(float(predicted[i])))a.append(int(test_set.label[i][0]))'''f=open('F:/goverment/ArticleMining/predict.txt', 'w')for i in range(len(predicted)):f.write(str(b[i]))f.write('\n')f.write("写好了")f.close()#for i in range(len(predicted)):#print(b[i])'''#metrics_result(a, b)

 

转载于:https://www.cnblogs.com/caiyishuai/p/9354035.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/368093.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[UWP]了解模板化控件(9):UI指南

[UWP]了解模板化控件(9):UI指南 原文:[UWP]了解模板化控件(9):UI指南1. 使用TemplateSettings统一外观 TemplateSettings提供一组只读属性,用于在新建ControlTemplate时使用这些约定的属性。 譬如,修改HeaderedContentControl的Co…

Java的反射API

如果您曾经问​​过自己以下问题: –“如何在字符串中仅包含其名称的方法调用?” –“如何动态列出类中的所有属性?” –“如何编写一种将任何给定对象的状态重置为默认值的方法?” 然后您可能已经听说过Java的Reflection API…

linux服务器基本常识,服务器搭建-Linux基础知识

服务器搭建还是需要一些Linux知识的,这节就聊点基础的。文件权限操作查看权限Linux中每个文件对每个用户来说都有对应的权限,在任一路径中输入ll就可以查看这些信息:rootip-*** /usr/local # lltotal 32Kdrwxr-xr-x 2 root root 4.0K Jan 14 …

mysql基本命令入门

背景 作为一个前端,重新学习后台相关知识,记录下自己遇到及用到的命令及爬坑经验。 基本命令 1.创建数据库 create database 数据库名称 eg: create database test //创建一个名为test的数据库 2.查看所有数据库 show databases 3.选择某一个数据库 use …

不完善迷你计算器

html代码&#xff1a; <!DOCTYPE html PUBspanC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns"http://www.w3.org/1999/xhtml"><head><meta http-e…

LINQ和Java

LINQ已经非常成功&#xff0c;但在.NET生态系统中也引起了争议。 许多人正在Java世界中寻找可比的解决方案。 为了更好地理解什么是可比的解决方案&#xff0c;让我们看一下LINQ解决的主要问题&#xff1a; 查询语言通常是具有许多关键字的声明性编程语言。 它们提供的控制流元…

怎样 测试 某个 端口 是否打开

我们一般最常见的工具是telnet&#xff0c;但是telnet使用的是tcp协议&#xff0c;换句话说telnet只能检测tcp的这个端口打开了没。 方法很简单&#xff0c;假设我们要看192.192.193.211这个IP的tcp 22端口是否打开&#xff0c;则运行telnet 192.192.193.211 22 来查看 如果cen…

linux用户空间注册按键事件,linux下获取按键响应事件

1、问题通过一个死循环将读取键盘对应的设备文件将触发键盘事件在屏幕上打印出来&#xff0c;按esc退出程序代码是在unbuntu10.04编译执行通过的2、input_event描述在Linux内核中&#xff0c;input设备用input_dev结构体描述&#xff0c;使用input子系统实现输入设备驱动的时候…

CSS实现单行与多行文字省略(truncation)

在上一篇文章小div布局之卡片堆叠&#xff08;card-stacking&#xff09;中有多行文字溢出省略的效果&#xff0c;这篇文章就对这种效果&#xff08;包括单行文字溢出省略&#xff09;的实现做个简单的记录&#xff0c;以防自己忘记。具体来说&#xff0c;就是要实现这种文字排…

位运算的使用例子

class Data { public:enum Permission{allowSelect 1 << 0,allowUpdate 1 << 1,allowInsert 1 << 2,allowDelete 1 << 3}; public:Data():flag(0){};~Data(){};/*添加某权限*/void enable(int permission){flag | permission;}/*删除某权限*/void…

事务性Lucene

许多用户不喜欢Lucene API的事务性语义&#xff0c;以及这在搜索应用程序中如何有用。 首先&#xff0c;Lucene实现了ACID属性&#xff1a; 一个 tomicity&#xff1a;当您在更改&#xff08;添加&#xff0c;删除文件&#xff09; IndexWriter会话&#xff0c;然后提交&#…

logback配置详解和使用

最近知道一种打印日志的新方法&#xff0c;在此做一下学习总结。 转自&#xff1a;行走在云端的愚公 https://www.cnblogs.com/warking/p/5710303.html 一、logback的介绍 Logback是由log4j创始人设计的另一个开源日志组件,官方网站&#xff1a; http://logback.qos.ch。它当前…

linux下iostat命令无效,linux iostat命令详解

iostatiostat用于输出CPU和磁盘I/O相关的统计信息.命令格式:iostat [ -c | -d ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ device [ ... ] | ALL ] [ -p [ device | ALL ] ][ interval [ count ] ]1)iostat的简单使用iostat可以显示CPU和I/O系统的负载情况及分区状态信息.直接执行i…

css样式表

样式表&#xff1a; 一。内联&#xff1a;写在body中 直接在内容的标签中添加style属性&#xff1a;例如<div style"...">1234</div> 二。内嵌&#xff1a;写在head中 一般写在标题标签的后面&#xff0c;添加<style type"text/css"&g…

RAID技术超详细讲解

RAID 技术是一种多磁盘技术&#xff0c;面对数据的各方面有着两面性的影响&#xff0c;整体来说优点大于缺点的&#xff0c;下面我将详细介绍一下 RAID &#xff0c;简称磁盘阵列技术。 一、RAID 概述 1988 年美国加州大学伯克利分校的 D. A. Patterson 教授等首次在论文 “A C…

集群应用服务器环境中会话管理(复制)的Oracle Coherence最佳实践

Oracle Coherence是一种内存中数据网格产品&#xff0c;也广泛用于跨应用程序服务器节点集群的会话复制。 它支持各种应用程序服务器&#xff0c;例如WebLogic&#xff0c;WebSphere&#xff0c;Tomcat&#xff0c;JBoss等。Coherence * Web是会话管理模块&#xff08;基于Cohe…

自适应居中

一、窗体居中 position: absolute; top: 0; right: 0; bottom: 0; left: 0; margin: auto; /*height: 50px; width: 165px; */ 简析&#xff1a; position:固定位置显示&#xff08;absolute|fixed&#xff09;&#xff1b; 【absolute&#xff1a;窗口大小由上层position为ab…

linux ip地址漂移,Linux 实现高可用性(HA) —之ip 漂移方法(vrrp)

在日常的系统管理当中,某些应用对可用性要求比较高,简单的冷备是不能满足需求,所以才需要双机热备即HA.根据此应用要求,我们介绍一个软件实现高可用性.keepalived是Linux下一个双机热备的软件&#xff0c;可提供vrrp以及health-check功能&#xff0c;目前仅用它提供双机漂移ip,…

Go语言核心之美 1.5-作用域

变量的作用域是指程序代码中能够有效使用这个变量的范围。不要将作用域和生命期混在一起。作用域是代码中的一块区域&#xff0c;是一个编译期的属性&#xff1b;生命期是程序执行期间变量存活的时间段。在此时间段内&#xff0c;变量能够被程序的其他部分所引用&#xff0c;是…

BootStrap_01之全局样式

1、响应式网页&#xff1a; ①Responsive Web Page&#xff1a;一个可以根据浏览设备的不同&#xff0c;而自动更改布局、图片、文字效果的网页&#xff1b; ②构成&#xff1a;不能固定宽度&#xff0c;必须流式布局&#xff1b;文字和图片大小随容器大小而改变&#xff1b;CS…