中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结,第三部分

创建模型需要用到机器学习的库,所以我们先下载sklearn库

4617b8e88d394ee59756dd0718b1cef0.png

sklearn库

下载完成后再输入库文件,就可以完美运行。

32cb23ab5a9f7d3acd661aee987602d4.png

然后就是划分测试集和训练集,需要注意的是,在从数据处理函数中导入数据时,足足运行了有将近30多秒,可见在数据处理部分,分词、添加停用词等步骤是非常复杂和消耗资源的,所以我在当初讲这个课题后提出的,把一次运行完后获得的分词数据进行保存,以便接下来的词云绘制和模型构建两步进行快速访问数据,还是非常有用的。

往后在Tf-idf权重计算这一环节出现了错误

(X_tr = TfidfTransformer().fit_transform(data_tr.toarray()).toarray())
59466923aeb68f8719b42e10c8afab0f.png

查了百度后,得知解决办法大致是通过控制面板的高级系统设置,更改系统给每一个硬盘分区所分配的内存来解决,我试了之后,问题果然解决了。

7af9a973a967baf567dbcedd9b0263cc.png

当然严格来说这其实是一个悖论,因为要想更改系统给硬盘分配的内存生效,就必须重启计算机,而重启计算机也会重新使系统给应用程序分配内存,这样也可以解决内存不足问题。所以说你不可能只让系统给应用分配的内存空间设置生效,而不让系统重启,这样在逻辑上是行不通的。

之后测试集的划分就顺利多了,然后进行机器学习,输入测试集评估模型,模型准确度为0.8525

1a8d6d908d9c2a997a7f0929cb0ffcab.png

写到这里整个项目算是完成了,但为了加深印象,我们不妨再看一下其中的几个数据

85870e4ff64c9590be5655bc6345620b.png

训练集和测试集

e99d667d1bc0528ddc732dca774b6714.png

这个是数据的TF idf权重计算。因为得到的是稀疏矩阵,一行中只有很少部分有值,因此我们看到的大多都是零。

我个人认为,Pycharm并不是一个完美的文本编辑器,一是他的每个项目都是一个虚拟环境,为这个项目所匹配的库文件并不能为其他项目所适用,如果在另外的项目里边讲引用库,就要重新下载,当然pycharm的作者可能有他自己的想法,但是我个人总觉得,这种想法,似乎并不是很适合我们中国的不是顶尖的大学的大学生的思维。

我已经在边角时间给 Python安装了pip,并成功的给python增加了pandas 库,所以说理论上,我们在Pycharm里面能完成的工作也能在Python自带的IDEI里面完成,如果时间允许,我可能会尝试这样的操作。


总结

总结来说,由于计算机环境不同,我们不可能完全复制我们老师所录制视频的操作步骤,如果遇到的错误老师没有讲过,就要充分利用互联网的丰富性和我们个人思维的灵活性,尝试通过理解编译器报错提示和百度搜索这两种方法来解决问题。

最后,作为python的新学者,遇到问题首先问身边的朋友或者老师,但有些问题并不能得到解决。这时我们可以去网络上搜索。这里我就推荐新学者去csdn搜索来解决我们遇到的问题。里面可以解决我们遇到的各种各样的问题。最后愿天下再无bug。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/371331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(转载)20分钟读懂程序集

转自:http://www.cnblogs.com/damonlan/p/3221347.html 说到程序集,我刚开始对这个名词特别的郁闷!~。然后 前些天花了些时间 好好读了一下,现在比较清晰了,把一些书上看到的 记下来,以飨读者。希望没浪费你…

大数据胸_喂母乳会导致胸下垂?!你被这个谣言骗了多少年?

很多人认为,给宝宝喂奶会导致胸下垂。有些爱美的妈妈,甚至在宝宝出生6个月后就着急断奶。那么,喂奶真的会导致胸下垂么?给大家讲两个真实的调查结果哈~2004年的一次针对496名新妈妈的调查结果显示,有75%的母乳喂养母亲…

自制ACL+DHCP实验(初版)

(实验用gns模拟器) ACL 实验拓扑: 实验要求: 1.1.1.1→3.3.3.3 不通 11.11.11.11→3.3.3.3 通 2.2.2.2→3.3.3.3 通 实验步骤: 步骤一:基本配置 R1: R1#conf t R1(config)#int lo0 R1(config-if…

pil 图像最大值_第97天:图像库 PIL(二)

上节我们讲了 Python 的图像处理库 PIL 的基本图像处理功能,打开了 PIL 的神秘面纱。这节我们接着讲 PIL 的 Image 模块的常用方法。Image 模块的方法convertImage.convert(modeNone, matrixNone, ditherNone, palette0, colors256)参数说明:mode&#x…

c#的委托用法delegate

转载于:https://www.cnblogs.com/douzujun/p/6555886.html

np读取csv文件_被 Pandas read_csv 坑了

-- 不怕前路坎坷,只怕从一开始就走错了方向Pandas 是python的一个数据分析包,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas 就是为解决数据分析任务生的,无论是数据分析还是机器学习项目数据预…

铃木uy125摩托车机油_UY125 新瑞梦UM125发布 济南铃木于湖南株洲吹响国IV集结号...

​4月18日,济南铃木在湖南株洲天台开元酒店举行了2019年新品发布会,并于现场发布了两款极具终端战略意义的新款国IV车型,分别为定位“实用运动”的全新个性化踏板车型UY125,以及能够进一步巩固济南铃木在国IV入门级踏板车型领域绝…

js判断时间是早上还是下午_牛奶早上喝好,还是晚上喝好?没想到“最佳时间”是这个点,颠覆了!...

都说喝牛奶好,要多喝。可什么时间喝牛奶最好呢?是饭前、饭后还是睡前?又或者喝酒前?确实得好好说说。传言:空腹时身体比较缺能量,牛奶里的蛋白会去提供能量,不会去构成和修复组织(比如修复皮肤)…

Python TK编程第一部分 Hello Again

当你想写大一点的程序的时候,将你的代码封装到一个或者多个类里会是一个不错的办法。下面hello world这个例子来自Matt Conway的Tkinter Life Preserver. [python]view plain copy from Tkinter import * class App: def __init__(self, master): …

视网膜脱离oct报告图_刚刚,爱尔眼科发布关于艾芬医生诊疗过程的核查报告

刚刚,爱尔眼科医院集团发布关于艾芬女士诊疗过程的核查报告,内容如下:得悉艾芬女士对武汉爱尔眼科医院白内障诊疗存疑,爱尔眼科医院集团高度重视,第一时间成立了工作组奔赴武汉,对事件的诊疗全过程开展了核…

20145233《网络对抗》第二周 后门原理与实践

20145233《网络对抗》第二周 后门原理与实践 实验内容 windows主机与kali虚拟机实现互联互通使用netcat获取主机操作Shell,cron启动使用socat获取主机操作Shell, 任务计划启动使用MSF meterpreter生成可执行文件,利用ncat或socat传送到主机并运行获取主机…

Spring 3.1:缓存和EhCache

如果在网上查找使用Spring 3.1内置缓存的示例,那么通常会碰到Spring的SimpleCacheManager ,Spring的家伙说这对“用于测试或简单的缓存声明很有用”。 实际上,我更喜欢将SimpleCacheManager看作是轻量级的,而不是简单的。 在您希望…

mysql-表完整性约束

阅读目录 一 介绍二 not null与default三 unique四 primary key五 auto_increment六 foreign key七 总结一 介绍 回到顶部 约束条件与数据类型的宽度一样,都是可选参数 作用:用于保证数据的完整性和一致性主要分为: PRIMARY KEY (PK) 标识…

可消费消息数量_17 个方面,综合对比 主流消息队列

一、资料文档二、开发语言三、支持的协议四、消息存储五、消息事务六、负载均衡七、集群方式八、管理界面九、可用性十、消息重复十一、吞吐量TPS十二、订阅形式和消息分发十三、顺序消息十四、消息确认十五、消息回溯十六、消息重试十七、并发度本文将从,Kafka、Ra…

opencv2.4.13+python2.7学习笔记--使用 knn对手写数字OCR

阅读对象:熟悉knn、了解opencv和python。 1.knn理论介绍:算法学习笔记:knn理论介绍 2. opencv中knn函数 路径:opencv\sources\modules\ml\include\opencv2\ml\ml.hpp 3.案例 3.1数据集介绍 我们的目的是创建一个可以对手写数字进行…

热启动必须联网吗_供暖结束,地暖是关闭供水阀门还是关闭回水阀门?你做对了吗?...

天气渐渐暖和起来很多城市都停止供暖了一些家庭也停止使用地暖那么今天就来聊一聊,停止供暖后地暖系统应该怎么保养地暖不用时候是关闭供水阀门还是关闭回水阀门?供暖结束 暖气阀门到底要不要关一般来说,我们供暖期结束是不用关闭总阀门的。因…

python学习(九) 网络编程学习--简易网站服务器

python 网络编程和其他语言都是一样的,服务器这块步骤为:1. 创建套接字2. 绑定地址3. 监听该描述符的所有请求4. 有新的请求到了调用accept处理请求 Python Web服务器网关接口(Python Web Server Gateway Interface,简称“WSGI”&…

按条件分类_保税仓储企业能否同时存储非保货物?“仓储货物安装台分类监管”如何申请?...

保税仓储企业能否同时存储非保货物呢?保税和非保货物是不是真的不能同在一个“屋檐下”呢?哪些企业可以开展“仓储货物按状态分类监管”业务?企业又该如何申请该项业务?本文就对这些问题进行一下梳理。什么是“仓储货物按状态分类…

ZooKeeper的原理(转)

一、ZooKeeper的角色 领导者(Leader),负责进行投票的发起和决议,更新系统状态。 学习者(Learner),包括跟随者(Follower)和观察者(Observer)&#…

java课堂笔记

转载于:https://www.cnblogs.com/16-C-kai/p/6567042.html