中tr不能显示字符_垃圾文本识别中基本操作指南和错误总结,第三部分

创建模型需要用到机器学习的库,所以我们先下载sklearn库

4617b8e88d394ee59756dd0718b1cef0.png

sklearn库

下载完成后再输入库文件,就可以完美运行。

32cb23ab5a9f7d3acd661aee987602d4.png

然后就是划分测试集和训练集,需要注意的是,在从数据处理函数中导入数据时,足足运行了有将近30多秒,可见在数据处理部分,分词、添加停用词等步骤是非常复杂和消耗资源的,所以我在当初讲这个课题后提出的,把一次运行完后获得的分词数据进行保存,以便接下来的词云绘制和模型构建两步进行快速访问数据,还是非常有用的。

往后在Tf-idf权重计算这一环节出现了错误

(X_tr = TfidfTransformer().fit_transform(data_tr.toarray()).toarray())
59466923aeb68f8719b42e10c8afab0f.png

查了百度后,得知解决办法大致是通过控制面板的高级系统设置,更改系统给每一个硬盘分区所分配的内存来解决,我试了之后,问题果然解决了。

7af9a973a967baf567dbcedd9b0263cc.png

当然严格来说这其实是一个悖论,因为要想更改系统给硬盘分配的内存生效,就必须重启计算机,而重启计算机也会重新使系统给应用程序分配内存,这样也可以解决内存不足问题。所以说你不可能只让系统给应用分配的内存空间设置生效,而不让系统重启,这样在逻辑上是行不通的。

之后测试集的划分就顺利多了,然后进行机器学习,输入测试集评估模型,模型准确度为0.8525

1a8d6d908d9c2a997a7f0929cb0ffcab.png

写到这里整个项目算是完成了,但为了加深印象,我们不妨再看一下其中的几个数据

85870e4ff64c9590be5655bc6345620b.png

训练集和测试集

e99d667d1bc0528ddc732dca774b6714.png

这个是数据的TF idf权重计算。因为得到的是稀疏矩阵,一行中只有很少部分有值,因此我们看到的大多都是零。

我个人认为,Pycharm并不是一个完美的文本编辑器,一是他的每个项目都是一个虚拟环境,为这个项目所匹配的库文件并不能为其他项目所适用,如果在另外的项目里边讲引用库,就要重新下载,当然pycharm的作者可能有他自己的想法,但是我个人总觉得,这种想法,似乎并不是很适合我们中国的不是顶尖的大学的大学生的思维。

我已经在边角时间给 Python安装了pip,并成功的给python增加了pandas 库,所以说理论上,我们在Pycharm里面能完成的工作也能在Python自带的IDEI里面完成,如果时间允许,我可能会尝试这样的操作。


总结

总结来说,由于计算机环境不同,我们不可能完全复制我们老师所录制视频的操作步骤,如果遇到的错误老师没有讲过,就要充分利用互联网的丰富性和我们个人思维的灵活性,尝试通过理解编译器报错提示和百度搜索这两种方法来解决问题。

最后,作为python的新学者,遇到问题首先问身边的朋友或者老师,但有些问题并不能得到解决。这时我们可以去网络上搜索。这里我就推荐新学者去csdn搜索来解决我们遇到的问题。里面可以解决我们遇到的各种各样的问题。最后愿天下再无bug。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/371331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mvc后台post发送json数据

代码比较简单&#xff0c;不废话&#xff0c;直接上代码&#xff1a; /// <summary>/// 提交json数据&#xff0c;并接收/// </summary>/// <param name"apipath">要请求的服务器地址</param>/// <param name"jsonStr">要提…

(转载)20分钟读懂程序集

转自&#xff1a;http://www.cnblogs.com/damonlan/p/3221347.html 说到程序集&#xff0c;我刚开始对这个名词特别的郁闷&#xff01;~。然后 前些天花了些时间 好好读了一下&#xff0c;现在比较清晰了&#xff0c;把一些书上看到的 记下来&#xff0c;以飨读者。希望没浪费你…

大数据胸_喂母乳会导致胸下垂?!你被这个谣言骗了多少年?

很多人认为&#xff0c;给宝宝喂奶会导致胸下垂。有些爱美的妈妈&#xff0c;甚至在宝宝出生6个月后就着急断奶。那么&#xff0c;喂奶真的会导致胸下垂么&#xff1f;给大家讲两个真实的调查结果哈~2004年的一次针对496名新妈妈的调查结果显示&#xff0c;有75%的母乳喂养母亲…

Spring Shell项目发布

Spring Source昨天发布了Spring Shell 。 Spring Shell是一个交互式Shell&#xff0c;可以使用基于Spring的编程模型轻松地通过命令进行扩展。 它是通过除去OSGi依赖项从Spring Roo项目中提取的&#xff0c;并变成了一个独立项目。 这使得那些只希望使用交互式外壳功能的人更容…

自制ACL+DHCP实验(初版)

&#xff08;实验用gns模拟器&#xff09; ACL 实验拓扑&#xff1a; 实验要求&#xff1a; 1.1.1.1→3.3.3.3 不通 11.11.11.11→3.3.3.3 通 2.2.2.2→3.3.3.3 通 实验步骤&#xff1a; 步骤一&#xff1a;基本配置 R1&#xff1a; R1#conf t R1(config)#int lo0 R1(config-if…

pil 图像最大值_第97天:图像库 PIL(二)

上节我们讲了 Python 的图像处理库 PIL 的基本图像处理功能&#xff0c;打开了 PIL 的神秘面纱。这节我们接着讲 PIL 的 Image 模块的常用方法。Image 模块的方法convertImage.convert(modeNone, matrixNone, ditherNone, palette0, colors256)参数说明&#xff1a;mode&#x…

c#的委托用法delegate

转载于:https://www.cnblogs.com/douzujun/p/6555886.html

yii2.0

yii是一个高性能的适用于开发web2.0应用的框架&#xff0c;它自带丰富的功能&#xff0c;包括mvc&#xff0c;dao/aciverecord&#xff0c;缓存&#xff0c;身份验证和基于角色的访问控制&#xff0c;脚手架&#xff0c;测试等&#xff0c;可显著缩短开发时间yii只加载你需要的…

Java中常见的代码冲突

在工作中&#xff0c;最近我对现有Java项目进行了代码清理。 完成该练习后&#xff0c;我可以看到在代码中一次又一次地发生了一组常见的代码冲突。 因此&#xff0c;我想出了此类常见违规的清单&#xff0c;并与同行分享&#xff0c;以使人们有意识地提高代码质量和可维护性。…

np读取csv文件_被 Pandas read_csv 坑了

-- 不怕前路坎坷&#xff0c;只怕从一开始就走错了方向Pandas 是python的一个数据分析包&#xff0c;纳入了大量库和一些标准的数据模型&#xff0c;提供了高效地操作大型数据集所需的工具。Pandas 就是为解决数据分析任务生的&#xff0c;无论是数据分析还是机器学习项目数据预…

Python 第三方库 cp27、cp35 等文件名的含义

What does version name ‘cp27’ or ‘cp35’ mean in Python? 如对于 gensim-0.12.4-cp27-none-win_amd64.whl文件名而言&#xff0c;将其文件名拆分的话&#xff0c;含义分别是&#xff1a; 0.12.4 - package version, they may be using semantic versioningcp27 - this p…

JAVA: 序列化

对象序列化 - 一个对象可以被表示为一个字节序列&#xff0c;保存对象的类型信息、对象的数据&#xff0c;还有对象中的数据类型&#xff0c;以便存储或传输。 反序列化 - 将序列化对象写入文件之后&#xff0c;可以从文件中读取出来&#xff0c;并且对它进行反序列化&#xff…

寻找随机的错误-一个真实的故事

几周前&#xff0c;我完成了RapidFTR开源项目的错误查找 &#xff0c;这花了我三个晚上。 我认为可能值得分享狩猎的故事。 本文将介绍我的工作。 我将概述我的旅程&#xff0c;以实际找到正在发生的事情的根本原因。 我在本文中的目标是突出显示可以使用的技术示例&#xff0c…

铃木uy125摩托车机油_UY125 新瑞梦UM125发布 济南铃木于湖南株洲吹响国IV集结号...

​4月18日&#xff0c;济南铃木在湖南株洲天台开元酒店举行了2019年新品发布会&#xff0c;并于现场发布了两款极具终端战略意义的新款国IV车型&#xff0c;分别为定位“实用运动”的全新个性化踏板车型UY125&#xff0c;以及能够进一步巩固济南铃木在国IV入门级踏板车型领域绝…

473. 核电站问题

★ 输入文件&#xff1a;nucle.in 输出文件&#xff1a;nucle.out 简单对比 时间限制&#xff1a;1 s 内存限制&#xff1a;128 MB 【问题描述】 一个核电站有 N 个放核物质的坑&#xff0c;坑排列在一条直线上。如果连续 M 个坑中放入核物质&#xff0c;则会发生爆炸&…

js判断时间是早上还是下午_牛奶早上喝好,还是晚上喝好?没想到“最佳时间”是这个点,颠覆了!...

都说喝牛奶好&#xff0c;要多喝。可什么时间喝牛奶最好呢&#xff1f;是饭前、饭后还是睡前&#xff1f;又或者喝酒前&#xff1f;确实得好好说说。传言&#xff1a;空腹时身体比较缺能量&#xff0c;牛奶里的蛋白会去提供能量&#xff0c;不会去构成和修复组织(比如修复皮肤)…

Java模因拒绝死亡

也有标题&#xff1b; 我的宠物讨厌Java编码。 有许多Java模因让我很烦&#xff0c;部分是因为它们总是一个坏主意&#xff0c;但主要是因为人们在找到更好的替代方案后的几年里仍在继续使用它们。 使用StringBuffer代替StringBuilder 从2004年开始&#xff0c;用于StringBuf…

Python TK编程第一部分 Hello Again

当你想写大一点的程序的时候&#xff0c;将你的代码封装到一个或者多个类里会是一个不错的办法。下面hello world这个例子来自Matt Conway的Tkinter Life Preserver. [python]view plain copy from Tkinter import * class App: def __init__(self, master): …

视网膜脱离oct报告图_刚刚,爱尔眼科发布关于艾芬医生诊疗过程的核查报告

刚刚&#xff0c;爱尔眼科医院集团发布关于艾芬女士诊疗过程的核查报告&#xff0c;内容如下&#xff1a;得悉艾芬女士对武汉爱尔眼科医院白内障诊疗存疑&#xff0c;爱尔眼科医院集团高度重视&#xff0c;第一时间成立了工作组奔赴武汉&#xff0c;对事件的诊疗全过程开展了核…

20145233《网络对抗》第二周 后门原理与实践

20145233《网络对抗》第二周 后门原理与实践 实验内容 windows主机与kali虚拟机实现互联互通使用netcat获取主机操作Shell&#xff0c;cron启动使用socat获取主机操作Shell, 任务计划启动使用MSF meterpreter生成可执行文件&#xff0c;利用ncat或socat传送到主机并运行获取主机…