jieba库词频统计_用jieba库统计文本词频及云词图的生成

一、安装jieba库

:\>pip install jieba #或者 pip3 install jieba

二、jieba库解析

jieba库主要提供提供分词功能,可以辅助自定义分词词典。

jieba库中包含的主要函数如下:

jieba.cut(s)                                                               精确模式,返回一个可迭代的数据类型

jieba.cut(s,cut_all=True)                                          全模式,输出文本s中所有可能的单词

jieba.cut_for_search(s)                                            搜索引擎模式,适合搜索引擎建立索引的分词结果

jieba.lcut(s)                                                              精确模式,返回一个列表类型,建议使用

jieba.lcut(s,cut_all=True)                                         全模式,返回一个列表类型,建议使用

jieba.lcut_for_search(s)                                           搜索引擎模式,返回一个列表类型,建议使用

jieba.add_word(w)                                                   向分词词典中增加新词w

三、用jieba库统计文本的词频

《流浪地球》是刘慈欣的一部作品。该书讲述了庞大的地球逃脱计划,逃离太阳系,前往新家园。从网上获取该书的文本文件,保存于桌面上,命名为“流浪地球。”

现统计其文本中出现次数最多的是个词语,源代码如下:

importjieba

txt= open("C:\\Users\\Administrator\\Desktop\\流浪地球.txt", "r", encoding='utf-8').read()

words=jieba.lcut(txt)

counts={}for word inwords:if len(word) == 1: #排除单个字符的分词结果

continue

else:

counts[word]= counts.get(word,0) + 1items=list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)for i in range(10):

word, count=items[i]print ("{0:<10}{1:>5}".format(word, count))

运行程序后,输出结果如下:

dc1aebf2a8b07bdd07a89b95f1c2b7c0.png

故容易得知流浪地球中出现频次较高的词语

四、结合jieba库的词频统计制作词云图

1、准备工作:pip 安装 jieba , wordcloud ,matplotlib

2以阿Q正传为例:

源代码为:

from wordcloud importWordCloudimportmatplotlib.pyplot as pltimportjieba#生成词云

defcreate_word_cloud(filename):

text= open("{}.txt".format(filename)).read()#结巴分词

wordlist = jieba.cut(text, cut_all=True)

wl= " ".join(wordlist)#设置词云

wc =WordCloud(#设置背景颜色

background_color="white",#设置最大显示的词云数

max_words=2000,#这种字体都在电脑字体中,一般路径

font_path='C:\Windows\Fonts\simfang.ttf',

height=1200,

width=1600,#设置字体最大值

max_font_size=200,#设置有多少种随机生成状态,即有多少种配色方案

random_state=100,

)

myword= wc.generate(wl) #生成词云

#展示词云图

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('p.png') #把词云保存下

if __name__ == '__main__':

create_word_cloud('C:\\Users\\Administrator\\Desktop\\阿Q正传')

运行程序后,输出结果如下:

4c5108e2a9a1a34f2a98d78ceafb638a.png

故可得出文本的云词图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/530567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql查看表描述_MySQL表记录操作介绍(重点介绍查询操作)

MySQL表记录操作指的是对数据库表中数据进行CRUD增删改查操作&#xff0c;一下将一一给大家介绍&#xff0c;重点介绍查询操作。一、插入数据(INSERT)二、删除数据(DELETE)三、修改数据(UPDATE)四、查询数据(SELECT)下面将以例子对数据查询进行详细讲解&#xff1a;例子&#x…

python邮件的图片放在哪里_用python保存电子邮件中的嵌入图像

我试图在一个嵌入的电子邮件中抓取图像。问题是我保存的图像不可读&#xff0c;我不知道为什么。电子邮件(保存为我在代码开头加载的文件)&#xff1a;MIME-Version: 1.0Received: by 10.100.120.7 with HTTP; Tue, 18 Oct 2011 10:36:48 -0700 (PDT)In-Reply-To: <8B4FDE07…

支付宝支付对账单java_[Java]解析支付宝对账单csv

配置相关公钥和私钥这些需要在支付宝的账户中心配置image.png这些内容在支付宝平台上都有教程,因为下载对账单这个功能比较简单,不需要入聚石塔下载对账单https://docs.open.alipay.com/20180417160701241302/fd3qt1官方文档写的很清楚,而且能直接用,将配置好的公钥私钥APPID等…

cmd编译java文件中文乱码_乱码 HelloWorld 世界你好 cmd 执行输出的中文java 显示乱码 解决 另附 win无法执行编译运行javac java编译文件的解决方案...

【博客园cnblogs笔者m-yb原创&#xff0c;转载请加本文博客链接&#xff0c;笔者公众号aandb7 爱码一生&#xff0c;QQ群927113708, github: https://github.com/mayangbo666】这是一篇java入门:java是众多编程语言之一, 就是开发的工具技术, 没什么特别, 是应用广, 严谨的语言…

自我学习--关于如何设计光耦电路

本人在项目中多次设计光耦电路&#xff0c;目前电路在项目中运行比较平稳&#xff0c;所以总结一下自己的设计经验&#xff0c;与大家交流一下&#xff0c;如有错误还希望大家指出改正&#xff0c;谢谢&#xff08;V&#xff1a;Smt15921588263&#xff1b;愿与大家多交流&…

java websocket ie8_websocket兼容IE8

最近由于项目需要做实时聊天功能&#xff0c;选择了html5的websocket方案(事实上node.jssocket.io兼容性更好&#xff0c;个人觉得这个方案更加完美)&#xff0c;websocket实现实时聊天的demo网上很多&#xff0c;但是兼容IE8的资料却很少&#xff0c;这块折腾了很久。websoket…

python父亲节祝福_父亲节祝福语精选简短 父亲节祝福语简短独特

1.您的坚忍不拔和铮铮硬骨是我的榜样&#xff0c;我从您那儿汲取到奋发的力量&#xff0c;走过挫折&#xff0c;迈向成功&#xff0c;爸爸&#xff0c;您是我永远的榜样&#xff0c;我爱您&#xff01;祝您节日快乐&#xff01;2.您的怀抱&#xff0c;是我的小天地&#xff1b;…

java安装 hello_安装JAVA步骤,并编写HELLOWORLD程序

安装Java步骤&#xff0c;并编写helloworld程序1.安装JDK(Java Development Kit)JDK是Java开发工具包(Java Development Kit)的缩写。它是一种用于构建在J Java 平台上发布的应用程序、applet和组件的开发环境。即编写Java程序必须有JDK&#xff0c;它提供了编译Java和运行Java…

java实现Fmeasure计算_聚类结果的评估指标及其JAVA实现

一. 前言又GET了一项技能。在做聚类算法的时候&#xff0c;由于要评估所提出的聚类算法的好坏&#xff0c;于是需要与一些已知的算法对比&#xff0c;或者用一些人工标注的标签来比较&#xff0c;于是用到了聚类结果的评估指标。我了解了以下几项。TP:是指被聚在一类的两个量被…

java窗体容器坐标_Java的屏幕坐标是以像素为单位的,容器的左下角被确定为坐标的起点。...

屏单位的的左定为的起点Despite ________ difficulties, they did not find the life in London unpleasant.幕坐As soon as I was ____________, I began to have second thoughts about leaving.标被确The girl was uncertain what to do, or what tone of voice to_________…

mysql 相同字段相减_mysql datetime 类型字段相减

背景&#xff1a;今天测试一个mariadb中datatime类型的字段相减问题&#xff0c;直接用2个字段相减得到的数值并不是秒&#xff0c;很坑。后面百度了一些方法&#xff0c;说是使用 DateDiff 函数&#xff0c;这个函数文档还说有3个参数&#xff0c;但是3个参数运行是报错的。要…

Java最短路径类型_JAVA 最短路径

1.从景石出发&#xff0c;步行游览以下景点:①游客服务中心&#xff0c;②阳光草坪&#xff0c;③森林小剧场&#xff0c;④儿童科普体验区&#xff0c;⑤儿童戏水场&#xff0c;⑥湿地博物馆&#xff0c;⑦湿地商业街。建立数学模型&#xff0c;找出从景石出发&#xff0c;到达…

php 开启,PHP服务的开启详细步骤

安装完php,使用chkconfig命令来查看php-fpm服务是否开启&#xff0c;如果没有开启1. 在/etc/init.d/目录下创建脚本php-fpmvim/etc/init.d/php-fpm2. 编写脚本内容(将一下复制进去相应改动安装路径)#!/bin/sh## php-fpm - this script starts and stops the php-fpm daemin## c…

linux下安装mysql5.7.19,Linux下MySQL5.1升级到高版本MySQL5.7.19详解 | zifangsky的个人博客...

一 数据备份(1)查看当前版本&#xff1a;Shell[rootcentos ~]# mysql -V1[rootcentos~]# mysql -V(2)备份数据&#xff1a;Shell[rootcentos ~]# mysqldump -u root -h 127.0.0.1 -P 3306 -p --all-databases > databases.sql1[rootcentos~]# mysqldump -u root -h 127.0.0.…

mysql event使用,用MySQL的Event设置定时任务执行sql语句 | 老疯子

想在每天某个特定时间段定时执行一条sql语句命令&#xff0c;来进行数据库的备份或者更新删除等&#xff0c;可以直接使用MySQL自带的定时任务Event事件来执行操作。需要注意的是Event事件是在MySQL 5.1版本中新增的&#xff0c;还有一点就是确保你有MySQL数据库的root管理权限…

MATLAB设置x为0到10所有数,MATLAB教学_10数值微积分

本文学习视频地址&#xff1a;https://www.bilibili.com/video/av68228488?p10课堂PPT以及本人学习代码已上传。本文学习内容&#xff1a;多项式的微分和积分数值的微分和积分目录多项式的表示方法polyval()polyder()16分钟练习conv()polyint()Numerical Differentiation39分钟…

php header 404 nginx,ThinkPHP在nginx下怎么设置?路由统统404,疯了~

本地用MAMP跑的代码&#xff0c;运行没问题。但是部署到CENTOS 6.8 NGINX服务器上的时候&#xff0c;路由地址都404了&#xff01;[可以访问] http://something.com/API/public/index.php[404] http://something.com/API/public/index.php/consult_add折腾一晚上了。。简直了&a…

php strchr 截断,PHP strchr() 函数

w3school 教程PHP String 函数查找 "world" 在 "Hello world!" 中的第一次超并返回此字符串的其余个别&#xff1a;echo strchr("Hello world!","world");?>运行实例strchr() 函数搜他串在另一字符串中的第一次常该函数是 strstr(…

matlab aic sic,sic是什么意思_sic的翻译_音标_读音_用法_例句_爱词霸在线词典

全部In the mud -- En ange e il mondo ! [ sic ] ( 6 )污泥里 —— Efangoeilmondo! ( 六 )汉英文学 - 围城Fixed - seal & rotational - seal are made of various msterials, SIC, Carbon, Ceramic and can withstand various chemicals.固定环 及 转动环由各种不同材质…

win7卸载oracle12c,Windows7上完全卸载Oracle 12c操作步骤

Windows7上完全卸载Oracle 12c操作步骤1.关闭Oracle所有的服务,按【winR】运行【services.msc】找到所有Oracle开头的服务(OracleVssWriterORCLOracleServiceORCLOracleOraDB12Home1TNSListenerOracleOraDB12Home1MTSRecoveryServiceOracleJobSchedulerORCL),点击停止。2.使用O…