jieba库词频统计_用jieba库统计文本词频及云词图的生成

一、安装jieba库

：\>pip install jieba #或者 pip3 install jieba

二、jieba库解析

jieba库主要提供提供分词功能，可以辅助自定义分词词典。

jieba库中包含的主要函数如下：

jieba.cut(s) 精确模式，返回一个可迭代的数据类型

jieba.cut(s,cut_all=True) 全模式，输出文本s中所有可能的单词

jieba.cut_for_search(s) 搜索引擎模式，适合搜索引擎建立索引的分词结果

jieba.lcut(s) 精确模式，返回一个列表类型，建议使用

jieba.lcut(s,cut_all=True) 全模式，返回一个列表类型，建议使用

jieba.lcut_for_search(s) 搜索引擎模式，返回一个列表类型，建议使用

jieba.add_word(w) 向分词词典中增加新词w

三、用jieba库统计文本的词频

《流浪地球》是刘慈欣的一部作品。该书讲述了庞大的地球逃脱计划，逃离太阳系，前往新家园。从网上获取该书的文本文件，保存于桌面上，命名为“流浪地球。”

现统计其文本中出现次数最多的是个词语，源代码如下：

importjieba

txt= open("C:\\Users\\Administrator\\Desktop\\流浪地球.txt", "r", encoding='utf-8').read()

words=jieba.lcut(txt)

counts={}for word inwords:if len(word) == 1: #排除单个字符的分词结果

continue

else:

counts[word]= counts.get(word,0) + 1items=list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)for i in range(10):

word, count=items[i]print ("{0:<10}{1:>5}".format(word, count))

运行程序后，输出结果如下：

故容易得知流浪地球中出现频次较高的词语

四、结合jieba库的词频统计制作词云图

1、准备工作：pip 安装 jieba ， wordcloud ，matplotlib

2以阿Q正传为例：

源代码为：

from wordcloud importWordCloudimportmatplotlib.pyplot as pltimportjieba#生成词云

defcreate_word_cloud(filename):

text= open("{}.txt".format(filename)).read()#结巴分词

wordlist = jieba.cut(text, cut_all=True)

wl= " ".join(wordlist)#设置词云

wc =WordCloud(#设置背景颜色

background_color="white",#设置最大显示的词云数

max_words=2000,#这种字体都在电脑字体中，一般路径

font_path='C:\Windows\Fonts\simfang.ttf',

height=1200,

width=1600,#设置字体最大值

max_font_size=200,#设置有多少种随机生成状态，即有多少种配色方案

random_state=100,

)

myword= wc.generate(wl) #生成词云

#展示词云图

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('p.png') #把词云保存下

if __name__ == '__main__':

create_word_cloud('C:\\Users\\Administrator\\Desktop\\阿Q正传')

运行程序后，输出结果如下：

故可得出文本的云词图。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/530567.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

jieba库词频统计_用jieba库统计文本词频及云词图的生成

相关文章

mysql查看表描述_MySQL表记录操作介绍（重点介绍查询操作）

python邮件的图片放在哪里_用python保存电子邮件中的嵌入图像

sqoop从mysql导入hdfs_sqoop 从mysql导入数据到hdfs、hive

安卓mysql插入数据_【11-25求助】关于Android 的SQLite数据库插入数据报错问题

安装python扩展库时只能使用pip_安装 Python 扩展库时只能使用 pip 工具在线安装,如果安装不成功就没有别的办法了。_学小易找答案...

opencv java_opencv的Java开发环境配置（IntelliJ idea）

java session 永不过期_Java Web Application使Session永不失效(利用cookie隐藏登录)

java is-a_java中 is - a和 has - a的区别

支付宝支付对账单java_[Java]解析支付宝对账单csv

cmd编译java文件中文乱码_乱码 HelloWorld 世界你好 cmd 执行输出的中文java 显示乱码解决另附 win无法执行编译运行javac java编译文件的解决方案...

java linux获取实时cpu_用java取得linux系统cpu、内存的实时信息（参考别人代码）...

自我学习--关于如何设计光耦电路

java 读取 xmltype_java操作XMLType的几种方法

java运算符优先级举例_列举出java运算符的优先级

java websocket ie8_websocket兼容IE8

java newfile() bug_java初学者小白？遇到BUG就慌了？有关java异常的十大问题详解！...

java 日期操作工具类_java8操作日期的工具类

mysql拦截器实现crud_Mybatis自定义SQL拦截器

python 桌面提醒_使用Python获取桌面通知

java线程同步的实现_【Java多线程系列三】实现线程同步的方法