jieba库词频统计_用jieba库统计文本词频及云词图的生成

一、安装jieba库

:\>pip install jieba #或者 pip3 install jieba

二、jieba库解析

jieba库主要提供提供分词功能,可以辅助自定义分词词典。

jieba库中包含的主要函数如下:

jieba.cut(s)                                                               精确模式,返回一个可迭代的数据类型

jieba.cut(s,cut_all=True)                                          全模式,输出文本s中所有可能的单词

jieba.cut_for_search(s)                                            搜索引擎模式,适合搜索引擎建立索引的分词结果

jieba.lcut(s)                                                              精确模式,返回一个列表类型,建议使用

jieba.lcut(s,cut_all=True)                                         全模式,返回一个列表类型,建议使用

jieba.lcut_for_search(s)                                           搜索引擎模式,返回一个列表类型,建议使用

jieba.add_word(w)                                                   向分词词典中增加新词w

三、用jieba库统计文本的词频

《流浪地球》是刘慈欣的一部作品。该书讲述了庞大的地球逃脱计划,逃离太阳系,前往新家园。从网上获取该书的文本文件,保存于桌面上,命名为“流浪地球。”

现统计其文本中出现次数最多的是个词语,源代码如下:

importjieba

txt= open("C:\\Users\\Administrator\\Desktop\\流浪地球.txt", "r", encoding='utf-8').read()

words=jieba.lcut(txt)

counts={}for word inwords:if len(word) == 1: #排除单个字符的分词结果

continue

else:

counts[word]= counts.get(word,0) + 1items=list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)for i in range(10):

word, count=items[i]print ("{0:<10}{1:>5}".format(word, count))

运行程序后,输出结果如下:

dc1aebf2a8b07bdd07a89b95f1c2b7c0.png

故容易得知流浪地球中出现频次较高的词语

四、结合jieba库的词频统计制作词云图

1、准备工作:pip 安装 jieba , wordcloud ,matplotlib

2以阿Q正传为例:

源代码为:

from wordcloud importWordCloudimportmatplotlib.pyplot as pltimportjieba#生成词云

defcreate_word_cloud(filename):

text= open("{}.txt".format(filename)).read()#结巴分词

wordlist = jieba.cut(text, cut_all=True)

wl= " ".join(wordlist)#设置词云

wc =WordCloud(#设置背景颜色

background_color="white",#设置最大显示的词云数

max_words=2000,#这种字体都在电脑字体中,一般路径

font_path='C:\Windows\Fonts\simfang.ttf',

height=1200,

width=1600,#设置字体最大值

max_font_size=200,#设置有多少种随机生成状态,即有多少种配色方案

random_state=100,

)

myword= wc.generate(wl) #生成词云

#展示词云图

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('p.png') #把词云保存下

if __name__ == '__main__':

create_word_cloud('C:\\Users\\Administrator\\Desktop\\阿Q正传')

运行程序后,输出结果如下:

4c5108e2a9a1a34f2a98d78ceafb638a.png

故可得出文本的云词图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/530567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql查看表描述_MySQL表记录操作介绍(重点介绍查询操作)

MySQL表记录操作指的是对数据库表中数据进行CRUD增删改查操作&#xff0c;一下将一一给大家介绍&#xff0c;重点介绍查询操作。一、插入数据(INSERT)二、删除数据(DELETE)三、修改数据(UPDATE)四、查询数据(SELECT)下面将以例子对数据查询进行详细讲解&#xff1a;例子&#x…

python邮件的图片放在哪里_用python保存电子邮件中的嵌入图像

我试图在一个嵌入的电子邮件中抓取图像。问题是我保存的图像不可读&#xff0c;我不知道为什么。电子邮件(保存为我在代码开头加载的文件)&#xff1a;MIME-Version: 1.0Received: by 10.100.120.7 with HTTP; Tue, 18 Oct 2011 10:36:48 -0700 (PDT)In-Reply-To: <8B4FDE07…

sqoop从mysql导入hdfs_sqoop 从mysql导入数据到hdfs、hive

1.上传sqoop安装包 2.安装和配置 在添加sqoop到环境变量 将数据库连接驱动拷贝到$SQOOP_HOME/lib里 3.使用 第一类&#xff1a;数据库中的数据导入到HDFS上 sqoop import --connect jdbc:mysql://hadoop07:3306/test --username root --password 123 --table user_info--colum…

安卓mysql插入数据_【11-25求助】关于Android 的SQLite数据库插入数据报错问题

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼运行程序&#xff0c;不知道为何点插入数据按钮会报错&#xff0c;请万能的吧友帮我看看&#xff0c;谢谢&#xff0c;不废话&#xff0c;直接上代码MainActivity.javapackage com.example.activity16;import android.support.v7.a…

安装python扩展库时只能使用pip_安装 Python 扩展库时只能使用 pip 工具在线安装,如果安装不成功就没有别的办法了。_学小易找答案...

【单选题】关于Python中的复数,下列说法错误的是_________________。【填空题】在Python程序中,导入sys模块后,可以通过列表________________访问命令行参数。_________________表示Python脚本名;____________________表示第一个参数。【简答题】尝试用颜色 表达 冷暖 感觉 !【…

opencv java_opencv的Java开发环境配置(IntelliJ idea)

1、首先我们先到官网下载opencv的包&#xff0c;在官网下载到的是一个可运行文件&#xff0c;其实就是一个解压程序&#xff0c;运行后会把opencv的相关文件解压到填写的路径。2、 在编辑环境变量窗口&#xff0c;点击新建&#xff0c;然后将opencv文件夹里的bin路径复制进去&a…

java session 永不过期_Java Web Application使Session永不失效(利用cookie隐藏登录)

在做 Web Application 时&#xff0c;因为 Web Project 有 session 自动失效的问题&#xff0c;所以如何让用户登录一次系统就能长时间运行三个月&#xff0c;就是个问题。后来&#xff0c;看到 session 失效的拦截器代码&#xff0c;就猜想能否通过拦截器来实现。查资料发现可…

java is-a_java中 is - a和 has - a的区别

Java中is-a和has-a的区别1.“is-a”是继承的关系,比如人是动物,人和动物是继承的关系;2.“has-a”是聚合的关系,比如人有眼睛,人和眼睛是聚合的关系;也可以理解为 is-a 是“继承”但has-a是“接口”关系。是“相互依赖”的关系&#xff0c;同时它们的生命周期都是一样的。我们以…

支付宝支付对账单java_[Java]解析支付宝对账单csv

配置相关公钥和私钥这些需要在支付宝的账户中心配置image.png这些内容在支付宝平台上都有教程,因为下载对账单这个功能比较简单,不需要入聚石塔下载对账单https://docs.open.alipay.com/20180417160701241302/fd3qt1官方文档写的很清楚,而且能直接用,将配置好的公钥私钥APPID等…

cmd编译java文件中文乱码_乱码 HelloWorld 世界你好 cmd 执行输出的中文java 显示乱码 解决 另附 win无法执行编译运行javac java编译文件的解决方案...

【博客园cnblogs笔者m-yb原创&#xff0c;转载请加本文博客链接&#xff0c;笔者公众号aandb7 爱码一生&#xff0c;QQ群927113708, github: https://github.com/mayangbo666】这是一篇java入门:java是众多编程语言之一, 就是开发的工具技术, 没什么特别, 是应用广, 严谨的语言…

java linux获取实时cpu_用java取得linux系统cpu、内存的实时信息(参考别人代码)...

/**   * cat /proc/cpuinfo - cpu (i.e. vendor, mhz, flags like mmx) * cat /proc/interrupts - 中断   * cat /proc/ioports - 设备io端口   * cat /proc/meminfo - 内存信息(i.e. mem used, free, swap size)   * cat /proc/partitions - …

自我学习--关于如何设计光耦电路

本人在项目中多次设计光耦电路&#xff0c;目前电路在项目中运行比较平稳&#xff0c;所以总结一下自己的设计经验&#xff0c;与大家交流一下&#xff0c;如有错误还希望大家指出改正&#xff0c;谢谢&#xff08;V&#xff1a;Smt15921588263&#xff1b;愿与大家多交流&…

java 读取 xmltype_java操作XMLType的几种方法

XMLType是oracle数据库特有的数据类型可以用来存储一段xml,通过java(本文使用jdbc)插入XMLType根据sql中参数的类型通常有以下3种方法:本文使用的数据库为oracle10.2.1一、String,客户端只需传递一个字符串参数,创建xmltype的任务完全交给数据库,此方法数据库的压力最大String …

java运算符优先级举例_列举出java运算符的优先级

展开全部优先级 操作符 含义 关联性32313133353236313431303231363533e59b9ee7ad9431333337613833 用法----------------------------------------------------------------1 [ ] 数组下标 左 array_name[expr]. 成员选择 左 o…

java websocket ie8_websocket兼容IE8

最近由于项目需要做实时聊天功能&#xff0c;选择了html5的websocket方案(事实上node.jssocket.io兼容性更好&#xff0c;个人觉得这个方案更加完美)&#xff0c;websocket实现实时聊天的demo网上很多&#xff0c;但是兼容IE8的资料却很少&#xff0c;这块折腾了很久。websoket…

java newfile() bug_java初学者小白?遇到BUG就慌了?有关java异常的十大问题详解!...

1.已检查与未检查简而言之&#xff0c;必须在方法中显式捕获已检查的异常&#xff0c;或在方法的throws子句中声明该异常。未检查的异常是由无法解决的问题引起的&#xff0c;例如被零除&#xff0c;空指针等。检查的异常特别重要&#xff0c;因为您希望使用API的其他开发人员知…

java 日期操作工具类_java8操作日期的工具类

java8操作日期的工具类一、方法概览该包的API提供了大量相关的方法&#xff0c;这些方法一般有一致的方法前缀&#xff1a;of&#xff1a;静态工厂方法。parse&#xff1a;静态工厂方法&#xff0c;关注于解析。get&#xff1a;获取某些东西的值。is&#xff1a;检查某些东西的…

mysql拦截器实现crud_Mybatis自定义SQL拦截器

本博客介绍的是继承Mybatis提供的Interface接口&#xff0c;自定义拦截器&#xff0c;然后将项目中的sql拦截一下&#xff0c;打印到控制台。先自定义一个拦截器package com.muses.taoshop.common.core.database.config;import org.apache.commons.lang3.StringUtils;import or…

python 桌面提醒_使用Python获取桌面通知

开发一款可提醒您诸如警报或待办事项清单等计划的应用程序真是太好了。在本文中&#xff0c;我将引导您逐步编写如何使用Python获取桌面通知的程序。桌面通知应用程序如何工作&#xff1f;您今天将要学习开发的桌面通知应用程序的主要目的是不断提醒我们我们一天中需要完成的不…

java线程同步的实现_【Java多线程系列三】实现线程同步的方法

packagecom.concurrent.test;importjava.util.Stack;importjava.util.concurrent.ArrayBlockingQueue;importjava.util.concurrent.BlockingQueue;importjava.util.concurrent.locks.Condition;importjava.util.concurrent.locks.ReentrantLock;/*** Description: 三种方法实现…