中文词频统计与词云生成

本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

中文词频统计

1. 下载一长篇中文小说。

  下载长篇小说《西游记》

  本次作业小说保存在txt文档:xyj.txt

2. 从文件读取待分析文本。

xyj = open(r'F:/xyj.txt','r',encoding='utf-8').read()
wordsls = jieba.lcut(xyj)

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

 

4. 更新词库,加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵')  #逐个添加

jieba.load_userdict(word_dict)  #词库文本文件

jieba.add_word('美猴王')
 

参考词库下载地址:https://pinyin.sogou.com/dict/

转换代码:scel_to_text

# -*- coding: utf-8 -*-
import struct
import os# 拼音表偏移,
startPy = 0x1540;# 汉语词组表偏移
startChinese = 0x2628;# 全局拼音表
GPy_Table = {}# 解析结果
# 元组(词频,拼音,中文词组)的列表# 原始字节码转为字符串
def byte2str(data):pos = 0str = ''while pos < len(data):c = chr(struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0])if c != chr(0):str += cpos += 2return str# 获取拼音表
def getPyTable(data):data = data[4:]pos = 0while pos < len(data):index = struct.unpack('H', bytes([data[pos],data[pos + 1]]))[0]pos += 2lenPy = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]pos += 2py = byte2str(data[pos:pos + lenPy])GPy_Table[index] = pypos += lenPy# 获取一个词组的拼音
def getWordPy(data):pos = 0ret = ''while pos < len(data):index = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]ret += GPy_Table[index]pos += 2return ret# 读取中文表
def getChinese(data):GTable = []pos = 0while pos < len(data):# 同音词数量same = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]# 拼音索引表长度pos += 2py_table_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]# 拼音索引表pos += 2py = getWordPy(data[pos: pos + py_table_len])# 中文词组pos += py_table_lenfor i in range(same):# 中文词组长度c_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]# 中文词组pos += 2word = byte2str(data[pos: pos + c_len])# 扩展数据长度pos += c_lenext_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]# 词频pos += 2count = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]# 保存
            GTable.append((count, py, word))# 到下个词的偏移位置pos += ext_lenreturn GTabledef scel2txt(file_name):print('-' * 60)with open(file_name, 'rb') as f:data = f.read()print("词库名:", byte2str(data[0x130:0x338])) # .encode('GB18030')print("词库类型:", byte2str(data[0x338:0x540]))print("描述信息:", byte2str(data[0x540:0xd40]))print("词库示例:", byte2str(data[0xd40:startPy]))getPyTable(data[startPy:startChinese])getChinese(data[startChinese:])return getChinese(data[startChinese:])if __name__ == '__main__':# scel所在文件夹路径in_path = r"F:\text"   #修改为你的词库文件存放文件夹# 输出词典所在文件夹路径out_path = r"F:\text"  # 转换之后文件存放文件夹fin = [fname for fname in os.listdir(in_path) if fname[-5:] == ".scel"]for f in fin:try:for word in scel2txt(os.path.join(in_path, f)):file_path=(os.path.join(out_path, str(f).split('.')[0] + '.txt'))# 保存结果with open(file_path,'a+',encoding='utf-8')as file:file.write(word[2] + '\n')os.remove(os.path.join(in_path, f))except Exception as e:print(e)pass

 

5. 生成词频统计

wcdict = {}
for word in tokens:if len(word)==1:continueelse:wcdict[word] = wcdict.get(word,0)+1

6. 排序

 
wcls = list(wcdict.items())
wcls.sort(key=lambda x:x[1],reverse=True)
for i in range(20):print(wcls[i])

 

7. 排除语法型词汇,代词、冠词、连词等停用词。

stops

tt = open(r'F:/stops_chinese.txt','r',encoding='utf-8').read()
stops = tt.split()

      ·排除

wordsls = jieba.lcut(xyj)
tokens = [token for token in wordsls if token not in stops]

8. 输出词频最大TOP20,把结果存放到文件里

import jieba
xyj = open(r'F:/xyj.txt','r',encoding='utf-8').read()
tt = open(r'F:/stops_chinese.txt','r',encoding='utf-8').read()
stops = tt.split() 
#jieba.load_userdict(r'F:\text/xyj.txt')

wordsls = jieba.lcut(xyj)
tokens = [token for token in wordsls if token not in stops]
print(len(wordsls),len(tokens))
wcdict = {}
for word in tokens:if len(word)==1:continueelse:wcdict[word] = wcdict.get(word,0)+1
wcls = list(wcdict.items())
wcls.sort(key=lambda x:x[1],reverse=True)
for i in range(20):print(wcls[i])

9. 生成词云。

(1)词云安装

显示词云:

cut_text = " ".join(tokens)
from wordcloud import WordCloud
ciyun = WordCloud().generate(cut_text)
import matplotlib.pyplot as plt
plt.imshow(ciyun)
plt.axis("off")
plt.show()

保存词云图片

ciyun.to_file(r'F:\xyj.jpg')

 

改变词云长度和宽度,背景颜色

ciyun = WordCloud(background_color = '#00ff00',width=400,height=300,margin = 1).generate(cut_text)
import matplotlib.pyplot as plt
plt.imshow(ciyun)
plt.axis("off")
plt.show()

改变词云形状

from scipy.misc import imread
im = imread(r'F:/1.jpg')
ciyun1 = WordCloud(background_color = '#0000FF',mask = im,margin = 2).generate(cut_text)
import matplotlib.pyplot as plt
plt.imshow(ciyun1)
plt.axis("off")
plt.show()

 

 

 

转载于:https://www.cnblogs.com/ShaoJingWen/p/10578733.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/249376.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[JZOJ5866]【NOIP2018模拟9.13】指引

Description Input Output Sample Input 6 3 2 0 3 1 1 3 4 2 0 4 5 5 Sample Output 2 Data Constraint Hint 贪心&#xff0c;把旅行者和出口的x坐标降序排序。 然后从前往后扫&#xff0c;如果是出口&#xff0c;就把y坐标插进set里&#xff0c;如果是旅行者&#xff0c;就查…

scrapy框架之递归解析和post请求

今日概要 递归爬取解析多页页面数据scrapy核心组件工作流程scrapy的post请求发送今日详情 1.递归爬取解析多页页面数据 - 需求&#xff1a;将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析&#xff1a;每一个页面对应一个url&#xff0c;则scrapy工程需…

SmartGit 过期解决方案之 非商业版本安装使用

作为前端开发的小伙伴一定有这样的困惑&#xff0c;自己在日常的团队协作配合时&#xff0c;提交代码和解决冲突是我们最头疼的问题&#xff0c;但是又不喜欢使用Eclipse或者IDEA这种超级占内存的编辑器&#xff0c;使用Git命令又是那么捉襟见肘&#xff0c;所以有一个好用的轻…

vue使用webPack打包发布后页面显示空白

今天笔者将打包后&#xff0c;进行访问&#xff0c;访问到index.html&#xff0c;但是出现的是空白页。 打包命令&#xff1a;npm run build&#xff0c;打包后的文件如下&#xff1a; 这是因为index.html中引入的css ,js 的路径不对:如下图 这个是因为webpack打包的时候引入…

第一次实验报告

c程序实验报告 姓名&#xff1a;黄志乾 实验地点&#xff1a;教学楼514教室 实验时间&#xff1a;3月19日实验项目: 1、字符与ASCII码 2、运算符与表达式的应用 3、顺序结构应用程序 4、数学函数的算法描述 5、鸡兔同笼的算法描述 6、确定坐标的算法描述…

Mac下Idea安装Git报错Xcrun问题的解决

使用过IDEA的小伙伴都知道&#xff0c;它和我们之前用过的Eclipse一样强大&#xff0c;或者比他更强大。当它配合的Mac使用时&#xff0c;就会变得更得心应手&#xff0c;少去很多环境配置的环节。其中最典型的就是Git 由于Mac自带就安装了git, 大家可以通过终端输入命令“git…

关于Django路由层简单笔记

Django—路由层 URL配置(URLconf)就像Django 所支撑网站的目录。它的本质是URL与要为该URL调用的视图函数之间的映射表&#xff1b;你就是以这种方式告诉Django&#xff0c;对于客户端发来的某个URL调用哪一段逻辑代码对应执行。 1&#xff0c;简单的路由配置 from django.urls…

hdu 5183

hdu 5183(Hash处理区间问题) 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid5183 题意:给出一个n个元素的数组,现在要求判断 a1-a2a3-a4...../-an 中是否存在某个某个区间使得 ai-ai1ai2...(-1)j-iaj k?? 这个题要利用Hash就可以实现几乎在 O(n) 的时间内实现查找判断…

vue-cli,webpack安装

第一步应该下载node.js这是安装vue-cli的基础工具。官网下载快捷安全可&#xff1a;https://nodejs.org/en/ 第二步打开命令面板找到你要安装的位置 第三步就是安装全局vue-cli 命令操作 npm intatll -g vue-cli 安装完毕之后 可以检查安装版本即 vue -V 如下图 这还不算完&…

CSS3笔记之定位篇(二)z-index

知识点1&#xff1a;z-index基础 z-index&#xff1a;auto; 默认值 z-index: <integer> 整数 z-index: inherit 继承 不考虑css3 还有定位元素的z-index才有作用 知识点2&#xff1a;z-index与定位元素 无嵌套&#xff1a;后来居上&#xff0c;哪个大哪个上 //在没有…

【我所认知的BIOS】— uEFI AHCI Driver(8) — Pci.Read()

【我所认知的BIOS】—> uEFI AHCI Driver(8) — Pci.Read()LightSeed6/19/2014社会一直在变。不晓得是不是社会变的太苦开&#xff0c;而我没变所以我反而显得单纯了。办一个居住证。几年前办的以为最终能够一劳永逸的&#xff0c;后来续办的是发现确实不难了。尼玛&#xf…

springboot项目集成vue

vue的项目目录如下&#xff1a; vue项目打包 首先进入项目目录&#xff1a;cd 项目名 然后执行打包命令&#xff1a;npm run build随后我们的项目中会多出一个dist文件夹&#xff1a;如下图 然后将dist文件夹中的所有内容放到eclipse中的src/main/resources/static文件夹里面…

Vue项目启动webpack报错Module build failed: Error: No PostCSS Config found in......

自己写的公司项目&#xff0c;今天需要提交到公司版本库&#xff0c;可是在本地启动正常的项目&#xff0c;拷贝到git文件目录下突然报错Module build failed: Error: No PostCSS Config found in......&#xff0c;源文件都没有改动过&#xff01; 然后自己各种百度&#xff…

逆向工程生成的Mapper.xml以及*Example.java详解

逆向工程生成的接口中的方法详解 在我上一篇的博客中讲解了如何使用Mybayis逆向工程针对单表自动生成mapper.java、mapper.xml、实体类&#xff0c;今天我们先针对mapper.java接口中的部分方法进行测试&#xff0c;以了解其作用。 先看表结构。。。 从下图可以看到MBG根据数据表…

SpringBoot之静态资源访问

SpringBoot之静态资源访问 1.springboot访问静态资源的几种方式 (1)在src/main/resources/目录下创建 static文件夹 (2)在src/main/resources/目录下创建 resources文件夹 (3)在src/main/resources/目录下创建 public文件夹 (4)在src/main/resources/目录下创建 META-INF/resou…

几何

题目大意定义一个$S-$四面体表示六条边由$S$根不同的木棍组成&#xff0c;定义一种染色方法合法当且仅当至少有$S$根木棍被染色且与每个顶点相邻的三根木棍中至多有一根被染色&#xff0c;求有$N$个$S1,2...N$四面体&#xff0c;求至少染$K$个的方案数。 题解 单独考虑$S1$四面…

VUE的element-ui的使用

我们在自己的网站当中有的时候会用到element-ui的组建 1.如何安装element-ui的组件 在命令行工具当中输入cnpm i element-ui -S, 等待安装 2.如何在vue当中使用element-ui的组件 1.在main.js中引入element相关的js和cssimport Vue from vueimport ElementUI from element-u…

SpringBoot入门教程(一)详解intellij idea搭建SpringBoot

最近公司有一个内部比赛(黑客马拉松)&#xff0c;报名参加了这么一个赛事&#xff0c;在准备参赛作品的同时&#xff0c;由于参赛服务器需要自己搭建且比赛产生的代码不能外泄的&#xff0c;所以借着这个机会&#xff0c;本地先写了个测试的demo&#xff0c;来把tomcat部署相关…

文艺平衡树 Splay 学习笔记(1)

&#xff08;这里是Splay基础操作&#xff0c;reserve什么的会在下一篇里面讲&#xff09; 好久之前就说要学Splay了&#xff0c;结果苟到现在才学习。 可能是最近良心发现自己实在太弱了&#xff0c;听数学又听不懂只好多学点不要脑子的数据结构。 感觉Splay比Treap良心多了—…

AnswerOpenCV(1001-1007)一周佳作欣赏

外国不过十一&#xff0c;所以利用十一假期&#xff0c;看看他们都在干什么。一、小白问题http://answers.opencv.org/question/199987/contour-single-blob-with-multiple-object/ Contour Single blob with multiple objectHi to everyone. Im developing an object shape id…