python 词云 wordcloud使用paddle模式庆余年人物分析--不是特别准，可以看着玩一玩

看完之后你也可以生成自己的词云

提供一个过滤人名的英中词性分析对应，更多的可以去我的码云上看看
https://gitee.com/billion_lines_of_code/learn-wordcloud

# 只过滤人名
En2Cn_name = {'nr': '名词-人名','nr1': '名词-汉语姓氏','nr2': '名词-汉语名字','nrf': '名词-音译人名','nrfg': '名词-人名',
}

代码中字符串的位置，大部分是可以替换的，你想要的自己改改偶

# 时间包，为了计算程序耗时
import datetime
# 规则执行 便于正则使用
import re
# 中文分析库
import jieba
# 获取词性
import jieba.posseg
# 多进程包
import multiprocessing
# 词云库
import wordcloud
# 集合包
import collections
# 绘图
import numpy
# 图片处理
from PIL import Image
# 图片处理，字体
import matplotlib.pylab as plt
# 本地的文件，词性模版
import baseresource.EnToCN as EnToCNdef jieba_doing(text_str, dic):# 动态调整词典jieba.suggest_freq('', True)# 可以添加用户的词典if dic:jieba.load_userdict('')# 文本分词 精确分词+HMMreturn jieba.cut(text_str, cut_all=False, HMM=True)def jieba_doing_paddle(text_str, dic):# 动态调整词典jieba.suggest_freq('', True)# 可以添加用户的词典if dic:jieba.load_userdict('')# 文本分词 精确分词+HMMreturn jieba.cut(text_str, cut_all=False, HMM=True, use_paddle=True)def main_process():# 词云分析文件# 分析文档analysis_text = '/Users/mac/Downloads/庆余年.txt'number = 100output_file = '词频.txt'text_str = read_text_file(analysis_text)# 文本处理# 正则表达式过滤# 过滤中文符号pattern = re.compile(u'[^a-zA-Z0-9\u4e00-\u9fa5]')text_str = remove_no_need_words(pattern, text_str)# jieba库做的一些事情# word_list_analysis = jieba_doing(text_str, '')word_list_analysis = jieba_doing_paddle(text_str, '')word_list_analysis = list(word_list_analysis)# 使用多进程处理，加快处理速度object_list = multi_process(word_list_analysis, 4)# 词频统计word_count = collections.Counter(object_list)word_count_top = word_count.most_common(number)print('词语\t词频\t词性\n')# 只写名词file_write(output_file, word_count_top, number, EnToCN.En2Cn_name)word_count_top = dict(word_count_top)print('\n 开始制作词云')mask = numpy.array(Image.open('../photomodel/chinamap.jpeg'))do_wordCloud(word_count_top, mask, 5000)# 制作词云
def do_wordCloud(word_count_top, mask, dpi):wc = wordcloud.WordCloud(background_color='white',font_path='../fontmodel/mashanzhengmaobikaishu.ttf', mask=mask,max_font_size=150)wc.generate_from_frequencies(word_count_top)# print(word_count_top)plt.figure('词云')plt.imshow(wc)plt.axis('off')# png = '%s.png' % nameplt.savefig('庆余年人物.png', dpi=dpi)plt.show()print('制作完成')pass# 输出文词频分析文件，需要文件，高频词数组，需要词的个数，词性分析的模版数组
def file_write(output_file, word_count_top, number, EnToCNlist):# 输出文件file_out = open(output_file, 'w', encoding='utf-8')file_out.write('词语\t词频\t词性\n')file_out.write('--------\n')count = 0for TopWord, Frequency in word_count_top:  # 获取词语和词频for POS in jieba.posseg.cut(TopWord):  # 获取词性if count == number:breakif POS.flag in list(EnToCNlist.keys()):print(TopWord + '\t', str(Frequency) + '\t',list(EnToCNlist.values())[list(EnToCNlist.keys()).index(POS.flag)])  # 逐行输出数据file_out.write(TopWord + '\t' + str(Frequency) + '\t' + list(EnToCNlist.values())[list(EnToCNlist.keys()).index(POS.flag)] + '\n')  # 逐行写入str格式数据count += 1file_out.close()  # 关闭文件# 去掉文本的不需要的内容
def remove_no_need_words(pattern, text_str):# 去掉符合的符号text_str = re.sub(pattern, '', text_str)return text_str# 输入要分析的文档
def read_text_file(analysis_text):# 读取文件file = open(analysis_text, 'r', encoding='utf-8')text_str = file.read()file.close()return text_str# 词性过滤方法,词性模版
def filter_method(word_list_analysis):object_list = []for word in word_list_analysis:if len(word) < 2:continuefor speech in jieba.posseg.cut(word):if speech.flag in list(EnToCN.En2Cn_name.keys()):object_list.append(word)return object_list# 多进程处理，加快速度
def multi_process(word_list_analysis, num):object_list = []pool = multiprocessing.Pool(num)# 将数组拆分为多块parts = [word_list_analysis[i:i + num] for i in range(0, len(word_list_analysis), num)]results = pool.map(filter_method, parts)for result in results:object_list.extend(result)pool.close()return object_listif __name__ == '__main__':start = datetime.datetime.now()main_process()end = datetime.datetime.now()print(end - start)

paddlepaddle-tiny error 安装不成功使用下面的命令

 python3 -m pip install paddlepaddle-tiny -i https://mirror.baidu.com/pypi/simple

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/148699.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python 词云 wordcloud使用paddle模式庆余年人物分析--不是特别准，可以看着玩一玩

看完之后你也可以生成自己的词云

相关文章

【0到1学习Unity脚本编程】第一人称视角的角色控制器

图像滤波处理

ClickHouse SQL 查询优化

自动驾驶学习笔记（九）——车辆控制

在 Linux 环境下的简单调试技巧

Kotlin 知识体系

『亚马逊云科技产品测评』活动征文｜借助AWS EC2搭建服务器群组运维系统Zabbix+spug

LRU最近最少使用算法

掌握深度学习利器——TensorFlow 2.x实战应用与进阶

在 Linux 上搭建 Java Web 项目环境（最简单的进行搭建）

母婴服务预约小程序的效果如何

【Kingbase FlySync】命令模式:安装部署同步软件，实现KES到KES实现同步

git rebase 和 git merge的区别？以及你对它们的理解？

【论文解读】FFHQ-UV:用于3D面部重建的归一化面部UV纹理数据集

mybatis动态sql语法

基于深度学习的恶意软件检测

sqli-labs关卡18(基于http头部报错盲注)通关思路

LV.12 D18 中断处理学习笔记

【Python】解析CPP类定义代码，获取UML类图信息

H110主板搭配魔改QNCW升级小记

python 词云 wordcloud使用paddle模式 庆余年人物分析--不是特别准，可以看着玩一玩

看完之后你也可以生成自己的词云

相关文章

python 词云 wordcloud使用paddle模式庆余年人物分析--不是特别准，可以看着玩一玩