python 【包含数据预处理】基于词频生成词云图

基于词频生成词云图

背景目的

有一篇中文文章,或者一本小说。想要根据词频来生成词云图。

基于词频生成词云步骤

为什么中文需要分词

中文分词是理解和处理中文文本的关键步骤,它直接影响到后续的文本分析和信息提取的准确性和有效性。

  • 无明显单词分隔:中文文本不像英文那样使用空格来分隔单词,中文字符通常连续书写,没有明显的单词边界。

  • 语言单位:中文的基本语言单位是字,但单独的字往往不能表达完整的意思。中文的表达往往需要由多个字组成的词语来实现。

  • 语境依赖性:中文词语的意义很大程度上依赖于语境,相同的字在不同的词语中可能有不同的意义。

  • 词义丰富性:中文中的词语往往比单个的字具有更丰富的语义信息,分词有助于更准确地理解文本内容。

  • 语法复杂性:中文的语法结构相对复杂,词语的顺序、搭配和使用习惯对句子意义的影响很大。

  • 自然语言处理:在自然语言处理领域,分词是中文文本分析的基础步骤,无论是进行词性标注、命名实体识别还是句法分析,都需要先进行分词。

  • 信息检索和文本挖掘:分词可以提高中文信息检索和文本挖掘的准确性,有助于提取关键词和短语,从而更好地理解文本内容。

文本预处理

最终目的是,生成句子数组。

在进行中文文本分析前,必须执行数据预处理步骤,以提升后续处理的准确性和效率。这包括:

  • 移除文本中的特殊符号,因为它们通常不携带有用信息,且可能干扰分词算法。
  • 统一替换空格、换行符、制表符等空白字符为中文逗号,以保持句子的连贯性。
  • 删除无意义的英文字母,因为它们对于中文文本分析不是必要的。
  • 清除文本中的网址、图片链接、日期等信息,这些通常与文本的主题无关,可能会影响分析结果。

数据处理函数

处理文本,过滤不需要无意义的字符。

import redef data_process(str_data):# 定义正则表达式模式# 去除换行、空格str_data = re.sub(r'[\n\s]+', '', str_data)# 匹配网址url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'# 匹配日期格式如 YYYY/MM/DD, YYYY-MM-DD, YYYY年MM月DD日date_pattern = r'\d{4}[/\\-]?\d{1,2}[/\\-]?\d{1,2}'# 匹配邮箱地址email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'# 匹配数字number_pattern = r'\d+'# 匹配英文字母english_letter_pattern = r'[a-zA-Z]'# 替换空白字符为空格str_data = re.sub(r'\s', ',', str_data)# 删除特殊符号、网址、日期、邮箱、数字和英文字母str_data = re.sub(url_pattern, '', str_data)str_data = re.sub(date_pattern, '', str_data)str_data = re.sub(email_pattern, '', str_data)str_data = re.sub(number_pattern, '', str_data)str_data = re.sub(english_letter_pattern, '', str_data)# 删除标点符号punctuation = r""""!!??#$%&'()()*+-/:;▪³/<=>@[\]^_`●{|}~⦅⦆「」、、〃》「」『』【】[]〔〕〖〗〘〙{}〚〛*°▽〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""str_data = re.sub(f"[{re.escape(punctuation)}]+", '', str_data)return str_data.strip()sample_text = "这是一个例子。\n包含网址 http://example.com,参考文献[1]{,日期2024-06-18。"
processed_text = data_process(sample_text)
print(processed_text)

句子数组函数封装

读取txt文件生成句子数组

image-20240618101358125
def getText(filename):sentences = []with open(filename, 'r', encoding='utf-8') as fp:for line in fp:processed_line = data_process(line)if processed_line:  # 检查处理后的句子是否为空或只包含空白字符sentences.extend(re.split(r'[。!?]', processed_line))  # 使用更复杂的句子划分规则# 去除列表中的空字符串sentences = [sentence for sentence in sentences if sentence.strip()]return sentences

输出结果

image-20240618101500347

分词和词频统计

jieba分词

Jieba分词是一个流行的中文分词Python库,它的主要特点和作用可以简单概括为:

什么是Jieba分词:一个用于中文文本分词的库。

做了什么:识别中文文本中的单词边界,将连续的文本切分成单独的词语。

得到什么:提供分词后的结果,即文本中各个词语的列表。

img

Jieba 分词器属于概率语言模型分词,基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况构建成有向无环图,然后采用动态规划寻找最大概率路径,找出基于词频的最大切分组合。对于不存在与前缀词典中的词,采用了汉字成词能力的 HMM 模型,使用了 Viterbi 算法。Jieba 的切分模式有全模式、精确模式、搜索引擎模式,更多详细信息可以查看 github 仓库。

以下是 Jieba 分词器中一些常用函数的:

函数名描述
jieba.cut对输入文本进行分词,返回一个可迭代的分词结果
jieba.cut_for_search在搜索引擎模式下对输入文本进行分词,返回一个可迭代的分词结果
jieba.lcut对输入文本进行分词,返回一个列表形式的分词结果
jieba.lcut_for_search在搜索引擎模式下对输入文本进行分词,返回一个列表形式的分词结果
jieba.add_word向分词词典中添加新词
jieba.del_word从分词词典中删除指定词
jieba.load_userdict加载用户自定义词典
jieba.analyse.extract_tags提取文本中的关键词,返回一个列表形式的关键词结果

词频函数封装

统计句子列表中名词(‘n’, ‘nr’, ‘nz’)的词频, 返回一个字典

import jieba.posseg as psgdef getWordFrequency(sentences):"""统计句子列表中名词('n', 'nr', 'nz')的词频:param sentences: 包含多个句子的列表:return: 包含名词词频的字典"""words_dict = {}  # 用于存储词频的字典for text in sentences:# 去掉标点符号text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "", text)# 使用结巴分词进行词性标注wordGen = psg.cut(text)# 遍历分词结果,统计名词词频for word, attr in wordGen:if attr in ['n', 'nr', 'nz']:  # 判断词性是否为名词if word in words_dict.keys():words_dict[word] += 1else:words_dict[word] = 1return words_dictif __name__ == "__main__":sentences = getText("../百度百科-黄河.txt")# pprint(sentences)words_dict = getWordFrequency(sentences)pprint(words_dict)

输出结果

image-20240618103345980

由词频生成词云

完整代码

import re
from pprint import pprint
import jieba.posseg as psg
from wordcloud import WordCloud
import matplotlib.pyplot as pltdef data_process(str_data):"""卫星号: Wusp1994企鹅号: 812190146"""# 定义正则表达式模式# 去除换行、空格str_data = re.sub(r'[\n\s]+', '', str_data)# 匹配网址url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'# 匹配日期格式如 YYYY/MM/DD, YYYY-MM-DD, YYYY年MM月DD日date_pattern = r'\d{4}[/\\-]?\d{1,2}[/\\-]?\d{1,2}'# 匹配邮箱地址email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'# 匹配数字number_pattern = r'\d+'# 匹配英文字母english_letter_pattern = r'[a-zA-Z]'# 替换空白字符为空格str_data = re.sub(r'\s', ',', str_data)# 删除特殊符号、网址、日期、邮箱、数字和英文字母str_data = re.sub(url_pattern, '', str_data)str_data = re.sub(date_pattern, '', str_data)str_data = re.sub(email_pattern, '', str_data)str_data = re.sub(number_pattern, '', str_data)str_data = re.sub(english_letter_pattern, '', str_data)# 删除标点符号punctuation = r""""!!??#$%&'()()*+-/:;▪³/<=>@[\]^_`●{|}~⦅⦆「」、、〃》「」『』【】[]〔〕〖〗〘〙{}〚〛*°▽〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""str_data = re.sub(f"[{re.escape(punctuation)}]+", '', str_data)return str_data.strip()def getText(filename):sentences = []with open(filename, 'r', encoding='utf-8') as fp:for line in fp:processed_line = data_process(line)if processed_line:  # 检查处理后的句子是否为空或只包含空白字符sentences.extend(re.split(r'[。!?]', processed_line))  # 使用更复杂的句子划分规则# 去除列表中的空字符串sentences = [sentence for sentence in sentences if sentence.strip()]return sentencesdef getWordFrequency(sentences):"""统计句子列表中名词('n', 'nr', 'nz')的词频:param sentences: 包含多个句子的列表:return: 包含名词词频的字典"""words_dict = {}  # 用于存储词频的字典for text in sentences:# 去掉标点符号text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "", text)# 使用结巴分词进行词性标注wordGen = psg.cut(text)# 遍历分词结果,统计名词词频for word, attr in wordGen:if attr in ['n', 'nr', 'nz']:  # 判断词性是否为名词if word in words_dict.keys():words_dict[word] += 1else:words_dict[word] = 1return words_dictif __name__ == "__main__":sentences = getText("../百度百科-黄河.txt")# pprint(sentences)words_dict = getWordFrequency(sentences)# 创建 wordcloud 对象,背景图片为 graph,背景色为白色wc = WordCloud(font_path='../Hiragino.ttf', width=800, height=600, mode='RGBA', background_color=None)# 生成词云wc.generate_from_frequencies(words_dict)# 显示词云plt.imshow(wc, interpolation='bilinear')plt.axis('off')plt.show()

词云结果

image-20240618104121953

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29175.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Einops 张量操作快速入门

张量,即多维数组,是现代机器学习框架的支柱。操纵这些张量可能会变得冗长且难以阅读,尤其是在处理高维数据时。Einops 使用简洁的符号简化了这些操作。 Einops (Einstein-Inspired Notation for operations)&#xff…

BGP、IGP、EGP学习

文章目录 前言边界网关协议(BGP)内部网关协议(IGP)外部网关协议(EGP)联系与区别 前言 本文是对边界网关协议(BGP)、内部网关协议(IGP)和外部网关协议&#x…

linux top命令显示系统资源使用情况

通过这些键盘快捷键和操作,您可以在 top 命令中查看特定的系统资源使用情况,按不同的指标对进程进行排序,以及更好地监视系统的运行情况。 top 或 htop:显示系统资源使用情况,包括 CPU 占用、内存使用以及运行的进程信…

NLP学习与踩坑记录(持续更新版)

NLP学习与踩坑记录(持续更新版) OSError: Cant load tokenizer for bert-base-uncased.google.protobuf.message.DecodeError: Error parsing messageDeepspeed 本博客记录了博主在学习NLP时遇到了各种各样的问题与解决方法,供大家参考&#…

JS最新的关键字和保留字

在JavaScript中,关键字和保留字是用于定义语言语法和特性的特殊标识符。这些关键字和保留字不能被用作变量名、函数名或其他标识符。以下是JavaScript中最新的关键字和保留字的分点表示和归纳: 关键字(Keywords) JavaScript中的…

oracle SCHEDULER

从Oracle 10g开始,推荐使用DBMS_SCHEDULER包,因为它提供了更强大的功能和灵活性,包括更复杂的调度规则、依赖管理和事件驱动等 1. 用法 DBMS_SCHEDULER.CREATE_JOB (job_name IN VARCHAR2,job_type IN VARCHAR2,job…

软件测试流派:深入比较与总结

软件测试流派:深入比较与总结 前言1. 分析流派2. 标准流派3. 质量流派4. 上下文驱动流派5. 敏捷流派流派比较与总结 前言 在现代软件开发中,不同的软件测试流派代表了各自独特的方法论、实践重点和案例应用。理解这些流派的差异有助于选择适合特定项目需…

温度传感器NST175手册阅读

温度传感器NST175手册阅读 首先看芯片的输入和输出:主要关注IIC接口,毕竟是要驱动这个芯片读取温度。在编写此博客时还未对改温度传感器进行调试,只是阅读手册,把需要重点关注的地方标记出来。 一、芯片管脚 二、温度输出格式 …

618大促背后:优秀制造企业如何精准备货?

618这场年中购物盛宴点燃了消费者的热情。而在背后,是许许多多的制造企业在默默发力,对于他们来说,这不仅仅是一个促销的机会,更是一个检验供应链响应速度、库存管理能力以及市场洞察力的关键时刻。那么,优秀的制造企业…

WACV2024检测Detection论文49篇速览

WACV2024 Detection论文摘要速览49篇 Paper1 CLRerNet: Improving Confidence of Lane Detection With LaneIoU 摘要小结: 车道线检测是自动驾驶和驾驶辅助系统中的关键组成部分。现代基于锚点的深度车道检测方法在车道检测基准测试中表现出色。通过初步的实验,我们…

前端菜鸡流水账日记 -- 各类网站(持续更新版)

哈喽大家,这篇文章主要是打算用来放一些我们平时用的到的连接之类的,大多数都是我自己收藏了的,现在和之后如果有新增都会放到这里,持续更新的~~~~ (各种类型的都有) -----------------------------------…

5.卷积神经网络

目录 1.从全连接到卷积分类猫和狗的图片总结2.卷积层一维卷积,二维卷积,三维卷积总结基础卷积的代码实现3.卷积层里的填充和步幅填充步幅总结4.卷积层里的多输入多输出通道多个输入通道多个输出通道多个输入和输出通道1 * 1卷积层总结5.池化层二维最大池化池化层的填充,步幅…

macbook屏幕录制技巧,这2个方法请你收好

在当今数字化时代,屏幕录制成为了一项不可或缺的技能,无论是教学演示、游戏直播,还是软件操作教程,屏幕录制都能帮助我们更直观地传达信息。MacBook作为苹果公司的标志性产品,其屏幕录制功能也备受用户关注。本文将详细…

区区微服务,何足挂齿?

背景 睿哥前天吩咐我去了解一下微服务,我本来想周末看的,结果周末没带电脑,所以只能周一看了。刚刚我就去慕课网看了相关的视频,然后写一篇文章总结一下。这篇文章算是基础理论版,等我之后进行更多的实践,…

Cesium4Unreal - # 011A Http通信

文章目录 Http通信1 思路2 步骤2.1 添加依赖模块2.2 实现Http客户端2.2.1 MyHttpActor.h2.2.1 MyHttpActor.cpp2.3 蓝图代码2.4 数据Http通信 1 思路 在 Unreal Engine中接收 Http数据,我们可以使用Unreal Engine自带的Http支持。 2 步骤 2.1 添加依赖模块 在项目的 Your…

帕金森患者在饮食上需要注意什么

帕金森病患者在饮食上应该遵循以下几个基本原则: 饮食清淡:应多吃新鲜的水果和蔬菜,如苹果、芹菜、菠菜等,以补充维生素和促进胃肠道蠕动。营养均衡:应多吃富含优质蛋白的食物,如鸡蛋、牛奶,以…

Swift开发——元组

Swift语言的数据类型包括整型、浮点型、字符串、布尔型、数组、元组、集合和字典等,本文将详细介绍元组。 01、元组 严格意义上,元组不属于数据类型,而属于数据结构。元组将一些变量或常量或字面量组织成一个有序的序列,索引号从0开始,用圆括号“()”括起来,各个元素间用…

hive 安装 嵌入模式 笔记

$ hive $ HIVE_HOME/bin/schematool -dbType derby –initSchema $ schematool -verbose -validate -dbType derby $HIVE_HOME/bin/hiveserver2 这个启动了先不要关闭,再打开一个终端进行下面的步骤 Beeline -u (用自己的名字和密码) show d…

redis每日一题:Redis哨兵是如何工作的

状态感知: (1)哨兵要知道整个集群的拓扑关系,因此每隔10秒会向master节点发送info命令,返回信息中,包含了每个slave节点的端口号。 (2)向每个master节点特殊的pubsub中发送master当…

毕业答辩PPT:如何在短时间内高效准备?

提起PPT,大家的第一反应就是痛苦。经常接触PPT的学生党和打工人,光看到这3个字母,就已经开始头痛了: 1、PPT内容框架与文案挑战重重,任务艰巨,耗费大量精力。 2、PPT的排版技能要求高,并非易事…