大数据—“西游记“全集文本数据挖掘分析实战教程

项目背景介绍

四大名著,又称四大小说,是汉语文学中经典作品。这四部著作历久不衰,其中的故事、场景,已经深深地影响了国人的思想观念、价值取向。四部著作都有很高的艺术水平,细致的刻画和所蕴含的思想都为历代读者所称道。

本次将以小说《西游记》为例,介绍中文文本的统计分析和文本发掘等方面的基本知识。

数据准备

关于怎样获取小说,本文就不展示了,通过了一点技术手段,从某小说网站源代码里提取的,共101回(章)。

提取出来是长成下图这样的:
在这里插入图片描述

文件处理: 如果大家文件不是“.txt”结尾的,比如我的macbook显示的就是可执行文件,可以通过下面的代码批量修改为“*.txt”的文本文件。

import os
import glob# 获取当前目录下的所有文件
files = glob.glob('/Users/c/PycharmProjects/pythonProject/spyder/爬虫/百度小说/(异步爬虫)西游记/*')# 遍历文件列表,为每个文件添加.txt后缀
for file in files:# 检查文件是否已经是.txt格式if not file.endswith('.txt'):# 为文件添加.txt后缀new_file = file + '.txt'# 重命名文件os.rename(file, new_file)

文本处理:
现在需要将101回全部合并到一个文本文件里,用手复制吗?NO,肯定是用代码搞定了。

import os
import glob# 获取所有txt文件
txt_files = glob.glob('/Users/c/PycharmProjects/pythonProject/spyder/爬虫/百度小说/(异步爬虫)西游记/*.txt')# 创建一个新的文件用于存储合并后的内容
with open('合并文本.txt', 'w', encoding='utf-8') as merged_file:# 遍历所有txt文件for file in txt_files:# 读取文件内容with open(file, 'r', encoding='utf-8') as f:content = f.read()# 将文件内容写入到新文件中merged_file.write(content)merged_file.write('\n')  # 在每个文件内容之间添加换行符

合并后长这样,可以仔细看第一行和最后一行就明白了:

在这里插入图片描述

项目流程

获取文本:

# 获取文本数据
with open('/Users/c/jupyter lab/练习/合并文本.txt','r',encoding='utf-8')as f:text = f.read()
import jieba# 分词并统计词频
def wordFreq(text,topn):words = jieba.lcut(text.strip()) # 对文本进行分词操作counts = {}for word in words:  # 统计每个词出现的频率,存放在字典counts中if len(word) == 1:  # 如果该词的长度为1,则跳过,不参与统计。continuecounts[word] = counts.get(word,0) + 1items = list(counts.items())items.sort(key=lambda x:x[1],reverse=True)  # 按照词频进行排序f = open('HLM_词频.txt','w',encoding='utf-8')for i in range(topn):  # topn表示要取的词的个数,将频率最高的topn个词及其频率数存放在文件中word,count = items[i]f.writelines("{}\t{}\n".format(word,count))f.close() wordFreq(text,20)  # 这里我们提取出频率最高的前20个词

上面我们读取了文本,首先进行文本分词,不统计字符长度为1的词语,将分词后按词语出现的总次数(频数)进行降序排列保存至’HLM_词频.txt’文件内,见下图,词语出现最多的是行者,出现了4012次,毕竟是主角。

在这里插入图片描述

我们还可以去除停用词,也就是你不想统计的词语,在上面代码的基础上修改即可,就不展示结果了,只上代码。

# 分词并统计词频
def wordFreq(text,topn):words = jieba.lcut(text.strip()) # 对文本进行分词操作# 加载停用词库stopwords = [line.strip() for line in open('停用词库.txt','r',encoding='utf-8').readlines()]counts = {}for word in words:  # 统计每个词出现的频率,存放在字典counts中if len(word) == 1:  # 如果该词的长度为1,则跳过,不参与统计。continueelif word not in stopwords:  # 如果该词不在停用词列表stopwords中,才参与统计counts[word] = counts.get(word,0) + 1items = list(counts.items())items.sort(key=lambda x:x[1],reverse=True)  # 按照词频进行排序f = open('HLM_词频.txt','w',encoding='utf-8')for i in range(topn):  # topn表示要取的词的个数,将频率最高的topn个词及其频率数存放在文件中word,count = items[i]f.writelines("{}\t{}\n".format(word,count))f.close() 

注意的是需要将不想统计的词语提前存入文本文件内。

绘制词云图:

# 绘制词云
import matplotlib.pyplot as plt
import wordcloud
import imageio
wordFreq(text,500)  # 获取TOP500的词频
word_cloud_text = open('HLM_词频.txt','r',encoding='utf-8').read()
bg_pic = imageio.imread('WechatIMG436.jpg') # 读入形状图片
wc = wordcloud.WordCloud(font_path='/Library/Fonts/Arial Unicode.ttf',background_color='white',width=1000,max_words=200,mask=bg_pic,  # mask参数设置词云形状height=860,margin=2).generate(word_cloud_text)
wc.to_file('HLMcloud_star.png')  # 保存图片

在这里插入图片描述
老规矩给大家科谱一下怎样看词云图:上图是用出现次数最多的前500词语进行绘制的。

词云图 是一种可视化表示文本数据的方法,通过使不同频率的词汇以不同的字体大小显示出来,形成一种视觉上的“云”效果。它被广泛用于展示大量的文本数据中的关键词,直观地显示各个词的重要性和频率。以下是具体介绍:

使用场景:

  • 词云图可以在不同的形状模板中生成,如圆形、心形、菱形等,增加视觉效果。
  • 支持多种颜色配色方案,用户可以根据需要选择合适的配色。
  • 在线工具如易词云提供分词功能,特别适合中文文本的处理。
  • 能够导出为常用的图像格式(如jpg, png)或pdf文件,方便分享和展示。

技术实现:

  • 许多在线词云图生成器支持用户直接上传文本或Excel文件,并自动统计词频生成词云图。
  • 部分工具允许用户自定义词云图中的文字大小、间隙和旋转角度等参数。
  • 高级用户可以通过JSON配置编辑ECharts图表参数,实现更高级的个性化设置。

操作指南:

  • 在设计词云图时,建议每行文字保持在2到6个字之间,以获得最佳显示效果。
  • 当使用自选图片模式时,如果图片分辨率较高,则可以适当增加内容;反之,则应减少内容以防生成的词云图过于拥挤。
  • 对于自选形状模式,不建议设置过多内容,以免形状不明显,影响最终效果。

优化建议:

  • 考虑使用轮廓图片,使词云图沿着轮廓图片的非白色区域延申,增加视觉效果。
  • 合理利用停用词功能来排除无关的常见词汇,使关键内容更突出。

开源工具:

  • 可以利用如jieba分词增强词云图的中文处理能力,highcharts提供的词云图生成js等开源工具进行高度定制的开发。

官方的东西说半天没说到重点,我来总结就是字体越大,代表文本中出现的次数越多。

章回处理

已知我们已将101个文本文件合并到了一起,我们现在需要做一个工作就是统计每回合有多少字,是从多少至多少,听着很难,做着试试吧。

# 章回处理
import re
chapter = re.findall('第[\u4e00-\u9fa5]+回',text)
lst_chapter = []
for x in chapter:  # 去除重复的章节if x not in lst_chapter and len(x)<=5:lst_chapter.append(x)
print(lst_chapter)

运行代码看看:
在这里插入图片描述
通过正则匹配,找到文中所有“第**回”形式的字符。

获取每一回起始和结束共计多少字符:

lst_start_chapterIndex = []
for x in lst_chapter:  # 找出每一回在原文中的起始位置lst_start_chapterIndex.append(text.index(x))lst_end_chapterIndex = lst_start_chapterIndex[1:]+[len(text)]  # 找出每一回在原文中的结束位置,本回的结束位置就是下一回的起始位置。最后一回的结束位置就是全文的结束。zip将每一回的起始和结束位置拼成一个元组,存放在lst_chapterindex列表中。
lst_chapterIndex = list(zip(lst_start_chapterIndex,lst_end_chapterIndex))
print(lst_chapterIndex)

运行代码看到的就是区间数据:
在这里插入图片描述
下面用简单难看的折线图来展示每回合行者出现的次数(好看的图画着都很费力),原著里好像说的悟空叫行者,反正我没看过。

# 统计行者出现的次数
cnt_liulaolao = []
for i in range(99):start = lst_chapterIndex[i][0]end = lst_chapterIndex[i][1]cnt_liulaolao.append(text[start:end].count('行者'))
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
plt.figure(figsize=(15,6))
plt.plot(range(99),cnt_liulaolao,label='行者出场次数')
plt.title('《西游记》——孙行者暴打各路妖怪',fontdict={'fontsize':14})
plt.xlabel('章节数',fontdict={'fontsize':14})
plt.ylabel('出现次数',fontdict={'fontsize':14})
plt.legend()
plt.show()

在这里插入图片描述
打个小结,学会以上的文本方法,在工作中分析点小文本就太简单了。

创作不易,点赞,评论,转发三连走起!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

0元体验苹果macOS系统,最简单的虚拟机部署macOS教程

前言 最近发现小伙伴热衷于在VMware上安装体验macOS系统&#xff0c;所以就有了今天的帖子。 正文开始 首先&#xff0c;鉴于小伙伴们热衷macOS&#xff0c;所以小白搜罗了一圈macOS系统&#xff0c;并开启了分享通道。 本次更新的系统版本是&#xff1a; macOS 10.13.6 ma…

【靶场搭建】-01- 在kali上搭建DVWA靶机

1.DVWA靶机 DVWA&#xff08;Damn Vulnerable Web Application&#xff09;是使用PHPMysql编写的web安全测试框架&#xff0c;主要用于安全人员在一个合法的环境中测试技能和工具。 2.下载DVWA 从GitHub上将DVWA的源码clone到kali上 git clone https://github.com/digininj…

温湿度采集与OLED显示

目录 一、什么是软件I2C 二、什么是硬件I2C 三、STM32CubeMX配置 1、RCC配置 2、SYS配置 3、I2C1配置 3、I2C2配置 4、USART1配置 5、TIM1配置 6、时钟树配置 7、工程配置 四、设备链接 1、OLED连接 2、串口连接 3、温湿度传感器连接 五、每隔2秒钟采集一次温湿…

第二十三篇——香农第二定律(二):到底要不要扁平化管理?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 对于企业的理解&#xff0c;扁平化的管理&#xff0c;如果从香农第二定律…

Qt 实战(5)布局管理器 | 5.2、深入解析Qt布局管理器

文章目录 一、深入解析Qt布局管理器1、为什么要使用布局管理器&#xff1f;2、布局管理器类型3、布局管理器用法详解3.1、QBoxLayout&#xff08;垂直与水平布局&#xff09;3.2、QGridLayout&#xff08;网格布局&#xff09;3.3、QFormLayout&#xff08;表单布局&#xff09…

特斯拉、路特斯、中国一汽、毕博、博世等企业将出席中国汽车供应链降碳和可持续国际峰会

由ECV International 举办的2024中国汽车供应链脱碳与可持续国际峰会将于2024年9月23-24日在上海召开。 在本次峰会上&#xff0c;来自全球各地的行业领袖、政策制定者、研究人员和利益相关者将齐聚一堂&#xff0c;商讨对于减少碳排放和促进整个汽车供应链可持续实践至关重要…

教学资源共享平台的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;管理员管理&#xff0c;老师管理&#xff0c;用户管理&#xff0c;成绩管理&#xff0c;教学资源管理&#xff0c;作业管理 老师账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用…

什么是拷贝?我:Ctrl + C ...

前言 当谈及拷贝&#xff0c;你的第一印象会不会和我一样&#xff0c;ctrl c ctrl v ... &#xff1b;虽然效果和拷贝是一样的&#xff0c;但是你知道拷贝的原理以及它的实现方法吗&#xff1f;今天就让我们一起探究一下拷贝中深藏的知识点吧。 拷贝 首先来看下面一段代码…

MySQL数据库回顾(1)

数据库相关概念 关系型数据库 概念: 建立在关系模型基础上&#xff0c;由多张相互连接的二维表组成的数据库。 特点&#xff1a; 1.使用表存储数据&#xff0c;格式统一&#xff0c;便于维护 2.使用SQL语言操作&#xff0c;标准统一&#xff0c;使用方便 SOL SQL通用语法 …

粒子群算法PSO优化BP神经网络预测MATLAB代码实现(PSO-BP预测)

本文以MATLAB自带的脂肪数据集为例&#xff0c;数据集为EXCEL格式&#xff0c;接下来介绍粒子群算法优化BP神经网络预测的MATLAB代码步骤&#xff0c;主要流程包括1. 读取数据 2.划分训练集和测试集 3.归一化 4.确定BP神经网络的隐含层最优节点数量 5. 使用粒子群算法优化BP的神…

强得离谱,AI音乐的 Stable Diffusion: MusicGen

节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…

打造完美Mac多屏视界,BetterDisplay Pro一键掌控!

BetterDisplay Pro for Mac是一款专为Mac用户打造的显示器管理与优化软件&#xff0c;旨在为用户带来卓越的视觉体验和工作效率。它凭借强大的功能和简洁易用的界面&#xff0c;成为了Mac用户优化显示器设置的得力助手。 一、全方位管理与优化 BetterDisplay Pro for Mac支持…

探索Python的多媒体解决方案:ffmpy库

文章目录 探索Python的多媒体解决方案&#xff1a;ffmpy库一、背景&#xff1a;数字化时代的多媒体处理二、ffmpy&#xff1a;Python与ffmpeg的桥梁三、安装ffmpy&#xff1a;轻松几步四、ffmpy的五项基本功能1. 转换视频格式2. 调整视频质量3. 音频转换4. 视频截图5. 视频合并…

java架构设计-COLA

参考&#xff1a;https://github.com/alibaba/COLA 架构 要素&#xff1a;组成架构的重要元素 结构&#xff1a;要素直接的关系 意义&#xff1a;定义良好的结构&#xff0c;治理应用复杂度&#xff0c;降低系统熵值&#xff0c;改善混乱状态 创建COLA应用&#xff1a; mvn …

Git的3个主要区域

一般来说&#xff0c;日常使用只要记住下图6个命令&#xff0c;就可以了。但是熟练使用&#xff0c;恐怕要记住60&#xff5e;100个命令。 下面是我整理的常用 Git 命令清单。几个专用名词的译名如下。 Workspace&#xff1a;工作区 Index / Stage&#xff1a;暂存区 Reposito…

你的企业真的适合做私域吗?

现在&#xff0c;都在提倡企业做私域&#xff0c;可是所有的企业都适合做私域吗&#xff1f;看看市场上成功的案例&#xff0c;显然&#xff0c;并不是所有企业都适合做私域&#xff0c;所以&#xff0c;做私域之前&#xff0c;企业也应该充分的分析&#xff0c;自己的优势是什…

spark常见问题

写文章只是为了学习总结或者工作内容备忘&#xff0c;不保证及时性和准确性&#xff0c;看到的权当个参考哈&#xff01; 1. 执行Broadcast大表时&#xff0c;等待超时异常&#xff08;awaitResult&#xff09; 现象&#xff1a;org.apache.spark.SparkException: Exception…

玩转OurBMC第八期:OpenBMC webui之通信交互

栏目介绍&#xff1a;“玩转OurBMC”是OurBMC社区开创的知识分享类栏目&#xff0c;主要聚焦于社区和BMC全栈技术相关基础知识的分享&#xff0c;全方位涵盖了从理论原理到实践操作的知识传递。OurBMC社区将通过“玩转OurBMC”栏目&#xff0c;帮助开发者们深入了解到社区文化、…

【网络】序列化和反序列化

一、序列化和反序列化 序列化和反序列化是计算机中用于数据存储和传输的重要概念。 1.序列化 &#xff08;Serialization&#xff09; 是将数据结构或对象转换成一种可存储或可传输格式的过程。在序列化后&#xff0c;数据可以被写入文件、发送到网络或存储在数据库中&…

UITableView之显示单组数据Demo

需求 UITableView实现显示单组数据。尝试设置不同行高度不同。 效果&#xff1a; 数据展示 实现 与之前分组显示数据的区别在于懒加载的数据模型不同。 &#xff08;1&#xff09;声明数据模型类 类的属性一定要和plist中数据的字段保持一致 interface CZhero : NSObject /…