理论与实战:一篇看懂Python词云

实现原理

导入一篇txt文档,使用jieba库对文档中的文字进行分词,计算各个词汇出现的频率,使用wordcloud库按照词汇频率的大小生成词云。

注意,不是使用wordcloud.generate(),这个方法没有按照词汇频率的方式实现词云

停用词

在讲区别之前,来看看停用词是什么。下面是不调用停用词的词云,观感很差对吧。

实现方式区别

【基于文本生成词云】:txt文章->调用wordcloud.generate(),内部调用停用词->保存图片

这种方法观感很差

【基于频率生成词云】:txt文章->分词->去空格空行->自己手动去除停用词->计算频率生成字典->调用wordcloud.generate_from_frequencies()->保存图

这种方法是理想方法

注意!wordcloud.generate()的参数是字符串,wordcloud.generate_from_frequencies()的参数是字典

你们会注意到,【基于频率生成词云】操作会麻烦一些,需要手动去除停用词。笨方法,但是有用。

看源码,对于stopword的操作,如果调用WordCloud()进行对象的创建,这个创建过程是没有办法处理字典元素的,很蠢

stopwords = set([i.lower() for i in self.stopwords])
if self.collocations:word_counts = unigrams_and_bigrams(words, stopwords, self.normalize_plurals, self.collocation_threshold)
else:words = [word for word in words if word.lower() not in stopwords]word_counts, _ = process_tokens(words, self.normalize_plurals)


介绍库

Jieba库

jieba库是一个方便实用的中文文本分词工具,被广泛应用于中文文本处理和自然语言处理的各个领域。支持三种分词模式:精确模式、全模式和搜索引擎模式。本文使用全模式。

如果想对jieba库的分词模式有更深入的了解,可以看这篇:jieba分词有哪些模式?

Wordcloud库

wordcloud是一个用于生成词云图的Python库。词云图是一种可视化方式,通过将文本中的单词按照频率和重要性进行布局,形成一个类似云朵的图形,其中频率高的单词通常显示得更大、更突出。

代码+解释

导入相关库

from os import path
import jieba
from collections import Counter
from wordcloud import WordCloud, ImageColorGenerator
import numpy as np
from PIL import Image

from os import path: 导入os模块中的path子模块。path模块提供了与文件路径相关的功能,例如文件路径的拼接、判断路径是否存在等。

import jieba: 导入jieba模块。jieba是一个中文分词库,用于将中文文本分割成单词或词语。

from collections import Counter: 从collections模块中导入Counter类。Counter是一个用于计数的工具类,可以用于统计元素出现的次数。

from wordcloud import WordCloud, ImageColorGenerator: 从wordcloud模块中导入WordCloudImageColorGenerator类。WordCloud是一个用于生成词云的工具,ImageColorGenerator用于生成基于图像颜色的词云。

import numpy as np: 导入numpy模块,并将其命名为npnumpy是一个用于进行科学计算的库,提供了高效的数组操作和数值计算功能。

from PIL import Image: 从PIL模块中导入Image类。PIL是Python Imaging Library的缩写,提供了图像处理的功能,Image类用于表示和操作图像。

路径设置

# 获取路径
d = path.dirname(__file__)

这行代码用于获取当前脚本文件的目录路径,并将其赋值给变量d

# 下面四个自行变换
TXT_path = path.join(d, 'doc//浪潮之巅.txt')  # 文本
MASK_path = path.join(d, 'pic//雾雨魔理沙.png')  # 图片
STOPWORDS_path = path.join(d, r'doc//stopwords_cn.txt')  # 停用词
FONT_path = path.join(d, 'font//msyh.ttf')  # 字体
USERDICT_path = path.join(d, 'doc//自定义词组.txt')

这些行代码定义了几个文件的路径,包括文本文件路径TXT_path、图片文件路径MASK_path、停用词文件路径STOPWORDS_path、字体文件路径FONT_path和自定义词典文件路径USERDICT_path。这些文件路径可以根据实际情况进行修改。

# 找到txt文件
text = open(TXT_path, encoding='UTF-8').read()

这行代码打开指定路径的文本文件,并将文件内容读取到变量text中。

# 找到mask文件
mask = np.array(Image.open(MASK_path))

这行代码打开指定路径的图片文件,并将其转换为numpy数组,存储在变量mask中。这个图片将用作词云的形状。

# 导入自定义词典
jieba.load_userdict(USERDICT_path)

这行代码导入自定义词典,以便中文分词时使用。自定义词典包含一些用户指定的词语,可以影响分词结果。

准备工作

# 提取背景颜色
bg_color = ImageColorGenerator(mask, default_color=None)

这行代码根据图片的颜色生成背景颜色生成器,用于词云的颜色设置。

# 若是中文文本,则先进行分词操作
# cut_all是分词模式,True是全模式,False是精准模式,默认False
wordTemp = jieba.lcut(text, cut_all=True)

这行代码使用jieba对文本进行分词操作,将分词结果存储在变量wordTemp中。cut_all=True表示使用全模式,即将文本中的所有可能成词的部分都进行切分。

words = []
# 设定停用词表
stopword = [line.strip() for line in open(STOPWORDS_path, 'r', encoding='UTF-8').readlines()]
# 载入词
for w in wordTemp:if w not in stopword:words.append(w)

这部分代码对分词结果进行处理,首先定义一个空列表words。然后从停用词表中加载停用词,停用词表文件的路径由STOPWORDS_path指定。接下来,对每个分词结果进行检查,如果它不在停用词表中,就将其添加到words列表中。

# 去除空格
words = [item.strip() for item in words if item.strip() != '']

这行代码对words列表中的每个词去除首尾的空格。

# 去停用词之后的词频统计结果
frequency = dict(Counter(words))

这行代码使用Counter类对去除停用词之后的词列表进行词频统计,结果存储在字典frequency中。

生成词云

wc = WordCloud(background_color="white",  # 设置背景颜色max_words=500,  # 词云显示的最大词数mask=mask,  # 设置背景图片font_path=FONT_path, 这行代码创建了一个`WordCloud`对象`wc`,用于生成词云图。其中的
# 词频生成词云
wc.generate_from_frequencies(frequency)
# 文本生成词云
# wc.generate(text)

background_color:词云的背景颜色,这里设置为白色。

max_words:词云显示的最大词数,这里设置为500。

mask:词云的背景图片,使用之前读取的图片数组mask

font_path:词云中使用的字体文件路径,由变量FONT_path指定。

这部分代码用于生成词云。根据词频统计结果frequency生成词云图,方法是调用generate_from_frequencies函数。另外,也可以根据文本生成词云,将注释的一行取消注释即可。

WordCloud参数详解看这里:词云-WordCloud参数详解

wc.to_file('output.png')

这行代码将生成的词云图保存为名为output.png的文件。

综上所述,这段代码的功能是读取指定的文本文件并进行中文分词,然后根据分词结果生成词云图,并将生成的词云图保存为文件。

文章转载自:这可就有点麻烦了

原文链接:https://www.cnblogs.com/hassle/p/18003032

体验地址:引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/666656.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 驱动开发基础知识——总线设备驱动模型(七)

个人名片: 🦁作者简介:学生 🐯个人主页:妄北y 🐧个人QQ:2061314755 🐻个人邮箱:2061314755qq.com 🦉个人WeChat:Vir2021GKBS 🐼本文由…

Linux常见面试题汇总

Linux上如何查询某个端口是否被占用&#xff1f; 在Linux上&#xff0c;你可以使用以下几种方法来查询某个端口是否被占用&#xff1a; 使用netstat命令&#xff1a; netstat -tuln | grep <端口号>这个命令会列出当前正在运行的所有TCP和UDP端口&#xff0c;并过滤出指…

极速搭建幻兽帕鲁私服,叫上好友春节假期一起联机畅玩帕鲁

文章目录 前言幻兽帕鲁私服详细部署教程查看服务器开始游戏自定义游戏参数配置 前言 行业资讯 《幻兽帕鲁》的火爆对开发商 Pocketpair 来说&#xff0c;代价是巨大的。该游戏的成功让首席执行官沟部拓郎最近在推特上表示&#xff0c;他可能因服务器运营费用而面临破产。据他透…

多线程例子,通过启动三个线程 等三个线程都跑完后打印结果

一个多线程例子&#xff0c;通过启动三个线程 等三个线程都跑完后打印结果 需求描述&#xff1a;开启一个多线程跑3条门店的数据&#xff0c;每个门店都新起一个线程去跑数据&#xff0c;当所有线程跑完后主线程打印结果&#xff0c;记录报错的门店编码 1.线程池配置类 impo…

山西电力市场日前价格预测【2024-02-04】

日前价格预测 预测说明&#xff1a; 如上图所示&#xff0c;预测明日&#xff08;2024-02-04&#xff09;山西电力市场全天平均日前电价为367.56元/MWh。其中&#xff0c;最高日前电价为441.08元/MWh&#xff0c;预计出现在18:30。最低日前电价为324.52元/MWh&#xff0c;预计…

代码混淆技术综述与优化方法

摘要 本文介绍了代码混淆的概念和目的&#xff0c;并提供了Python代码混淆的宏观思路。同时&#xff0c;还介绍了一种在线网站混淆Python代码的方法&#xff0c;并给出了混淆前后的示例代码。 引言 在当今信息时代&#xff0c;软件代码的保护显得尤为重要。代码混淆是一种常…

【数位dp】【动态规划】【KMP】1397. 找到所有好字符串

作者推荐 【动态规划】【字符串】【表达式】2019. 解出数学表达式的学生分数 本文涉及知识点 动态规划汇总 LeetCode1397. 找到所有好字符串 给你两个长度为 n 的字符串 s1 和 s2 &#xff0c;以及一个字符串 evil 。请你返回 好字符串 的数目。 好字符串 的定义为&#x…

蓝桥杯刷题day05——2023

1、题目描述 请求出在12345678 (含) 至 98765432 (含) 中 &#xff0c;有多少个数中完全不包含 2023。 完全不包含 2023是指 无论将这个数的哪些数位移除都不能得到2023。 例如 20322175&#xff0c;33220022 都完全不包含 2023&#xff0c; 而20230415&#xff0c;20193213 …

C#如何实现一个输入框输入,匹配提示数据

在C#中可以使用AutoCompleteStringCollection类来实现输入框的自动完成功能。 首先需要创建一个包含所有候选项的字符串集合&#xff08;List&#xff09;或者从文件、数据库等地方获取到这些候选项。然后将该集合传递给TextBox控件的AutoCompleteCustomSource属性。 下面是一…

装饰你的APP:使用Lottie-Android创建动画效果

装饰你的APP&#xff1a;使用Lottie-Android创建动画效果 1. Lottie-Android简介 Lottie-Android是一个强大的开源库&#xff0c;由Airbnb开发&#xff0c;旨在帮助开发者轻松地在Android应用中添加高质量的动画效果。它基于Adobe After Effects软件中的Bodymovin插件&#x…

STM32的ADC采集传感器的模拟量数据

1、 由于项目上使用传感器采集数据&#xff0c;传感器可以输出模拟电压信号&#xff0c;但是模拟电压信号的输出范围是1-5V&#xff0c;而STM32的ADC采集电压范围是0-3.3V&#xff0c;此时可以用一个简单的分压电路将1-5V的电压将至0.5V到2.5V的范围。 2、电阻分压电路可以使用…

【Simulink系列】——动态系统仿真 之 离散系统线性离散系统

一、离散系统定义 离散系统是指系统的输入与输出仅在离散的时间上取值&#xff0c;而且离散的时间具有相同的时间间隔。满足下列条件&#xff1a; ①系统&#xff08;的输入输出&#xff09;每隔固定时间间隔才更新一次。固定时间间隔称为采样时间。 ②系统的输出依赖当前的…

2023年09月CCF-GESP编程能力等级认证Python编程三级真题解析

Python等级认证GESP(1~6级)全部真题・点这里 一、单选题(共15题,共30分) 第1题 人们所使用的手机上安装的App通常指的是( )。 A:一款操作系统 B:一款应用软件 C:一种通话设备 D:以上都不对 答案:B 第2题 下列流程图的输出结果是( )。 A:60 B:20 C:5 D…

倾斜摄影轻量化,这样才规范!

自然资源部发布了《倾斜数字摄影测量技术规程》等17项行业标准报批稿公示&#xff0c;其中高频出现的倾斜摄影技术&#xff0c;重回大众视野。 倾斜摄影技术是国际测绘领域近些年发展起来的一项高新技术&#xff0c;它颠覆了以往正射影像只能从垂直角度拍摄的局限&#xff0c;通…

栈--数据结构

初始化栈、入栈、出栈 栈&#xff1a;只允许在一端进行插入或删除操作的线性表 栈顶&#xff08;Top&#xff09; 代码 #include <stdio.h>#define MaxSize 50 typedef int ElemType; typedef struct {ElemType data[MaxSize];//数组int top;//始终指向栈顶的一个变量…

SparkStreaming---入门

文章目录 1.SparkStreaming简介1.1 流处理和批处理1.2 实时和离线1.3 SparkStreaming是什么1.4 SparkStreaming架构图 2.背压机制3.DStream案例实操 1.SparkStreaming简介 1.1 流处理和批处理 流处理和批处理是两种不同的数据处理方式&#xff0c;它们在处理数据的方式和特点…

【C++】类和对象之运算符重载(三)

前言&#xff1a;在前面我们知道在类和对象中有六个默认成员函数&#xff0c;并学习了其中三个构造函数、析构函数、拷贝构造函数&#xff0c;今天我们将进一步的学习.赋值运算符重载。 &#x1f496; 博主CSDN主页:卫卫卫的个人主页 &#x1f49e; &#x1f449; 专栏分类:高质…

Java并发基础:FutureTask全面解析!

内容概要 FutureTask结合了Future和Runnable接口&#xff0c;它能够异步执行任务&#xff0c;提高程序响应性&#xff0c;可以获取任务执行结果&#xff0c;并且支持任务取消机制&#xff0c;提高了灵活性&#xff0c;同时&#xff0c;它简化了并发编程&#xff0c;使多线程开…

【Linux系统 02】Shell脚本

目录 一、Shell概述 二、输入输出 三、分支控制 1. 表达式 2. if 分支 3. case 分支 四、循环控制 1. for 循环 2. while 循环 3. select 循环 五、函数 一、Shell概述 Shell是Linux系统连接用户和操作系统的外壳程序&#xff0c;将用户的输入和请求选择性传递给操…

Java中Object类常用的12个方法

前言 Java 中的 Object 方法在面试中是一个非常高频的点&#xff0c;毕竟 Object 是所有类的“老祖宗”。Java 中所有的类都有一个共同的祖先 Object 类&#xff0c;子类都会继承所有 Object 类中的 public 方法。 先看下 Object 的类结构&#xff1a; 1. getClass 方法 pub…