文本可视化之词云图的使用

环境安装:
pip install  wordcloud -i  https://pypi.tuna.tsinghua.edu.cn/simple/ 
conda install  wordcloud
# -i 后面加镜像源网站

WordCloud(background_color,repeat,max_words=600,height=480, width=584, max_font_size,font_path colormap,mask,mode,collocations, prefer_horizontal)

相关参数:

  • background_color=‘white’, # 词云图的背景颜色,默认为 "black"
  • repeat=False, # 是否重复
  • max_words=600, # 词云图中显示的最大词语数量,默认为 200
  • height=480, width=584, # 图片尺寸
  • max_font_size=200, # 词云图中显示的最大字体大小,默认为 None
  • font_path=“C:/Windows/Fonts/FZSTK.TTF”, # 指定字体文件的路径,用于显示中文字符
  • colormap=“Reds”, # 指定词云图的颜色方案,默认为 "viridis"、“Reds”“Blues”“Greens”
  • mask=mask, # 词云图的形状,可以使用一个图片作为模板,一般结合imread(),将图片中不是白色的地方作为轮廓。
  • mode=“RGBA”, # 词云图的模式,可以设置为 "RGB""RGBA"
  • collocations=False# 否考虑词语搭配,默认为 True
  • prefer_horizontal=1# 控制词语水平摆放的频率,默认为 0.9

官方文档:https://github.com/amueller/word_cloud

英文词云图:
import matplotlib.pyplot as plt
from wordcloud import WordCloud# 这里是模拟读取文件 
text="""Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 创建词云对象
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 绘制词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
plt.show()

在这里插入图片描述

注意:英文分隔符是默认空格,所有我们不用对英文进行拆分处理。但是如果是中文,就需要使用jieba分词,需要拆分文字。

其实上面这个例子不是特别全面,应该进行停用词处理,这里给大家讲一下官方给出的例子:

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import osfrom wordcloud import WordCloud, STOPWORDS
# 获取当前脚本文件的目录路径,或者如果在IPython笔记本中运行,则获取当前工作目录。
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()# 读取文件
text = open(path.join(d, 'alice.txt')).read()
# 读取模板图像(就是你可以自定义词云图的样子)
alice_mask = np.array(Image.open(path.join(d, "alice_mask.png")))
# 创建了一个停用词的集合,并添加了一个自定义的停用词"said"
stopwords = set(STOPWORDS)
stopwords.add("said")
# 创建词云图对象
wc = WordCloud(background_color="white", max_words=2000, mask=alice_mask,stopwords=stopwords, contour_width=3, contour_color='steelblue')wc.generate(text)
# 存储
wc.to_file(path.join(d, "alice.png"))
# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.show()

在这里插入图片描述

注意模板图像一般是黑色的,相当于只填充黑色的地方,我们看一下结果:

在这里插入图片描述

十分优美!

中文词云图:
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
from PIL import Image
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来显示中文,不然会乱码
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
text = """"
人生苦短,我用Python。Python是一门简单易学的编程语言,
广泛应用于数据分析、人工智能和Web开发领域。Python拥有丰富的第三方库和生态系统,
为开发者提供了很多便利。学习Python,让你的编程之路更加愉快。
"""# 使用jieba进行中文分词
seg_list = jieba.cut(text, cut_all=False)
seg_text = ' '.join(seg_list)
print(seg_text)# 创建词云对象   
wordcloud = WordCloud(font_path=r'msyh.ttc',width=800, height=400, background_color='white').generate(seg_text)
# wordcloud = WordCloud(font_path=r'C:/Windows/Fonts/FZSTK.TTF',width=800, height=400, background_color='white').generate(seg_text)
# 绘制词云图 
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
# 保存词云图为图片文件
wordcloud.to_file("wordcloud.png")
plt.show()

在这里插入图片描述

读取本地文件:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组mask=np.array(Image.open("./img.png"))# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')# 生成词云图
wordcloud.generate(text)# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

自定义词云形状:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组x, y = np.ogrid[:300, :300]mask = (x - 150) ** 2 + (y - 150) ** 2 > 130 ** 2
mask = 255 * mask.astype(int)# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')# 生成词云图
wordcloud.generate(text)# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

总结:

​ 通过本文的介绍,我们深入了解了词云图的使用和相关参数,并学会了生成中文词云图、英文词云图以及自定义词云图的样式。词云图作为一种强大的数据可视化工具,可以帮助我们直观地了解文本数据的关键词和主题。无论是从事数据分析、文本挖掘还是对话题进行可视化呈现,词云图都能提供有价值的信息。

​ 在创建词云图时,我们可以根据需求调整不同的参数,如背景颜色、词数限制和停用词等,以达到最佳效果。此外,我们还可以通过选择合适的字体、设置自定义形状和调整颜色、轮廓等来创建独特的词云图。

​ 希望本文对你理解词云图的基本原理和应用提供了帮助,并激发了你在数据可视化方面的创造力。无论是在学术研究、商业分析还是个人项目中,词云图都是一种强大而灵活的工具,能够使你的数据更具有吸引力和可解释性。

​ 开始探索词云图的奇妙世界吧!让我们用词云图来揭示文本背后的故事,展示文字的魅力,带领读者进入一个充满词语和想象力的视觉盛宴。无论是文字的力量还是数据的美感,词云图都能为我们带来全新的体验。让我们一起用词云图来发现和分享这个世界上的无限可能性!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能_机器学习089_DBSCAN聚类案例_DBSCAN聚类算法效果展示_使用轮廓系数来评分DBSCAN效果---人工智能工作笔记0129

dbscan = DBSCAN(eps = 0.2,min_samples =3) 我们指定半径是0.2 然后每个圆圈至少是3个数据就可以归为一类 dbscan.fit(X) 然后进行训练 # 得到每个样本的标签,分类结果 y_ =dbscan.labels_ 然后得到结果 ,注意这里不需要进行predict,因为fit直接就相当于分类了 plt.scatte…

12 月 NFT 市场动态:强劲增长塑造年终趋势

作者:stellafootprint.network 数据来源:NFT Research 12 月加密货币和 NFT 领域出现了显著的上涨趋势,比特币和以太坊价格的大幅上涨标志着市场的复苏。与此同时,NFT 领域的交易量飙升,独立用户(钱包&am…

(每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第4章 信息系统管理(一)

博主2023年11月通过了信息系统项目管理的考试,考试过程中发现考试的内容全部是教材中的内容,非常符合我学习的思路,因此博主想通过该平台把自己学习过程中的经验和教材博主认为重要的知识点分享给大家,希望更多的人能够通过考试&a…

编程笔记 html5cssjs 029 HTML图像

编程笔记 html5&css&js 029 HTML图像 一、<img>&#xff1a;图像元素二、支持的图像格式三、属性四、练习小结 图像&#xff08;图片&#xff09;是网页的必备元素。 一、<img>&#xff1a;图像元素 <img> HTML 元素将一张图像嵌入文档。 <img …

wordcloud,一个超酷的python库

一、简单介绍一下 词云图是文本挖掘中用来表征词频的数据可视化图像&#xff0c;通过它可以很直观地展现文本数据中地高频词&#xff0c;让读者能够从大量文本数据中快速抓住重点。如下图&#xff1a; wordcloud则是一个非常优秀的词云展示python库&#xff0c;它支持自定义词…

Nacos vs Eureka的区别:微服务注册中心的选择

摘要&#xff1a;本文将详细讲解Nacos和Eureka两个微服务注册中心的区别&#xff0c;并提供代码示例&#xff0c;帮助读者选择合适的注册中心来管理他们的微服务架构。 引言&#xff1a; 在微服务架构中&#xff0c;注册中心是一个关键组件&#xff0c;用于管理和协调各个微服…

文件夹重命名:如何一键完成简体中文文件夹名到繁体中文的批量转换

随着科技的发展&#xff0c;人类越来越依赖计算机和电子设备进行文件管理。在这个过程中&#xff0c;经常会遇到要将简体中文文件夹名转换为繁体中文的情况。这有助于统一文件名的格式&#xff0c;也能提高文件的可读性和检索性。那如何一键完成简体中文文件夹名到繁体中文的批…

CSC行业合作项目|政府公务员赴英国南安普顿大学访学交流

CSC的行业合作项目由于是单位性质及CSC资助等原因&#xff0c;申请者一般不去美国&#xff0c;而选择较易通过签证的国家&#xff0c;且访学交流的方向也偏向于非敏感领域。遵循这一原则&#xff0c;我们最终为U老师申请到英国南安普顿大学&#xff0c;使其顺利获批CSC&#xf…

【2024系统架构设计】 系统架构设计师第二版-面向服务架构设计理论与实践

目录 一 概述 二 SOA的参考架构 三 SOA主要协议和规范 四 SOA设计标准和原则 五 SOA的设计模式 六 SOA的构建和实施 ​

[算法与数据结构][c++]:左值、右值、左值引用、右值引用和std::move()

左值、右值、左值引用、右值引用和std::move 1. 什么是左值、右值2. 什么是左值引用、右值引用3. **右值引用和std::move的应用场景**3.1 实现移动语义3.2 **实例&#xff1a;vector::push_back使用std::move提高性能** **4. 完美转发 std::forward**5. Reference 写在前面&…

多模态推荐系统综述:一、特征交互 Bridge

一、特征交互 挑战1.如何融合不同语义空间中的模态特征并获得每种模态的偏好。GNN注意力 挑战2.如何在数据稀疏的情况下获得推荐模型的全面表示。对比学习解缠学习 挑战3. 如何优化轻量级推荐模型和参数化模态编码器。 1. Bridge 侧重于考虑多模态信息来捕获用户和项目之间的…

【一文详解】知识分享:(MySQL关系型数据库快速入门)

mysql基础 sql通用语法分类 DDL&#xff08;Data Define Language&#xff09;: 数据定义语言&#xff0c;用来定义数据库对象&#xff08;数据库、表、字段&#xff09;DML&#xff08;Data Manipulation Language&#xff09;: 数据操作语言&#xff0c;用来对数据库表中的…

彻底掌握Python中 * 号

Python中的 *号是一个特殊的符号&#xff0c;在其他编程语言中&#xff0c;它最广为人知的用途就是作为乘法运算的符号。 而在Python中&#xff0c;它的用途远不止如此。 本文总结了Python中*号的所有用途&#xff0c;以供参考。 1. 算术运算 *号用来做算术运算几乎是所有编…

creo老是卡住怎么办?如何解决Creo卡顿问题

Creo&#xff08;PRO/E&#xff09;是美国PTC公司于2010年10月推出CAD设计软件包。Creo是整合了PTC公司的三个软件Pro/Engineer的参数化技术、CoCreate的直接建模技术和ProductView的三维可视化技术的新型CAD设计软件包&#xff0c;是PTC公司闪电计划所推出的第一个产品。那么C…

随写sdfwer

# 1. 分块思想 author: Ir1d, HeRaNO, Xeonacid ## 简介 其实&#xff0c;分块是一种思想&#xff0c;而不是一种数据结构。 从 NOIP 到 NOI 到 IOI&#xff0c;各种难度的分块思想都有出现。 分块的基本思想是&#xff0c;通过对原数据的适当划分&#xff0c;并在划分后的…

C++类与对象基础(5)——日期类的实现

对于实现日期类中需要用到的例如&#xff1a;构造函数&#xff0c;析构函数&#xff0c;运算符重载等内容&#xff0c;已经在前面几篇文章中进行介绍&#xff0c;故本文只给出关于类和对象中日期类的代码实现&#xff0c;对于代码的原理不给予详细的解释&#xff1a; 1.头文件…

kubectl常用命令(全局篇)

格式 -o [cmd] -o json|yaml|wide 如&#xff1a;输出json格式 kubectl get ns ingress-nginx -o json 获取基本信息get #查看集群基本信息 kubectl get cs|pods|nodes|ns|svc|rc|deployments kubectl get cs kubectl get pods kubectl get nodes kubectl get ns kubectl g…

在openEuler环境下快速编译GreatSQL RPM包

在上一篇中&#xff0c;已经介绍了在CentOS环境下编译GreatSQL RPM包的过程&#xff0c;本文再介绍如何在openEuler环境下编译GreatSQL RPM包。 运行环境是docker中的openEuler 22.03 x86_64&#xff1a; $ docker -v Docker version 20.10.10, build b485636$ docker run -itd…

纯毛纱线市场调研:预计2026年增长至近20亿美元

纯毛纱线是指纯天然的羊毛纤维制成的纱线&#xff0c;具有柔软、保暖等优良特性。随着人们对于环保、可持续发展和健康产品的重视&#xff0c;全球纯毛纱线市场呈现出稳步增长的趋势。全球市场分析&#xff1a; 根据市场研究公司发布的报告&#xff0c;全球纯毛纱线市场规模在2…

Nginx 搭建可道云网盘

目录 1.安装php-fpm 2. 建站点根目录与配置 2.1 建站点根目录 2.2 配置 3. 搭建成功 1.安装php-fpm nginx 需要使用php 需要安装php-fpm yum install php-fpm php-mbstring php-mysqlnd php-gd -y 修改 www.conf 文件的配置29行和41行&#xff0c;将用户会让用户组改成n…