文本可视化之词云图的使用

环境安装:
pip install  wordcloud -i  https://pypi.tuna.tsinghua.edu.cn/simple/ 
conda install  wordcloud
# -i 后面加镜像源网站

WordCloud(background_color,repeat,max_words=600,height=480, width=584, max_font_size,font_path colormap,mask,mode,collocations, prefer_horizontal)

相关参数:

  • background_color=‘white’, # 词云图的背景颜色,默认为 "black"
  • repeat=False, # 是否重复
  • max_words=600, # 词云图中显示的最大词语数量,默认为 200
  • height=480, width=584, # 图片尺寸
  • max_font_size=200, # 词云图中显示的最大字体大小,默认为 None
  • font_path=“C:/Windows/Fonts/FZSTK.TTF”, # 指定字体文件的路径,用于显示中文字符
  • colormap=“Reds”, # 指定词云图的颜色方案,默认为 "viridis"、“Reds”“Blues”“Greens”
  • mask=mask, # 词云图的形状,可以使用一个图片作为模板,一般结合imread(),将图片中不是白色的地方作为轮廓。
  • mode=“RGBA”, # 词云图的模式,可以设置为 "RGB""RGBA"
  • collocations=False# 否考虑词语搭配,默认为 True
  • prefer_horizontal=1# 控制词语水平摆放的频率,默认为 0.9

官方文档:https://github.com/amueller/word_cloud

英文词云图:
import matplotlib.pyplot as plt
from wordcloud import WordCloud# 这里是模拟读取文件 
text="""Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 创建词云对象
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 绘制词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
plt.show()

在这里插入图片描述

注意:英文分隔符是默认空格,所有我们不用对英文进行拆分处理。但是如果是中文,就需要使用jieba分词,需要拆分文字。

其实上面这个例子不是特别全面,应该进行停用词处理,这里给大家讲一下官方给出的例子:

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import osfrom wordcloud import WordCloud, STOPWORDS
# 获取当前脚本文件的目录路径,或者如果在IPython笔记本中运行,则获取当前工作目录。
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()# 读取文件
text = open(path.join(d, 'alice.txt')).read()
# 读取模板图像(就是你可以自定义词云图的样子)
alice_mask = np.array(Image.open(path.join(d, "alice_mask.png")))
# 创建了一个停用词的集合,并添加了一个自定义的停用词"said"
stopwords = set(STOPWORDS)
stopwords.add("said")
# 创建词云图对象
wc = WordCloud(background_color="white", max_words=2000, mask=alice_mask,stopwords=stopwords, contour_width=3, contour_color='steelblue')wc.generate(text)
# 存储
wc.to_file(path.join(d, "alice.png"))
# show
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.show()

在这里插入图片描述

注意模板图像一般是黑色的,相当于只填充黑色的地方,我们看一下结果:

在这里插入图片描述

十分优美!

中文词云图:
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
from PIL import Image
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来显示中文,不然会乱码
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
text = """"
人生苦短,我用Python。Python是一门简单易学的编程语言,
广泛应用于数据分析、人工智能和Web开发领域。Python拥有丰富的第三方库和生态系统,
为开发者提供了很多便利。学习Python,让你的编程之路更加愉快。
"""# 使用jieba进行中文分词
seg_list = jieba.cut(text, cut_all=False)
seg_text = ' '.join(seg_list)
print(seg_text)# 创建词云对象   
wordcloud = WordCloud(font_path=r'msyh.ttc',width=800, height=400, background_color='white').generate(seg_text)
# wordcloud = WordCloud(font_path=r'C:/Windows/Fonts/FZSTK.TTF',width=800, height=400, background_color='white').generate(seg_text)
# 绘制词云图 
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 不显示坐标轴
# 保存词云图为图片文件
wordcloud.to_file("wordcloud.png")
plt.show()

在这里插入图片描述

读取本地文件:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组mask=np.array(Image.open("./img.png"))# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')# 生成词云图
wordcloud.generate(text)# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

自定义词云形状:
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from imageio import imread
text = """Python is a popular programming language.
It is widely used for web development, data analysis, and machine learning.
Python has a simple and readable syntax, making it easy to learn and use."""
# 读取图像并转换为数组x, y = np.ogrid[:300, :300]mask = (x - 150) ** 2 + (y - 150) ** 2 > 130 ** 2
mask = 255 * mask.astype(int)# 创建词云对象,并设置 mask 参数
wordcloud = WordCloud(mask=mask,width=800, height=400, background_color='white')# 生成词云图
wordcloud.generate(text)# 显示词云图
plt.axis("off")
plt.imshow(wordcloud, interpolation="bilinear")
plt.show()

在这里插入图片描述

总结:

​ 通过本文的介绍,我们深入了解了词云图的使用和相关参数,并学会了生成中文词云图、英文词云图以及自定义词云图的样式。词云图作为一种强大的数据可视化工具,可以帮助我们直观地了解文本数据的关键词和主题。无论是从事数据分析、文本挖掘还是对话题进行可视化呈现,词云图都能提供有价值的信息。

​ 在创建词云图时,我们可以根据需求调整不同的参数,如背景颜色、词数限制和停用词等,以达到最佳效果。此外,我们还可以通过选择合适的字体、设置自定义形状和调整颜色、轮廓等来创建独特的词云图。

​ 希望本文对你理解词云图的基本原理和应用提供了帮助,并激发了你在数据可视化方面的创造力。无论是在学术研究、商业分析还是个人项目中,词云图都是一种强大而灵活的工具,能够使你的数据更具有吸引力和可解释性。

​ 开始探索词云图的奇妙世界吧!让我们用词云图来揭示文本背后的故事,展示文字的魅力,带领读者进入一个充满词语和想象力的视觉盛宴。无论是文字的力量还是数据的美感,词云图都能为我们带来全新的体验。让我们一起用词云图来发现和分享这个世界上的无限可能性!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能_机器学习089_DBSCAN聚类案例_DBSCAN聚类算法效果展示_使用轮廓系数来评分DBSCAN效果---人工智能工作笔记0129

dbscan = DBSCAN(eps = 0.2,min_samples =3) 我们指定半径是0.2 然后每个圆圈至少是3个数据就可以归为一类 dbscan.fit(X) 然后进行训练 # 得到每个样本的标签,分类结果 y_ =dbscan.labels_ 然后得到结果 ,注意这里不需要进行predict,因为fit直接就相当于分类了 plt.scatte…

12 月 NFT 市场动态:强劲增长塑造年终趋势

作者:stellafootprint.network 数据来源:NFT Research 12 月加密货币和 NFT 领域出现了显著的上涨趋势,比特币和以太坊价格的大幅上涨标志着市场的复苏。与此同时,NFT 领域的交易量飙升,独立用户(钱包&am…

wordcloud,一个超酷的python库

一、简单介绍一下 词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词,让读者能够从大量文本数据中快速抓住重点。如下图: wordcloud则是一个非常优秀的词云展示python库,它支持自定义词…

文件夹重命名:如何一键完成简体中文文件夹名到繁体中文的批量转换

随着科技的发展,人类越来越依赖计算机和电子设备进行文件管理。在这个过程中,经常会遇到要将简体中文文件夹名转换为繁体中文的情况。这有助于统一文件名的格式,也能提高文件的可读性和检索性。那如何一键完成简体中文文件夹名到繁体中文的批…

CSC行业合作项目|政府公务员赴英国南安普顿大学访学交流

CSC的行业合作项目由于是单位性质及CSC资助等原因,申请者一般不去美国,而选择较易通过签证的国家,且访学交流的方向也偏向于非敏感领域。遵循这一原则,我们最终为U老师申请到英国南安普顿大学,使其顺利获批CSC&#xf…

【2024系统架构设计】 系统架构设计师第二版-面向服务架构设计理论与实践

目录 一 概述 二 SOA的参考架构 三 SOA主要协议和规范 四 SOA设计标准和原则 五 SOA的设计模式 六 SOA的构建和实施 ​

多模态推荐系统综述:一、特征交互 Bridge

一、特征交互 挑战1.如何融合不同语义空间中的模态特征并获得每种模态的偏好。GNN注意力 挑战2.如何在数据稀疏的情况下获得推荐模型的全面表示。对比学习解缠学习 挑战3. 如何优化轻量级推荐模型和参数化模态编码器。 1. Bridge 侧重于考虑多模态信息来捕获用户和项目之间的…

【一文详解】知识分享:(MySQL关系型数据库快速入门)

mysql基础 sql通用语法分类 DDL(Data Define Language): 数据定义语言,用来定义数据库对象(数据库、表、字段)DML(Data Manipulation Language): 数据操作语言,用来对数据库表中的…

彻底掌握Python中 * 号

Python中的 *号是一个特殊的符号,在其他编程语言中,它最广为人知的用途就是作为乘法运算的符号。 而在Python中,它的用途远不止如此。 本文总结了Python中*号的所有用途,以供参考。 1. 算术运算 *号用来做算术运算几乎是所有编…

creo老是卡住怎么办?如何解决Creo卡顿问题

Creo(PRO/E)是美国PTC公司于2010年10月推出CAD设计软件包。Creo是整合了PTC公司的三个软件Pro/Engineer的参数化技术、CoCreate的直接建模技术和ProductView的三维可视化技术的新型CAD设计软件包,是PTC公司闪电计划所推出的第一个产品。那么C…

C++类与对象基础(5)——日期类的实现

对于实现日期类中需要用到的例如:构造函数,析构函数,运算符重载等内容,已经在前面几篇文章中进行介绍,故本文只给出关于类和对象中日期类的代码实现,对于代码的原理不给予详细的解释: 1.头文件…

kubectl常用命令(全局篇)

格式 -o [cmd] -o json|yaml|wide 如:输出json格式 kubectl get ns ingress-nginx -o json 获取基本信息get #查看集群基本信息 kubectl get cs|pods|nodes|ns|svc|rc|deployments kubectl get cs kubectl get pods kubectl get nodes kubectl get ns kubectl g…

Nginx 搭建可道云网盘

目录 1.安装php-fpm 2. 建站点根目录与配置 2.1 建站点根目录 2.2 配置 3. 搭建成功 1.安装php-fpm nginx 需要使用php 需要安装php-fpm yum install php-fpm php-mbstring php-mysqlnd php-gd -y 修改 www.conf 文件的配置29行和41行,将用户会让用户组改成n…

数据透明化是什么意思,什么是透明管理?

一、透明管理是什么 透明管理专注工业数据可视化分析与呈现,为企业提供一站式数据可视化分析解决方案。聚焦工业BI,基于工业管理特点,打造“指标监控-异常发现-根因溯源-举措拆解-效果监控”管理闭环,实现工业全层级的透明管理。…

SpringCloud-高级篇(十二)

在主从集群中slave节点发生了宕机,不用担心,只要它重启就能从master节点上完成数据的同步,恢复数据,如果宕机的不是slave而是master,是不是master重启就可以呢?如果你做了master节点的数据持久化&#xff0…

GPT火了一年了,你还不懂大语言模型吗?

本文主要介绍大语言的基本原理、以及应用场景和对未来的展望,侧重应用而非技术原理。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:漫谈LLMs带来的AIGC浪潮 🎀CSDN主页 发狂的小花 &#…

【Docker】容器的数据卷

目录 概念及作用 配置数据卷 数据共享 一个容器挂载多个数据卷 概念及作用 Docker容器的数据卷是一种特殊类型的目录,即使容器被删除,存在于宿主机上,可以供一个或多个容器使用。数据卷可以绕过联合文件系统,提供持续存储或共…

6547网文库动态 | 少儿编程考级真题、信息学奥赛、PPT课件等

近期动态:少儿编程题库网上传了2023年12月等级考试真题,主要有GESP真题、电子学会青少年软件编程等级考试真题,少儿编程文库系统主要上传了全国中小学信息技术创新与实践大赛(NOC大赛)真题,信息技术课件&am…

C++CLI——4数组、泛型、集合与属性

CCLI——4数组、泛型、集合与属性 C数组 在c中,数组的大小必须在编译时确定,并且将数组传递给函数时,传递的只是数组起始地址,所以要想办法连同数组大小一同传递给函数。 int arr[4] { 1,2,3,4 }; int arr1[] { 1,2,3,4 }; i…

CodeWave智能开发平台--03--目标:应用创建--07供应商数据表格01

摘要 本文是网易数帆CodeWave智能开发平台系列的第09篇,主要介绍了基于CodeWave平台文档的新手入门进行学习,实现一个完整的应用,本文主要完成07供应商数据表格 CodeWave智能开发平台的09次接触 CodeWave参考资源 网易数帆CodeWave开发者…