Python100个库分享第23个—wordcloud(词云图)

目录

  • 专栏导读
  • 库的介绍
  • 库的安装
  • 基础使用1:将TXT文本转为词云图
  • 基础使用2:使用自定义字体和形状
  • 基础使用3:中文词云图+停用词(中英文版)-代码是中文版
  • 总结

专栏导读

  • 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手

  • 🏳️‍🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注

  • 👍 该系列文章专栏:请点击——>Python办公自动化专栏求订阅

  • 🕷 此外还有爬虫专栏:请点击——>Python爬虫基础专栏求订阅

  • 📕 此外还有python基础专栏:请点击——>Python基础学习专栏求订阅

  • 文章作者技术和水平有限,如果文中出现错误,希望大家能指正🙏

  • ❤️ 欢迎各位佬关注! ❤️

库的介绍

  • wordcloud 是一个在 Python 中广泛使用的第三方库,主要用于根据文本数据生成词云(Word Clouds)。词云是一种可视化技术,它能够有效地展示文本数据中各个词汇的重要性或频率,通常通过字体大小来表示每个词在文本中出现的次数多少,形成类似云彩的图形,从而帮助用户快速识别出文本的主题或者高频词汇。

库的安装

pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple/

基础使用1:将TXT文本转为词云图

  • 先百度一篇英文美文,或者中文美文

  • 常用属性

wc = WordCloud(

width=800, 词云图宽

height=400, 词云图高

background_color='white', 词云图背景色

font_path='C:/Windows/Fonts/simhei.ttf' 词云图使用系统字体)

配置项类型默认值含义
font_pathstring字体路径
widthint400画布宽度
heightint200画布高度
marginint2词云图像的边距大小,以像素为单位
prefer_horizontalfloat0.9词语水平排列的偏好程度,>=1 水平排列
masknd-array or NoneNone词云的形状遮罩,使得词云图像能够按照指定的形状排列词语
contour_widthfloat0轮廓线的宽度
contour_colorcolor value“black”轮廓线的颜色
scalefloat1词云图像的缩放比例,即词云图像计算出来的大小相对于形状遮罩或者画布的大小的比例
min_font_sizeint4最小字体大小
font_stepint1字体的步长,关系词语间大小间隔
max_wordsnumber200词语最大数量
stopwordsset of strings or NoneSTOPWORDS要排除的词语
random_stateintNone随机数生成器的种子
background_colorcolor value”black”背景颜色
max_font_sizeint or NoneNone最大字体大小
modestring”RGB”主要有"RGB",“RGBA”,后者可以控制透明度
relative_scalingfloat‘auto’单词频率对字体大小影响,较大的值将增加词语之间的大小差异
color_funccallableNone自定义的颜色函数,该函数决定了词云中每个词语的颜色
regexpstring or NoneNone从输入文本中提取满足正则的词语,可选
collocationsboolTrue是否考虑词组
colormapstring or matplotlib colormap”viridis”词云的颜色映射,即词云中每个词语的颜色分布。常见的颜色映射包括单色映射(如灰度"gray")、渐变映射(“viridis”、“magma” 和 “inferno”)
normalize_pluralsboolTrue通过结尾为s 判断复数形式是否被视为同一个词
repeatboolFalse词语是否重复出现
include_numbersboolFalse是否包含数字
min_word_lengthint0单词必须包含的最小字母数
collocation_thresholdint30词语搭配(Collocations)的显示阈值
import os
from wordcloud import WordCloud# 获取当前py文件路径# 读取文本
text = open("./test.txt").read()wordcloud = WordCloud().generate(text)wordcloud.to_file('1.jpg')
image = wordcloud.to_image()
image.show()

在这里插入图片描述

from wordcloud import WordCloud
import matplotlib.pyplot as plt# 假设我们有一个字符串变量包含文本数据
text = open('test2.txt', 'r',encoding='utf-8').read()# 创建词云对象
wc = WordCloud(width=800, height=400, background_color='white',font_path='C:/Windows/Fonts/simhei.ttf')# 生成词云
wc.generate(text)# 显示词云
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")  # 不显示坐标轴
plt.show()

在这里插入图片描述

基础使用2:使用自定义字体和形状

2.1,先通过一张普通图片制作mask

需安装 【opencv】

ip install opencv-python==4.3.0.38 

转msk代码

import cv2
import numpy as np
from PIL import Image# 读取普通照片
image = cv2.imread('background.png')# 将图像转换为灰度图
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)# 二值化图像,将图像转换为黑白二值图像
_, mask_image = cv2.threshold(gray_image, 250, 255, cv2.THRESH_BINARY)# 保存生成的蒙版图像
cv2.imwrite('mask_image.png', mask_image)import matplotlib.pyplot as pltplt.figure(figsize=(10, 5))# 显示第一张图片
plt.subplot(1, 2, 1)
plt.imshow(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
plt.title('Color Image')
plt.axis('off')# 显示第二张图片
plt.subplot(1, 2, 2)
plt.imshow(cv2.cvtColor(mask_image, cv2.COLOR_BGR2RGB))
plt.title('Mask Image')
plt.axis('off')# 显示图片
plt.show()

在这里插入图片描述

# -*- coding: UTF-8 -*-
'''
@Project :wordclound 
@File    :wordclund.py
@IDE     :PyCharm 
@Author  :一晌小贪欢(278865463@qq.com)
@Date    :2024/4/17 20:57 
'''from PIL import Image
import numpy as np
from wordcloud import WordCloud, STOPWORDStext = open('txt1.txt', encoding='utf-8').read()alice_mask = np.array(Image.open( "mask_image.png"))stopwords = set(STOPWORDS)
stopwords.add("said")wc = WordCloud(background_color="white", max_words=2000, mask=alice_mask,stopwords=stopwords, contour_width=3, contour_color='steelblue')wc.generate(text)wc.to_file("alice.png")image = wc.to_image()
image.show()
  • 图片处理的不是很好

在这里插入图片描述

基础使用3:中文词云图+停用词(中英文版)-代码是中文版

  • 中英文停用词下载:https://pan.baidu.com/s/1K-fbpcbHJzM67Jq1O4YLZQ

时光不停地向前流去,天气渐渐地凉爽起来,吵人的蝉声被秋天吹散
了,代替它的是晚间阶下石板缝里蟀的悲鸣。啊!那可爱的秋天终于来了。
秋天,比春天更有欣欣向荣的景象,花木灿烂的春天固然美丽,然而
硕果累累的秋色却透着丰收的喜悦;秋天,比夏天更有五彩缤纷的景象,枝叶茂密的夏天虽然迷人,可是,金叶满树的秋色却更爽气宜人:秋天,比冬天更有生机勃勃的景象,白雪的冬天固然可爱,但是,瓜果飘香的金秋却更富有灿烂绚丽的色彩。秋天来到了树林里,从远处看,黄叶纷落好似成群结对的金色的蝴蝶,它们飞累了,落到了我的肩膀上、头上、脚上。把我的思绪从绿色的夏日带到了金色的秋季。我一转身,一片桃叶又落在我身
旁,我弯腰拾起,捧在手上,细细地端详,好特别地一片秋叶呀!它还没来得急完全退去绿色,仍散发着一股浓浓的香气。秋天来到了果园里,柿子弯下腰鞠了一个躬就压得枝头快要折断了,荔枝妹妹太胖了,撑破了衣裳,露出了鼓鼓、白白的肚皮。硕大的苹果挂满了枝头,露出甜甜的笑容,或羞
涩,或豪放。秋姑娘来到农田里,玉米可高兴了,它特意换了一件金色的新衣,开嘴笑了,露出满口金黄的牙齿;西红柿为了让自己更漂亮,便把口红涂在了脸上;土豆的兴奋也许太高了,把它那绿色的嘴巴笑破了,露出了黄色的舌头。秋天来到了花园里,这儿成了菊花的乐园。它们也许是喜欢这
沉甸甸的金色,才选择在秋天里绽放自己的美丽。菊花的颜色真不少:黄色、粉红色、白色那大大的花朵,卷曲的花瓣,像一个卷发的小姑娘。流连菊园或独自欣赏一盆艳菊,慢慢地陶醉在那股股清香里。秋天,给大地带来一片金黄,给蓝天送去棉花似的云朵。秋凤,清凉如水,带着一丝寒意染黄了世界。
我喜欢这秋高气爽的季节!
我喜欢有花叶扶疏、朴实无华的菊花的秋天。我喜欢这独一无二,灿烂辉煌的金秋景色。
秋天,真是个丰收的季节,割草机声,孩子们的欢笑声,大人们的谈笑
声这些声音融合到了一起,组成了一首《金色的秋天》的交响曲。

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt# 读取文本文件
with open('文章.txt', 'r', encoding='utf-8') as f:text = f.read()# 加载停用词表
with open('chineseStopWords.txt', 'r', encoding='utf-8') as f:stopwords = f.read().splitlines()# 使用jieba进行分词并去除停用词
words = jieba.cut(text)
filtered_words = [word for word in words if word not in stopwords]# 将分词结果转换为字符串
filtered_text = ' '.join(filtered_words)# 生成词云图
wc = WordCloud(font_path='C:/Windows/Fonts/simhei.ttf', background_color='white', width=800, height=600)
wc.generate(filtered_text)# 显示词云图
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()# 保存词云图到文件
wc.to_file('wordcloud.png')

在这里插入图片描述

总结

  • 希望对初学者有帮助

  • 致力于办公自动化的小小程序员一枚

  • 希望能得到大家的【一个免费关注】!感谢

  • 求个 🤞 关注 🤞

  • 此外还有办公自动化专栏,欢迎大家订阅:Python办公自动化专栏

  • 求个 ❤️ 喜欢 ❤️

  • 此外还有爬虫专栏,欢迎大家订阅:Python爬虫基础专栏

  • 求个 👍 收藏 👍

  • 此外还有Python基础专栏,欢迎大家订阅:Python基础学习专栏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/839786.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SAP---成本中心采购跟消耗性采购的区别

1.常规库存采购业务的说明: 1.从业务层面分析,企业的常规库存物料采购是: 采购部门下采购订单后,供应商送货,当货物到厂后,由库管员执行收货操作,先将货物收到仓库中,再由各个需求…

10个企业用的wordpress中文模板

移民wordpress主题 移民代办wordpress主题,适合做海外移民咨询的代理公司搭建wordpress企业官方网站使用。 https://www.jianzhanpress.com/?p5130 模特演出wordpress主题 暗黑风格的wordpress主题模板,适用于模特演出公司或艺人经纪公司搭建wordpre…

YOLOv8原理详解

Yolov8是2023年1月份开源的。与yolov5一样,支持目标检测、分类、分割任务。 Yolov8主要改进之处有以下几个方面: Backbone:依旧采用的CSP的思想,不过将Yolov5中的C3模块替换为C2F模块,进一步降低了参数量&#xff0c…

指针数组与数组指针的理解

typedef struct vexnode {int key;struct arcnode *next; }vexnode, adjlist[MVNUM]; void init(adjlist *list); void init(adjlist *list) {for(size_t i 0; i < MVNUM; i){list[i].key i;list[i].next NULL;} }上述代码编译的时候没有报错&#xff0c;但是运行的时候&…

RabbitMQ 交换机类型

常用交换机 发布订阅&#xff08;Publish/Subscribe&#xff09;交换机 一个生产者给多个队列发送消息&#xff0c;X 代表交换机。 交换机的作用&#xff1a;类似网络路由器&#xff0c;主要提供转发功能&#xff0c;解决怎么把消息转发到不同的队列中&#xff0c;让消费者从不…

第十八篇:探索非关系型数据库:从入门到实践

探索非关系型数据库&#xff1a;从入门到实践 1. 引言 1.1 非关系型数据库的崛起&#xff1a;背景与重要性 在过去的几十年里&#xff0c;关系型数据库&#xff08;RDBMS&#xff09;一直在数据存储和管理领域占据主导地位。其严谨的结构化数据模型以及强大的事务处理能力&am…

Mysql触发器优化大数据表

背景 数据库的订单数量过多&#xff0c;需要分出热表用于快速查询&#xff0c;热表仅保存10天的订单数据。 解决思路 每次数据库订单表触发增删改时&#xff0c;同步操作到trigger_order_mul_info表&#xff0c;然后trigger_order_mul_info会定期删除超过10天的数据。 增删…

家政项目day1 配置说明前端

目录 1.配置1.1 开发环境1.2 配置虚拟机1.3 编写nacos配置中心1.4 配置OSS存储1.5 配置高德地图api 2 设计前端并且进行部署2.1 开发环境2.2 安装类库2.3 修改代码2.4 试运行前端2.4.1 OSS配置验证 1.配置 1.1 开发环境 由于个人资金问题&#xff0c;可能担负不起8h8g的服务器…

React-JSX基础

什么是JSX 概念&#xff1a;JSX是JavaScript和XML&#xff08;HTML&#xff09;的缩写&#xff0c;表示在JS代码中编写HTML模板结构&#xff0c;它是React中编写UI模板的方式 优势&#xff1a;1.HTML的声明式模板写法 2.JS的可编程能力 JSX的本质 JSX并不是标准的JS语法&…

学习现货黄金分析技术前 有3点注意

投资者要做现货黄金交易&#xff0c;就需要懂得分析技术&#xff0c;通过分析投资者能找到市场的交易机会。其实分析也是对现货黄金市场进行思考的过程&#xff0c;未经分析而得到的入场机会&#xff0c;失败的可能性是较大的。但是我们在学习现货黄金分析技术之前&#xff0c;…

在做题在学习(60):和可被K整除的子数组

974. 和可被 K 整除的子数组 - 力扣&#xff08;LeetCode&#xff09; 解法&#xff1a;前缀和 哈希表 同余定理 同余定理&#xff1a; 而此题要求返回能被k整除(%k 0)的子数组的个数&#xff0c;如下图&#xff1a; 把问题转化为——> 有多少个前缀和的余数 sum%k &a…

D60SB60-ASEMI整流桥D60SB60参数、封装、尺寸

编辑&#xff1a;ll D60SB60-ASEMI整流桥D60SB60参数、封装、尺寸 型号&#xff1a;D60SB60 品牌&#xff1a;ASEMI 封装&#xff1a;D-SB 批号&#xff1a;2024 特性&#xff1a;插件、整流桥 平均正向整流电流&#xff08;Id&#xff09;&#xff1a;60A 最大反向击穿…

C++---运算符重载

运算符重载介绍 在类中重新定义运算符&#xff0c;赋予运算符新的功能以适应类的运算&#xff0c;就称为运算符重载。 运算符重载是一种形式的C多态,它使得对象操作更直观,本质上也是属于函数重载。 实际上&#xff0c;我们已经在不知不觉之中使用了运算符重载。例如&#xff…

编一个自己的万年历

编一个自己的万年历 前阶段突然想查一下某一天是星期几&#xff0c;于是自己编了一个[小程序][https://blog.csdn.net/weixin_41905135/article/details/138972055?spm1001.2014.3001.5501]&#xff0c;但是功能很单一&#xff0c;就是单纯的查是星期几。&#xff08;虽然用网…

IRFB3207PBF TO-220 N沟道75V/180A 直插MOSFET场效应管

英飞凌&#xff08;Infineon&#xff09;的 IRFB3207PBF 是一款高性能的 N 沟道 MOSFET&#xff0c;适用于多种电子设备和系统中的高侧开关应用。以下是 IRFB3207PBF 的一些典型应用场景&#xff1a; 1. 电源管理&#xff1a;在电源管理系统中&#xff0c;IRFB3207PBF 可以作为…

【LeetCode】【4】寻找两个正序数组的中位数(2105字)

文章目录 [toc]题目描述样例输入输出与解释样例1样例2 提示Python实现二分查找划分数组 个人主页&#xff1a;丷从心 系列专栏&#xff1a;LeetCode 刷题指南&#xff1a;LeetCode刷题指南 题目描述 给定两个大小分别为m和n的正序&#xff08;从小到大&#xff09;数组nums1…

2024年是不是转行AI产品经理的机会?

首先从一个公司的微观角度来谈谈这一年来公司对AI看法的转变。一年前自己在某大厂做了一件小事&#xff1a;在商家后端嵌入一个小功能&#xff1a;智能生成商品卖点描述&#xff0c;商品评价描述。那时候是一个边缘项目&#xff0c;我们对接的AI 底层团队基本没什么活儿可以接&…

Java面试八股之Synchronized和ReentrantLock的区别

Synchronized和ReentrantLock的区别 实现级别&#xff1a; synchronized是Java的一个关键字&#xff0c;属于JVM层面的原生支持&#xff0c;它通过监视器锁&#xff08;Monitor&#xff09;来实现同步控制&#xff0c;无需手动获取和释放锁。 ReentrantLock是java.util.conc…

本地centos7+docker+ollama+gpu部署

1、一台有 NVIDIA GPU 驱动的机器 2、Docker CE安装 # 删除旧版本的 Docker&#xff08;如果存在&#xff09; sudo yum remove -y docker docker-common docker-selinux docker-engine # 安装必要的软件包&#xff1a; sudo yum install -y yum-utils device-mapper-persiste…

更新web文件40秒后生效

服务器web服务使用的是nginx。 经测试&#xff0c;上传文件后大约40秒后生效。 更新文件不立即生效。 网上资料说根nginx中sendfile选项有关。 在nginx配置文件中&#xff0c;http区域里将sedfile设置为off&#xff0c;重启nginx服务。 谷歌浏览器强制刷新一次&#xff0c;…