wordcloud,一个超酷的python库

一、简单介绍一下

词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词,让读者能够从大量文本数据中快速抓住重点。如下图:

图1.png

wordcloud则是一个非常优秀的词云展示python库,它支持自定义词云图的大小、颜色、字体等,甚至可以通过蒙版图片设置词云图的形状。因此,我们可以借助wordcloud轻松生成精美的词云图。

二、安装只需一行命令

pip install wordcloud

三、从一个简单例子开始

from wordcloud import WordCloudtext = "微信公众号:愤怒的it男"wc = WordCloud(font_path='FZYTK.TTF', repeat=True)
wc.generate(text)
wc.to_file('wordcloud.png')

这里通过WordCloud类设置字体为方正姚体,背景颜色为白色,文本可以重复显示。生成WordCloud对象后,使用generate()方法将“微信公众号:愤怒的it男”生成词云图。最后,使用to_file()方法生成图片文件。

图2.png

四、细说wordcloud

WordCloud作为wordcloud库最核心的类,其主要参数及说明如下:

图3.PNG

这里以wordcloud库官方文档的constitution.txt文件作为数据,覆盖WordCloud类的各种参数设置用法,绘制出一张精美的词云图。

图4.PNG

首先,读入constitution.txt数据,并将数据清洗成空格分隔的长字符串。

import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])print(text[:500])

图5.PNG

然后,在默认参数设置下,使用WordCloud对象的generate()和to_file()方法生成一张简单的词云图。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud()
wc.generate(text)wc.to_file('wordcloud.png')

图6.png

以上词云图是在默认参数下生成的,简单粗糙不好看。接下来我们将对WordCloud的各种参数调整设置,不断地对以上词云图进行升级改造。

1、设置图片属性

设置图片宽为600,高为300,放大1.5倍,色彩空间为RGBA,背景颜色为None。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,)
wc.generate(text)wc.to_file('wordcloud.png')

图7.png

2、设置文字布局

设置水平比例为1(即全部为水平文字),最多只显示100个词,停用词使用自带的词典(中文需要传入自定义的),相关一致性为0.3,文字布局为非随机,不允许重复词。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,)
wc.generate(text)wc.to_file('wordcloud.png')

图8.png

3、设置字体属性

设置字体为‘JOKERMAN.TTF’,最小字号为2,最大字号为150。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,font_path='JOKERMAN.TTF',min_font_size=2,max_font_size=150,)
wc.generate(text)wc.to_file('wordcloud.png')

图9.png

4、设置蒙版

图10.PNG

设置微信公众号【愤怒的it男】头像的黑白图片为蒙版图片。

from PIL import Image
from wordcloud import WordCloud
import numpy as np
import remask_picture = np.array(Image.open('angry_it_man_mask.png'))with open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,font_path='JOKERMAN.TTF',min_font_size=2,max_font_size=150,mask=mask_picture,)
wc.generate(text)wc.to_file('wordcloud.png')

图11.png

如果你对Python感兴趣,想要学习python,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

② 路线对应学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
在这里插入图片描述

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
在这里插入图片描述

2️⃣国内外Python书籍、文档

① 文档和书籍资料

在这里插入图片描述

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
在这里插入图片描述

②Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
在这里插入图片描述

4️⃣Python面试题

我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述

上述所有资料 ⚡️ ,朋友们如果有需要的,可以扫描下方👇👇👇二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605706.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文件夹重命名:如何一键完成简体中文文件夹名到繁体中文的批量转换

随着科技的发展,人类越来越依赖计算机和电子设备进行文件管理。在这个过程中,经常会遇到要将简体中文文件夹名转换为繁体中文的情况。这有助于统一文件名的格式,也能提高文件的可读性和检索性。那如何一键完成简体中文文件夹名到繁体中文的批…

CSC行业合作项目|政府公务员赴英国南安普顿大学访学交流

CSC的行业合作项目由于是单位性质及CSC资助等原因,申请者一般不去美国,而选择较易通过签证的国家,且访学交流的方向也偏向于非敏感领域。遵循这一原则,我们最终为U老师申请到英国南安普顿大学,使其顺利获批CSC&#xf…

【2024系统架构设计】 系统架构设计师第二版-面向服务架构设计理论与实践

目录 一 概述 二 SOA的参考架构 三 SOA主要协议和规范 四 SOA设计标准和原则 五 SOA的设计模式 六 SOA的构建和实施 ​

多模态推荐系统综述:一、特征交互 Bridge

一、特征交互 挑战1.如何融合不同语义空间中的模态特征并获得每种模态的偏好。GNN注意力 挑战2.如何在数据稀疏的情况下获得推荐模型的全面表示。对比学习解缠学习 挑战3. 如何优化轻量级推荐模型和参数化模态编码器。 1. Bridge 侧重于考虑多模态信息来捕获用户和项目之间的…

【一文详解】知识分享:(MySQL关系型数据库快速入门)

mysql基础 sql通用语法分类 DDL(Data Define Language): 数据定义语言,用来定义数据库对象(数据库、表、字段)DML(Data Manipulation Language): 数据操作语言,用来对数据库表中的…

彻底掌握Python中 * 号

Python中的 *号是一个特殊的符号,在其他编程语言中,它最广为人知的用途就是作为乘法运算的符号。 而在Python中,它的用途远不止如此。 本文总结了Python中*号的所有用途,以供参考。 1. 算术运算 *号用来做算术运算几乎是所有编…

creo老是卡住怎么办?如何解决Creo卡顿问题

Creo(PRO/E)是美国PTC公司于2010年10月推出CAD设计软件包。Creo是整合了PTC公司的三个软件Pro/Engineer的参数化技术、CoCreate的直接建模技术和ProductView的三维可视化技术的新型CAD设计软件包,是PTC公司闪电计划所推出的第一个产品。那么C…

C++类与对象基础(5)——日期类的实现

对于实现日期类中需要用到的例如:构造函数,析构函数,运算符重载等内容,已经在前面几篇文章中进行介绍,故本文只给出关于类和对象中日期类的代码实现,对于代码的原理不给予详细的解释: 1.头文件…

kubectl常用命令(全局篇)

格式 -o [cmd] -o json|yaml|wide 如:输出json格式 kubectl get ns ingress-nginx -o json 获取基本信息get #查看集群基本信息 kubectl get cs|pods|nodes|ns|svc|rc|deployments kubectl get cs kubectl get pods kubectl get nodes kubectl get ns kubectl g…

Nginx 搭建可道云网盘

目录 1.安装php-fpm 2. 建站点根目录与配置 2.1 建站点根目录 2.2 配置 3. 搭建成功 1.安装php-fpm nginx 需要使用php 需要安装php-fpm yum install php-fpm php-mbstring php-mysqlnd php-gd -y 修改 www.conf 文件的配置29行和41行,将用户会让用户组改成n…

数据透明化是什么意思,什么是透明管理?

一、透明管理是什么 透明管理专注工业数据可视化分析与呈现,为企业提供一站式数据可视化分析解决方案。聚焦工业BI,基于工业管理特点,打造“指标监控-异常发现-根因溯源-举措拆解-效果监控”管理闭环,实现工业全层级的透明管理。…

SpringCloud-高级篇(十二)

在主从集群中slave节点发生了宕机,不用担心,只要它重启就能从master节点上完成数据的同步,恢复数据,如果宕机的不是slave而是master,是不是master重启就可以呢?如果你做了master节点的数据持久化&#xff0…

GPT火了一年了,你还不懂大语言模型吗?

本文主要介绍大语言的基本原理、以及应用场景和对未来的展望,侧重应用而非技术原理。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:漫谈LLMs带来的AIGC浪潮 🎀CSDN主页 发狂的小花 &#…

【Docker】容器的数据卷

目录 概念及作用 配置数据卷 数据共享 一个容器挂载多个数据卷 概念及作用 Docker容器的数据卷是一种特殊类型的目录,即使容器被删除,存在于宿主机上,可以供一个或多个容器使用。数据卷可以绕过联合文件系统,提供持续存储或共…

6547网文库动态 | 少儿编程考级真题、信息学奥赛、PPT课件等

近期动态:少儿编程题库网上传了2023年12月等级考试真题,主要有GESP真题、电子学会青少年软件编程等级考试真题,少儿编程文库系统主要上传了全国中小学信息技术创新与实践大赛(NOC大赛)真题,信息技术课件&am…

C++CLI——4数组、泛型、集合与属性

CCLI——4数组、泛型、集合与属性 C数组 在c中,数组的大小必须在编译时确定,并且将数组传递给函数时,传递的只是数组起始地址,所以要想办法连同数组大小一同传递给函数。 int arr[4] { 1,2,3,4 }; int arr1[] { 1,2,3,4 }; i…

CodeWave智能开发平台--03--目标:应用创建--07供应商数据表格01

摘要 本文是网易数帆CodeWave智能开发平台系列的第09篇,主要介绍了基于CodeWave平台文档的新手入门进行学习,实现一个完整的应用,本文主要完成07供应商数据表格 CodeWave智能开发平台的09次接触 CodeWave参考资源 网易数帆CodeWave开发者…

相机同步遇到的小问题

出现问题 在进行两个相机显示的时候,出现了相机显示不同步的情况,具体情况如下视频所示: 华睿/大华相机左右相机显示不同步 可以见到视频之中,右相机是比左相机更快一点的,但是有的时候就是同步的。我调用的代码是现成…

基于YOLOv5全系列参数模型【n/s/m/l/x】开发构建道路交通场景下CCTSDB2021交通标识检测识别系统

交通标志检测是交通标志识别系统中的一项重要任务。与其他国家的交通标志相比,中国的交通标志有其独特的特点。卷积神经网络(CNN)在计算机视觉任务中取得了突破性进展,在交通标志分类方面取得了巨大的成功。CCTSDB 数据集是由长沙…