wordcloud,一个超酷的python库

一、简单介绍一下

词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词,让读者能够从大量文本数据中快速抓住重点。如下图:

图1.png

wordcloud则是一个非常优秀的词云展示python库,它支持自定义词云图的大小、颜色、字体等,甚至可以通过蒙版图片设置词云图的形状。因此,我们可以借助wordcloud轻松生成精美的词云图。

二、安装只需一行命令

pip install wordcloud

三、从一个简单例子开始

from wordcloud import WordCloudtext = "微信公众号:愤怒的it男"wc = WordCloud(font_path='FZYTK.TTF', repeat=True)
wc.generate(text)
wc.to_file('wordcloud.png')

这里通过WordCloud类设置字体为方正姚体,背景颜色为白色,文本可以重复显示。生成WordCloud对象后,使用generate()方法将“微信公众号:愤怒的it男”生成词云图。最后,使用to_file()方法生成图片文件。

图2.png

四、细说wordcloud

WordCloud作为wordcloud库最核心的类,其主要参数及说明如下:

图3.PNG

这里以wordcloud库官方文档的constitution.txt文件作为数据,覆盖WordCloud类的各种参数设置用法,绘制出一张精美的词云图。

图4.PNG

首先,读入constitution.txt数据,并将数据清洗成空格分隔的长字符串。

import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])print(text[:500])

图5.PNG

然后,在默认参数设置下,使用WordCloud对象的generate()和to_file()方法生成一张简单的词云图。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud()
wc.generate(text)wc.to_file('wordcloud.png')

图6.png

以上词云图是在默认参数下生成的,简单粗糙不好看。接下来我们将对WordCloud的各种参数调整设置,不断地对以上词云图进行升级改造。

1、设置图片属性

设置图片宽为600,高为300,放大1.5倍,色彩空间为RGBA,背景颜色为None。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,)
wc.generate(text)wc.to_file('wordcloud.png')

图7.png

2、设置文字布局

设置水平比例为1(即全部为水平文字),最多只显示100个词,停用词使用自带的词典(中文需要传入自定义的),相关一致性为0.3,文字布局为非随机,不允许重复词。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,)
wc.generate(text)wc.to_file('wordcloud.png')

图8.png

3、设置字体属性

设置字体为‘JOKERMAN.TTF’,最小字号为2,最大字号为150。

from wordcloud import WordCloud
import rewith open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,font_path='JOKERMAN.TTF',min_font_size=2,max_font_size=150,)
wc.generate(text)wc.to_file('wordcloud.png')

图9.png

4、设置蒙版

图10.PNG

设置微信公众号【愤怒的it男】头像的黑白图片为蒙版图片。

from PIL import Image
from wordcloud import WordCloud
import numpy as np
import remask_picture = np.array(Image.open('angry_it_man_mask.png'))with open('constitution.txt') as c:text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])wc = WordCloud(width=600,height=300,scale=1.5,mode='RGBA',background_color=None,prefer_horizontal=1,max_words=400,stopwords=None,relative_scaling=0.3,random_state=4,repeat=False,font_path='JOKERMAN.TTF',min_font_size=2,max_font_size=150,mask=mask_picture,)
wc.generate(text)wc.to_file('wordcloud.png')

图11.png

如果你对Python感兴趣,想要学习python,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

② 路线对应学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
在这里插入图片描述

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
在这里插入图片描述

2️⃣国内外Python书籍、文档

① 文档和书籍资料

在这里插入图片描述

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
在这里插入图片描述

②Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
在这里插入图片描述

4️⃣Python面试题

我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述

上述所有资料 ⚡️ ,朋友们如果有需要的,可以扫描下方👇👇👇二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605706.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nacos vs Eureka的区别:微服务注册中心的选择

摘要:本文将详细讲解Nacos和Eureka两个微服务注册中心的区别,并提供代码示例,帮助读者选择合适的注册中心来管理他们的微服务架构。 引言: 在微服务架构中,注册中心是一个关键组件,用于管理和协调各个微服…

文件夹重命名:如何一键完成简体中文文件夹名到繁体中文的批量转换

随着科技的发展,人类越来越依赖计算机和电子设备进行文件管理。在这个过程中,经常会遇到要将简体中文文件夹名转换为繁体中文的情况。这有助于统一文件名的格式,也能提高文件的可读性和检索性。那如何一键完成简体中文文件夹名到繁体中文的批…

CSC行业合作项目|政府公务员赴英国南安普顿大学访学交流

CSC的行业合作项目由于是单位性质及CSC资助等原因,申请者一般不去美国,而选择较易通过签证的国家,且访学交流的方向也偏向于非敏感领域。遵循这一原则,我们最终为U老师申请到英国南安普顿大学,使其顺利获批CSC&#xf…

【2024系统架构设计】 系统架构设计师第二版-面向服务架构设计理论与实践

目录 一 概述 二 SOA的参考架构 三 SOA主要协议和规范 四 SOA设计标准和原则 五 SOA的设计模式 六 SOA的构建和实施 ​

[算法与数据结构][c++]:左值、右值、左值引用、右值引用和std::move()

左值、右值、左值引用、右值引用和std::move 1. 什么是左值、右值2. 什么是左值引用、右值引用3. **右值引用和std::move的应用场景**3.1 实现移动语义3.2 **实例:vector::push_back使用std::move提高性能** **4. 完美转发 std::forward**5. Reference 写在前面&…

多模态推荐系统综述:一、特征交互 Bridge

一、特征交互 挑战1.如何融合不同语义空间中的模态特征并获得每种模态的偏好。GNN注意力 挑战2.如何在数据稀疏的情况下获得推荐模型的全面表示。对比学习解缠学习 挑战3. 如何优化轻量级推荐模型和参数化模态编码器。 1. Bridge 侧重于考虑多模态信息来捕获用户和项目之间的…

【一文详解】知识分享:(MySQL关系型数据库快速入门)

mysql基础 sql通用语法分类 DDL(Data Define Language): 数据定义语言,用来定义数据库对象(数据库、表、字段)DML(Data Manipulation Language): 数据操作语言,用来对数据库表中的…

彻底掌握Python中 * 号

Python中的 *号是一个特殊的符号,在其他编程语言中,它最广为人知的用途就是作为乘法运算的符号。 而在Python中,它的用途远不止如此。 本文总结了Python中*号的所有用途,以供参考。 1. 算术运算 *号用来做算术运算几乎是所有编…

creo老是卡住怎么办?如何解决Creo卡顿问题

Creo(PRO/E)是美国PTC公司于2010年10月推出CAD设计软件包。Creo是整合了PTC公司的三个软件Pro/Engineer的参数化技术、CoCreate的直接建模技术和ProductView的三维可视化技术的新型CAD设计软件包,是PTC公司闪电计划所推出的第一个产品。那么C…

随写sdfwer

# 1. 分块思想 author: Ir1d, HeRaNO, Xeonacid ## 简介 其实,分块是一种思想,而不是一种数据结构。 从 NOIP 到 NOI 到 IOI,各种难度的分块思想都有出现。 分块的基本思想是,通过对原数据的适当划分,并在划分后的…

C++类与对象基础(5)——日期类的实现

对于实现日期类中需要用到的例如:构造函数,析构函数,运算符重载等内容,已经在前面几篇文章中进行介绍,故本文只给出关于类和对象中日期类的代码实现,对于代码的原理不给予详细的解释: 1.头文件…

kubectl常用命令(全局篇)

格式 -o [cmd] -o json|yaml|wide 如:输出json格式 kubectl get ns ingress-nginx -o json 获取基本信息get #查看集群基本信息 kubectl get cs|pods|nodes|ns|svc|rc|deployments kubectl get cs kubectl get pods kubectl get nodes kubectl get ns kubectl g…

在openEuler环境下快速编译GreatSQL RPM包

在上一篇中,已经介绍了在CentOS环境下编译GreatSQL RPM包的过程,本文再介绍如何在openEuler环境下编译GreatSQL RPM包。 运行环境是docker中的openEuler 22.03 x86_64: $ docker -v Docker version 20.10.10, build b485636$ docker run -itd…

纯毛纱线市场调研:预计2026年增长至近20亿美元

纯毛纱线是指纯天然的羊毛纤维制成的纱线,具有柔软、保暖等优良特性。随着人们对于环保、可持续发展和健康产品的重视,全球纯毛纱线市场呈现出稳步增长的趋势。全球市场分析: 根据市场研究公司发布的报告,全球纯毛纱线市场规模在2…

Nginx 搭建可道云网盘

目录 1.安装php-fpm 2. 建站点根目录与配置 2.1 建站点根目录 2.2 配置 3. 搭建成功 1.安装php-fpm nginx 需要使用php 需要安装php-fpm yum install php-fpm php-mbstring php-mysqlnd php-gd -y 修改 www.conf 文件的配置29行和41行,将用户会让用户组改成n…

ArrayList部分功能实现

public class MyArraylist {public int[] elem;public int usedSize 0;//0//默认容量private static final int DEFAULT_SIZE 10;public MyArraylist() {this.elem new int[DEFAULT_SIZE];}/*** 打印顺序表:* 根据usedSize判断即可*/public void display() {for (int i 0; …

数据透明化是什么意思,什么是透明管理?

一、透明管理是什么 透明管理专注工业数据可视化分析与呈现,为企业提供一站式数据可视化分析解决方案。聚焦工业BI,基于工业管理特点,打造“指标监控-异常发现-根因溯源-举措拆解-效果监控”管理闭环,实现工业全层级的透明管理。…

SpringCloud-高级篇(十二)

在主从集群中slave节点发生了宕机,不用担心,只要它重启就能从master节点上完成数据的同步,恢复数据,如果宕机的不是slave而是master,是不是master重启就可以呢?如果你做了master节点的数据持久化&#xff0…

GPT火了一年了,你还不懂大语言模型吗?

本文主要介绍大语言的基本原理、以及应用场景和对未来的展望,侧重应用而非技术原理。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:漫谈LLMs带来的AIGC浪潮 🎀CSDN主页 发狂的小花 &#…

【Docker】容器的数据卷

目录 概念及作用 配置数据卷 数据共享 一个容器挂载多个数据卷 概念及作用 Docker容器的数据卷是一种特殊类型的目录,即使容器被删除,存在于宿主机上,可以供一个或多个容器使用。数据卷可以绕过联合文件系统,提供持续存储或共…