python词云乱码_python词云库wordCloud使用方法详解(解决中文乱码)

文章中的例子主要借鉴wordColud的examples,在文章对examples中的例子做了一些改动。

一、wordColud设计中文词云乱码

使用wordColud设计词云的时候可能会产生乱码问题,因为wordColud默认的字体不支持中文,所以我们只需要替换wordColud的默认字体即可正常显示中文。

1、中文词云乱码

我们使用simhei(黑体)来替换wordColud的默认字体。

2、替换默认字体

a、在字体文件*.tff字体文件(simhei.tff)拷贝到wordColud安装的文件夹中,文件夹路径:anaconda(python)-->lib-->site-packages-->wordcolud,如下图:

20021733730170549248537134.png

其中矩形框出来的是wordColud默认的字体,椭圆形框的是我们下载的字体。

b、修改wordcolud.py文件中的字体设置,打开改路径下的wordcolud.py文件,找到下图的所示的框出来的这一行(29行)

将系统的DroidSansMono.tff修改为simhei.tff即可。

20021733730462928259610614.png

二、wordColud示例

1、设计一个简单的圆形词云

import numpy as np

import matplotlib.pyplot as plt

from wordcloud import WordCloud,STOPWORDS

from PIL import Image

from os import path

import matplotlib.pyplot as plt

#用来正常显示中文

plt.rcParams["font.sans-serif"]=["SimHei"]

#用来正常显示负号

plt.rcParams["axes.unicode_minus"]=False

import os

import random,jieba

'''

绘制单个词一个圆形的词云

'''

def single_wordColud():

text = "第一 第二 第三 第四"

#产生一个以(150,150)为圆心,半径为130的圆形mask

x,y = np.ogrid[:300,:300]

mask = (x-150) ** 2 + (y-150) ** 2 > 130 ** 2

mask = 255 * mask.astype(int)

wc = WordCloud(background_color="white",repeat=True,mask=mask)

wc.generate(text)

#将x轴和y轴坐标隐藏

plt.axis("off")

plt.imshow(wc,interpolation="bilinear")

plt.show()

20021733730659493872488467.png

2、以图片形状作为背景设计词云

20021733730948749274432047.jpg

下面以蜡笔小新的这张图片作为背景来设计一个词云,我们通过读取一个txt文件,文件中包含了很多段落,然后通过jieba对句子进行分词,去除停用词之后,生成一张词云的照片。

a、读取文件内容

使用jieba分词后,词之间需要通过空格进行分割,不然在产生词云的时候回变成一个词。

'''

中文分词

'''

def segment_words(text):

article_contents = ""

#使用jieba进行分词

words = jieba.cut(text,cut_all=False)

for word in words:

#使用空格来分割词

article_contents += word+" "

return article_contents

b、读取停用词

停用词包括一些标点符号,和一些没有实际意义的词,我们需要将这些词都去除。

'''

从文件中读取停用词

'''

def get_stopwords():

dir_path = path.dirname(__file__) if "__file__" in locals() else os.getcwd()

#获取停用词的路径

stopwords_path = os.path.join(dir_path,"txt/stopwords.txt")

#创建set集合来保存停用词

stopwords = set()

#读取文件

f = open(stopwords_path,"r",encoding="utf-8")

line_contents = f.readline()

while line_contents:

#去掉回车

line_contents = line_contents.replace("\n","").replace("\t","").replace("\u3000","")

stopwords.add(line_contents)

line_contents = f.readline()

return stopwords

c、生成词云图片

def drow_mask_wordColud():

#获取当前文件的父目录

d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()

mask = np.array(Image.open(path.join(d,"img/test.jpg")))

text = open(path.join(d,"txt/test.txt"),"r",encoding="utf-8").read().

replace("\n","").replace("\t","").replace("\u3000","")

#对文本进行分词

text = segment_words(text)

#获取停用词

stopwords = get_stopwords()

#创建词云

'''

max_words:显示词的数量

mask:背景

stopwords:停用词,是一个set集合

margin:词之间的间隔

background_color:词云图片背景颜色

'''

wc = WordCloud(max_words=100,mask=mask,background_color="white",

stopwords=stopwords,margin=10,random_state=1).generate(text)

default_colors = wc.to_array()

# #保存词云图片

# wc.to_file("a_new_hope.png")

plt.imshow(default_colors,interpolation="bilinear")

plt.axis("off")

plt.show()

20021733731075076094049131.png

3、自定义词云的颜色

from wordcloud import WordCloud,get_single_color_func

import matplotlib.pyplot as plt

'''

定义一个字体颜色设置类

'''

class GroupedColorFunc(object):

def __init__(self,color_to_words,default_color):

self.color_func_to_words=[

(get_single_color_func(color),set(words))

for (color,words) in color_to_words.items()

]

self.defalt_color_func=get_single_color_func(default_color)

def get_color_func(self,word):

try:

#设置每个词的颜色

color_func = next(color_func for (color_func,words) in self.color_func_to_words

if word in words)

except StopIteration:

#词的默认颜色

color_func = self.defalt_color_func

return color_func

def __call__(self,word,**kwargs):

return self.get_color_func(word)(word,**kwargs)

if __name__ == "__main__":

text = "第一 第二 第三 第四 第五 第六"

#创建词云

wc = WordCloud(collocations=False,background_color="white").generate(text)

#设置词的颜色

color_to_words={

#使用RGB来设置词的颜色

"#00ff00":["第一","第五"],

"red":["第三","第六"],

"yellow":["第二"]

}

#设置词默认的颜色

default_color = "blue"

grouped_color_func = GroupedColorFunc(color_to_words,default_color)

#设置词云的颜色

wc.recolor(color_func=grouped_color_func)

#显示词云图

plt.figure()

plt.imshow(wc,interpolation="bilinear")

plt.axis("off")

plt.show()

20021733731184661109342794.png

通过词的颜色设置类,来设置不同词的颜色。

4、自定义突出词的重要程度

在生成词云的时候,默认使用的是使得词频高的词更加突出,突出的词会比较大,有时候我们已经计算出了词的权重,想通过词云图来突出权重大小的差别。

from wordcloud import WordCloud

import matplotlib.pyplot as plt

import numpy as np

def get_mask():

x,y = np.ogrid[:300,:300]

mask = (x-150) ** 2 + (y-150) ** 2 > 130 ** 2

mask = 255 * mask.astype(int)

return mask

if __name__ == "__main__":

#每个词的权重

text = {"第一":0.1,"第二":0.2,"第三":0.3,"第四":0.4,"第五":0.5}

wc = WordCloud(background_color="white",mask=get_mask())

wc.generate_from_frequencies(text)

plt.axis("off")

plt.imshow(wc,interpolation="bilinear")

plt.show()

20021733731359635269913338.png

5、保存词云图片

wc.to_file("test.png")

更多关于python词云库wordCloud使用方法请查看下面的相关链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/534892.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

easyui java管理系统_EasyUI 后台管理系统

ASP.NET MVC5+EF6+EasyUI 后台管理系统(1)-前言与目录(持续更新中...)开发工具:VS2015(2012以上)SQL2008R2以上数据库 您可以有偿获取一份最新源码联系QQ:729994997 价格 666RMB 升级后界面效果如下: 任务调度…

linux同时安装python2和python3_linux-Centos7安装python3并与python2共存

1.查看是否已经安装Python CentOS 7.2 默认安装了python2.7.5 因为一些命令要用它比如yum 它使用的是python2.7.5。 使用 python -V 命令查看一下是否安装Python 然后使用命令 which python 查看一下Python可执行文件的位置可见执行文件在/usr/bin/ 目录下,切换到该…

opencv获取模板旋转角度_OpenCV入门之获取图像的旋转角度

在我们的日常生活中,所碰到的图像往往都有一定的倾斜。那么,如何用OpenCV来获取图像的旋转角度呢?   我们以下面的图片为例,简单介绍如何用OpenCV来获取图像的旋转角度。可以看到,该图像存在着许多噪声,且…

后台使用orm多还是直接sql_Django应用app创建及ORM

Django应用app创建及ORM一.重要知识点回顾:1. form表单提交数据的注意事项:1. 是form不是from,必须要有method和action (action用来指定你的数据提交到后台哪个地方,method用来指定你提交数据的方式)2. 所有获取用户输入的表单标签要放在form表单里面&am…

java ruby脚本_Java 程序中直接执行 Ruby 脚本 (JRuby)

1.[代码]MainClass.javaimport java.io.BufferedReader;import java.io.FileReader;import javax.script.Invocable;import javax.script.ScriptEngine;import javax.script.ScriptEngineManager;public class MainClass {public static void main(String[] args) throws Excep…

python win32gui安装_python-无法安装win32gui

我正在尝试使用pip安装win32gui,但出现错误: C:\Users\?????>pip install win32gui Collecting win32gui Using cached https://files.pythonhosted.org/packages/b8/75/7bed82934e51903f9d48b26b3996161bb2dce1731607b4bb7fd26003ed3e/win32gui-221.5.tar.…

时间戳 java_java中获取时间戳的方法

在java开发过程中经常会遇到统计某一天或是某一个月的数据,因此常常需要获取截取数据的两个时间戳(比如统计今天的数据,则需要获取一个开始时间为今天零点以及一个结束时间为明天零点),然后根据数据相关的时间是否在该时间区间内来判断是否将…

求一批整数中出现最多的个位数字_C语言经典100例007-求低n-1位的数

系列文章《C语言经典100例》持续创作中,欢迎大家的关注和支持。喜欢的同学记得点赞、转发、收藏哦~后续C语言经典100例将会以pdf和代码的形式发放到公众号欢迎关注:计算广告生态 即时查收1 题目函数:unsigned fun(unsigned w)功能…

python合并多个pdf_python合并多个pdf文件

假设您有个无聊的工作,将几十个PDF文档合并成一个PDF文件。 他们每个都有封面页作为第一页,但你不希望在最终结果中重复覆盖表。 即使有有很多免费的程序来组合PDF,其中许多只是合并整个文件在一起。 让我们编写一个Python程序来自定义哪些页…

python class类_python类class基础

44、class类:一、类定义的一般形式:1、简单的形式:实例化对象没有自己独有的数据属性。>>> class fistclass():... data1 hello world ### >这是类的数据属性或类成员属性。... def printdata(self): ###>这是类的方法&#…

java文件序列化_Java序列化与反序列化,文件操作

参考两篇博客:http://blog.csdn.net/moreevan/article/details/6697777http://blog.csdn.net/moreevan/article/details/6698529针对第二篇博客,看了下面的评论,发现子类输出的书号其实是父类的,书名是自己先添加的成员变量&#…

python 彻底解读多线程与多进程_python 多进程与多线程浅析

python多线程是伪多线程,同时间最多只有一个线程在执行,但这样并不代码python的多线程没有作用,对于IO密集型的系统,python的多线程还是能极大的提升性能~关于python伪多线程可以去了解python GIL的概念。以下代码涉及…

python什么软件开发好_python怎样才能学好?python软件开发什么

众所周知,Python是近年来热门的编程语言之一,吸引了很多人参与到it行业的Python开发中来,但是如何学习Python编程呢?对于每一个初学Python的朋友来说,估计有点困惑。那么我们如何才能学好Python呢?学习Python需要什么技能?有些…

java 设计模式原则_Java设计模式的七大原则

设计原则名称定 义使用频率单一职责原则(Single Responsibility Principle, SRP)一个类只负责一个功能领域中的相应职责。★★★★☆开闭原则(Open-Closed Principle, OCP)软件实体应对扩展开放,而对修改关闭。开闭原则的关键在于抽象化。★★★★★里氏代换原则(L…

python自定义模块和三方模块_python基础知识8——模块1——自定义模块和第三方开源模块...

模块的认识模块,用一砣代码实现了某个功能的代码集合。类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合。而对于一个复杂的功能来,可能需要多个函数…

dhcp只能分配与路由器相同网段么_路由器的桥接详解

网上关于路由器无线桥接的教程很多,让你注意那注意这的,都没有说明白。今天,我来试着缕清它们间的关系!1、主路由器这是我主路由器目前的状态,其中IP地址是我在上级光猫路由的可用ip段192.168.1.2~254里选的一个&#…

逆序对java_逆序对

求逆序对问题用归并排序的时间复杂度比暴力算法更低。假设有一个数组{8,1,2,5,7,4,3,6}首先归并排序第一次对数组进行分割 8 1 2 5 7 4 3 6二次分割 8 1 25 74 3…

python123测验9程序题答案_Django ORM 练习题及答案_python_脚本之家

1.modles中表结构#出版社class Publisher(models.Model):name models.CharField(max_length32)city models.CharField(max_length32)def __str__(self):return "".format(self.id, self.name)#书籍class Book(models.Model):title models.CharField(max_length32)…

java父类shape_为什么该父类无法调用其子类.__ShapeCircle_public_perimeter_getType_shapej__169IT.COM...

子类:public class ShapeCircle extends Shape{protected double r;public ShapeCircle(){setside(0.0);}public ShapeCircle(double r){setside(r);}public void setside(double r){this.rr;}public double perimeter(){return Math.PI*2*r;}public String getType(){return &…

python中双冒号的作用_python中双冒号

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…