生成词云...

import wordcloud    
import jieba
import PIL
import numpy as np
import matplotlib.pyplot as plt
import jieba.analyse  
image_background = PIL.Image.open('/home/back/pythonclass/11.jpg')
#遮罩
MASK = np.array(image_background)
txt=open("/home/back/pythonclass/2024_government_work_report.txt").read()
w = wordcloud.WordCloud(font_path='/home/back/pythonclass/aaa.ttf',background_color='white', width=4000, height=2000, margin=10, max_words=200, mask =MASK)
#jieba统计并提取权值top30的词语,返回list
ls=jieba.analyse.extract_tags(txt,topK=30)
#将list转换为元素间空格分隔的字符串,创建词云
w.generate(" ".join(ls))
#将词云导出到outfile.png
w.to_file("outfile.png")

在这里插入图片描述

代码解析

导包:

import wordcloud
import jieba
import PIL
import numpy as np
import matplotlib.pyplot as plt
import jieba.analyse

变量定义:

  • image_background: 背景图片
  • MASK: 背景图片的 NumPy 数组
  • txt: 文本文件内容
  • w: 词云对象

代码执行:

  1. 读取背景图片并转换为 NumPy 数组。
  2. 读取文本文件内容。
  3. 使用 jieba.analyse.extract_tags 函数提取文本的 top 30 关键词,并将其转换为空格分隔的字符串。
  4. 创建词云对象,并设置字体、颜色、大小、边距等参数。
  5. 使用 generate 方法生成词云,并将关键词列表作为参数传入。
  6. 使用 to_file 方法将词云导出到 PNG 图片。

代码详解:

  • jieba.analyse.extract_tags(txt, topK=30) 函数用于提取文本的关键词,并根据词频进行排序。topK 参数指定提取的关键词数量。
  • wordcloud.WordCloud(font_path, background_color, width, height, margin, max_words, mask) 函数用于创建词云对象。font_path 参数指定字体文件路径,background_color 参数指定背景颜色,widthheight 参数指定词云大小,margin 参数指定词云边缘的空白区域,max_words 参数指定词云中显示的最大词语数量,mask 参数指定遮罩图片。
  • w.generate(" ".join(ls)) 方法用于生成词云,并将关键词列表作为参数传入。
  • w.to_file(“outfile.png”) 方法用于将词云导出到 PNG 图片。

总结:

以上代码使用 jiebawordcloud 库对文本进行分词、关键词提取和词云生成。最终将词云导出到 PNG 图片。

改进建议:

  • 可以使用其他分词库,例如 pkusegHanLP,进行分词。
  • 可以使用其他词云库,例如 pytagcloudwordcloud2,生成词云。
  • 可以尝试不同参数设置,生成不同风格的词云。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769592.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何本地部署Imagewheel并实现无公网IP远程连接打造个人云图床

文章目录 1.前言2. Imagewheel网站搭建2.1. Imagewheel下载和安装2.2. Imagewheel网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar临时数据隧道3.2.Cpolar稳定隧道(云端设置)3.3.Cpolar稳定隧道(本地设置) 4.公网访问测…

Mysql数据库——数据备份与恢复

目录 一、数据备份的重要性 二、数据库备份的分类 1.从物理与逻辑的角度分类 2.从数据库的备份策略角度,备份可分为 2.1完全备份 2.2差异备份 2.3增量备份 2.4总结 三、常见的备份方法 四、Mysql数据库完全备份 1.完全备份定义 2.优缺点 3.数据库完全备…

2024南京人工智能展会:定于2024年11月份在南京国际博览中心举行

2024南京国际人工智能展览会,拟定于2024年11月份在南京国际博览中心隆重召开。这一盛大的科技盛宴,无疑将为全球人工智能领域注入新的活力,推动科技创新与社会进步。 此次展览会将以“智能未来,共创辉煌”为主题,汇聚全…

Hbase 王者荣耀数据表 HBase常用Shell命令

大数据课本: HBase常用Shell命令 在使用具体的Shell命令操作HBase数据之前,需要首先启动Hadoop,然后再启动HBase,并且启动HBase Shell,进入Shell命令提示符状态,具体命令如下: $ cd /usr/local…

解决论文中插入图片显示不完整

点击图片-开始,找到段落中右下角 将行距改为单倍行距

CDP7 下载安装 Flink Percel 包

下载链接:https://www.cloudera.com/downloads/cdf/csa-trial.html 点击后选择版本, 然后点击download now,会有一个协议,勾选即可,然后就有三个文件列表, 我这里是已经注册登录的状态,如果没…

链式二叉树经典OJ题目(一)

目录 结构体声明: 1.单值二叉树 题目描述: 思路分析: 源码: 2.二叉树最大深度 题目描述: 思路分析: 源码: 3.检查两棵树是否相同 题目描述: 思路分析: 源码…

YOLOv9改进策略:卷积魔改 | SCConv:空间和通道重建卷积,即插即用,助力检测 | CVPR2023

💡💡💡本文改进内容: CVPR2023 SCConv 由两个单元组成:空间重建单元(SRU)和通道重建单元(CRU)。 SRU利用分离重建方法来抑制空间冗余,而CRU使用分割-变换-融…

Linux文件系列:磁盘,文件系统,软硬链接

Linux文件系列:磁盘,文件系统,软硬链接 一.磁盘相关知识1.磁盘机械构成2.磁盘物理存储3.磁盘逻辑存储1.LBA地址2.磁盘的分区和分组 二.文件系统和inode1.inode结构体2.文件系统1.Super Block(超级块)2.Group Descriptor Table(块组描述表GDT)3.inode Table4.Data Blocks5.Block…

mysql面试,事务四大特性,mvcc版本控制,3个重要日志,索引结构,索引失效,innodb引擎执行流程,主从复制,锁,page页

大纲 事务4大特性 https://blog.csdn.net/king_zzzzz/article/details/136699546 Mvcc多版本控制 https://blog.csdn.net/king_zzzzz/article/details/136699546 3个重要日志 https://blog.csdn.net/king_zzzzz/article/details/136868343 索引 mysql 索引(…

家用智能洗地机哪个牌子好?4款型号让你解锁高效省力生活体验

在今天的社会中,随着生活节奏的加快,人们对于家庭清洁的需求不断增加。传统的清洁方法已经无法满足现代家庭的需求。因此,洗地机作为一种高效、方便的清洁工具,已经成为了许多家庭首选的清洁设备。然而,在市场上&#…

RSTP、MSTP、VRRP

RSTP协议原理与配置 问题一、STP的收敛延时(30秒(有BP端口情况下RP端口down)或者50秒(没有BP端口情况下RP端口down)) RSTP:Rapid Spanning Tree Protocol RSTP和STP从原理流程上一样&#xf…

【刷题】滑动窗口精通 — Leetcode 30. 串联所有单词的子串 | Leetcode 76. 最小覆盖子串

送给大家一句话: 充满着欢乐与斗争精神的人们,永远带着欢乐,欢迎雷霆与阳光。 —— 赫胥黎 滑动窗口精通 前言Leetcode 30. 串联所有单词的子串题目描述算法思路 Leetcode 76. 最小覆盖子串题目描述算法思路 Thanks♪(・ω&#xf…

QT 信号(Signal)与槽(Slot)机制

一、信号(signal)与槽(slot) 在QT中,信号(signal)与槽(slot)机制是一种用于对象间通信的重要机制。它允许一个对象发出信号,而其他对象可以通过连接到该信号…

一文读懂OLAP常用优化技术

概述 OLAP在推动企业数字化转型、提高决策分析效率等场景占了举足轻重的作用。市场上数仓选型非常多,升级后往往也越来越像。因为OLAP底层技术有很多共通之处,本文将揭秘其中一些常用的技术手段。期望能帮助读者更好地进行技术选型和数仓设计。 笔者将…

敏捷开发——第二次作业JS/服务器的部署

部署 Web 服务器 1. 安装 Apache HTTP 服务器并部署静态网页应用 ⭐⭐ 默认情况下,Apache 在 /var/www/html 目录下寻找要提供服务的文件。可以将静态网页文件放置在这个目录下 2.安装 Nginx 并部署静态页面应用 3. 实践部分 1. 2. 3. 在 /var/www/html 目录下…

离职谷歌的Transformer作者创业,连发3个模型(附技术报告)

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 发布在https://it.weoknow.com 更多资源欢迎关注 去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布…

【协议-HTTPS】

https https是在http协议的基础上,添加了SSL/TLS握手以及数据加密传输,也属于应用层协议。 httpshttp加密认证完整性保护 https交互图: HTTPS的整体过程分为证书验证和数据传输阶段: ① 证书验证阶段 浏览器发起 HTTPS 请求 服务…

近线数仓优化改造

近线数仓优化改造 1. 背景2. 优化3. 改造3.1. 重构3.2. 优化 1. 背景 大概就是有那么一个数仓,然后简略结构如下: #mermaid-svg-PVoUzuQhj2BK7Qge {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid…

【javascript】原型继承

在编程中,我们经常会想获取并扩展一些东西。 例如,我们有一个 user 对象及其属性和方法,并希望将 admin 和 guest 作为基于 user 稍加修改的变体。我们想重用 user 中的内容,而不是复制/重新实现它的方法,而只是在其之…