Gradio 案例——将文本文件转为词云图

文章目录

  • Gradio 案例——将文本文件转为词云图
    • 界面截图
    • 依赖安装
    • 项目目录结构
    • 代码

Gradio 案例——将文本文件转为词云图

  • 利用 word_cloud 库,将文本文件转为词云图
  • 更完整、丰富的示例项目见 GitHub - AlionSSS/wordcloud-webui: The web UI for word_cloud(text to word cloud picture converter)

界面截图

image.png

依赖安装

  • 新建一个虚拟环境 Python 3.9.16
  • 依赖
    • $ pip install gradio==4.29 -i "https://pypi.doubanio.com/simple/"
    • $ pip install wordcloud==1.9.3 -i "https://pypi.doubanio.com/simple/"
    • $ pip install jieba==0.42.1 -i "https://pypi.doubanio.com/simple/"

项目目录结构

wordcloud-webui         # 目录
--/resources             # 资源目录
--/consts.py             # py文件,常量
--/gradio_interfaces.py  # py文件,Gradio视图
--/jieba_util.py         # py文件,工具库文件
--/lib_word_cloud.py     # py文件,工具库文件
--/main.py               # py文件,入口

代码

  • main.py
from gradio_interfaces import ifaceif __name__ == "__main__":iface.launch()
  • lib_word_cloud.py
from wordcloud import WordCloud, ImageColorGenerator
import numpy as np
from PIL import Imagefrom consts import *def text2wordcount_normal(text: str,background_color: str = "white",margin = 2,min_font_size = 4,max_font_size = 200,font_path = None,width: int = 400,height: int = 200,
):if not background_color or "" == str(background_color).strip():background_color = "white"if not min_font_size or  min_font_size < 1:min_font_size = 4if not max_font_size or max_font_size < 4:max_font_size = 200    if not font_path or "" == str(font_path).strip():font_path = DEFAULT_FONT_PATHif not width or width < 1:width = 400if not height or height < 1:height = 200 # Generate a word cloud imagewordcloud = WordCloud(font_path=font_path,width=width, height=height, background_color=background_color, max_words=2000, margin=margin, min_font_size=min_font_size, max_font_size=max_font_size, random_state=42).generate(text)return wordcloud.to_image()def text2wordcount_mask(text: str,background_color: str = "white",margin = 2,min_font_size = 4,max_font_size = 200,font_path = None,mask_image = None,mask_color = None,contour_width=3,contour_color="steelblue",
):if not background_color or "" == str(background_color).strip():background_color = "white"if not min_font_size or  min_font_size < 1:min_font_size = 4if not max_font_size or max_font_size < 4:max_font_size = 200   if not font_path or "" == str(font_path).strip():font_path = DEFAULT_FONT_PATHif not contour_width or contour_width < 0:contour_width = 3      if not contour_color or "" == str(contour_color).strip():contour_color = "steelblue"# mask_colorif mask_color is not None:image_colors = ImageColorGenerator(mask_color, True)else:image_colors = ImageColorGenerator(mask_image, True)# Generate a word cloud imagewordcloud = WordCloud(font_path=font_path,mask=mask_image,background_color=background_color,color_func=image_colors,contour_width=contour_width,contour_color=contour_color,max_words=2000, margin=margin, min_font_size=min_font_size, max_font_size=max_font_size, random_state=42).generate(text)return wordcloud.to_image()
  • jieba_util.py
import jieba
# jieba.enable_parallel(4)from consts import *# The function for processing text with Jieba
def jieba_processing_txt(text, userdict_list=['阿Q', '孔乙己', '单四嫂子']):if userdict_list is not None:for word in userdict_list:jieba.add_word(word)mywordlist = []seg_list = jieba.cut(text, cut_all=False)liststr = "/ ".join(seg_list)with open(STOPWORDS_PATH, encoding='utf-8') as f_stop:f_stop_text = f_stop.read()f_stop_seg_list = f_stop_text.splitlines()for myword in liststr.split('/'):if not (myword.strip() in f_stop_seg_list) and len(myword.strip()) > 1:mywordlist.append(myword)return ' '.join(mywordlist)
  • gradio_interfaces.py
import gradio as grimport lib_word_cloud
import jieba_utilfrom consts import *def service_text2wc(text_file,text_lang,text_dict: str,background_color,margin,max_font_size,min_font_size,font_file,width,height,mask_image,mask_color,contour_width,contour_color,
):if not text_file:gr.Warning(f"请传入正确的文本文件!")returnif margin < 0 :gr.Warning(f"字体间隔配置不合法!")returnif min_font_size < 0 or max_font_size < 0 or min_font_size > max_font_size:gr.Warning(f"字体大小配置不合法!")returntry:with open(file=text_file.name, encoding="utf-8") as file:text = file.read()if text_lang == '中文':gr.Info(f"选择了中文,将使用Jieba库解析文本!")userdict_list = []if text_dict is not None:# userdict_list = map(lambda w: w.strip(), text_dict.split(", "))userdict_list = [w.strip() for w in text_dict.split(",")]text = jieba_util.jieba_processing_txt(text, userdict_list)font_path = font_file.name if font_file else Noneif mask_image is not None:return lib_word_cloud.text2wordcount_mask(text,background_color,margin,min_font_size,max_font_size,font_path,mask_image,mask_color,contour_width,contour_color,)else:return lib_word_cloud.text2wordcount_normal(text, background_color, margin,min_font_size,max_font_size,font_path, width, height)except Exception as e:print(e)raise gr.Error("文本转词云图时,发生异常:" + str(e))js = """
function createGradioAnimation() {var container = document.createElement('div');container.id = 'gradio-animation';container.style.fontSize = '2em';container.style.fontWeight = 'bold';container.style.textAlign = 'center';container.style.marginBottom = '20px';var text = '欢迎使用“词云转换器”!';for (var i = 0; i < text.length; i++) {(function(i){setTimeout(function(){var letter = document.createElement('span');letter.style.opacity = '0';letter.style.transition = 'opacity 0.5s';letter.innerText = text[i];container.appendChild(letter);setTimeout(function() {letter.style.opacity = '1';}, 50);}, i * 200);})(i);}var gradioContainer = document.querySelector('.gradio-container');gradioContainer.insertBefore(container, gradioContainer.firstChild);return 'Animation created';
}
"""with gr.Blocks(title="词云转换器", js=js) as iface:with gr.Row():with gr.Column():with gr.Group():with gr.Row():input_text_file = gr.File(label="待处理的文本文件(必填)")with gr.Column():gr.Label(label="Tips", value="请传入正常可读的文本文件,如以.txt结尾的文档", color="#fee2e2")gr.File(value=EXAMPLE_TEXT_FILE, label="文本文件的样例")input_text_lang = gr.Radio(label="文本语言模式", choices=["中文", "英文"], value="中文")input_text_dict = gr.Textbox(label="自定义分词词典(可选)", info="中文模式使用,多个词之间用英文逗号分隔,例如'阿Q, 孔乙己, 单四嫂子'")with gr.Tab("普通模式"):with gr.Row():input_width = gr.Number(value=400, label="生成图像的宽", minimum=1)input_height = gr.Number(value=200, label="生成图像的高", minimum=1)gr.Label(label="Tips", value="使用该模式时,记得清理掉“Mask模式”下的“Mask图像”", color="#fee2e2")with gr.Tab("Mask模式"):with gr.Row():input_contour_width = gr.Number(value=3, label="轮廓线的粗细", minimum=0)input_contour_color = gr.Textbox(value="steelblue", label="轮廓线的颜色")with gr.Row():input_mask_image = gr.Image(label="Mask图像(决定词云的形状、颜色、宽高)")input_mask_color = gr.Image(label="若传入该图,则词云的颜色由该图决定")# gr.Image(value=EXAMPLE_MASK_IMAGE_PATH, label="Mask图像的样例", interactive=False)gr.Gallery(value=[EXAMPLE_MASK_IMAGE_PATH, EXAMPLE_MASK_IMAGE_PATH, EXAMPLE_MASK_IMAGE_PATH], label="Mask图像的样例", interactive=False)with gr.Column():with gr.Group():with gr.Row():with gr.Group():input_bg_color = gr.Textbox(value="white", label="词云图的背景色(默认为'white')")input_margin = gr.Number(value=2, label="字体间隔(默认为'2')", minimum=0)with gr.Row():input_min_font_size = gr.Number(value=4, label="字体大小-最小值", minimum=1)input_max_font_size = gr.Number(value=200, label="字体大小-最大值", minimum=4)    input_font_file = gr.File(label="词云图的字体文件(可选,如otf文件)")format_radio = gr.Radio(choices=["png", "jpeg", "webp", "bmp", "tiff"], label="词云图像格式", value="png")submit_button = gr.Button("开始处理", variant="primary")output_image = gr.Image(label="词云图", format="png")def fix_format(x):output_image.format = x return Noneformat_radio.change(fn=fix_format, inputs=format_radio)submit_button.click(fn=service_text2wc,inputs=[input_text_file,input_text_lang,input_text_dict,input_bg_color,input_margin,input_max_font_size,input_min_font_size,input_font_file,input_width,input_height,input_mask_image,input_mask_color,input_contour_width,input_contour_color,],outputs=output_image,)
  • consts.py,记得修改下下面文件的地址,和resource目录对应
# 样例文本
EXAMPLE_TEXT_FILE = r".\wordcloud-webui\resources\CalltoArms.txt"
# MASK图像样例
EXAMPLE_MASK_IMAGE_PATH = r".\wordcloud-webui\resources\parrot_mask.png "
# 分词器的 stop word 库
STOPWORDS_PATH = r".\wordcloud-webui\resources\stopwords_cn_en.txt"
# 词云图的默认字体
DEFAULT_FONT_PATH = r".\wordcloud-webui\resources\SourceHanSerifK-Light.otf"
  • resources 目录
    • parrot_mask.png parrot_mask.png
    • CalltoArms.txt https://github.com/amueller/word_cloud/blob/main/examples/wc_cn/CalltoArms.txt
    • SourceHanSerifK-Light.otf https://github.com/amueller/word_cloud/blob/main/examples/fonts/SourceHanSerif/SourceHanSerifK-Light.otf
    • stopwords_cn_en.txt https://github.com/amueller/word_cloud/blob/main/examples/wc_cn/stopwords_cn_en.txt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/22189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python脚手架系列-PyQt5

记录PyQt模块使用中的一些常常复用的代码 其他 导入界面 import sysfrom PyQt5.QtGui import QIcon from PyQt5.QtWidgets import QApplication, QMainWindow from UI.MainWindow import Ui_MainWindow # 导入UI界面的类以供继承class MyApp(QMainWindow, Ui_MainWindow):de…

网络数据库后端面试题

接着上期 8&#xff0c;索引是怎么提高查询效率的&#xff0c;是不是多越好 索引是数据库中用来提高查询效率的技术&#xff0c;类似目录。如果不使用索引&#xff0c;数据会零散的保存在磁盘中&#xff0c;查询数据需要挨个遍历每一个磁盘块&#xff0c;直到找到数据&#…

未来以来!鸿蒙生态爆发式增长,程序员新出路火速Get。

鸿蒙生态取得爆发式增长&#xff01; 鸿蒙生态建设速度突飞猛进&#xff0c;不仅有超4000款应用加速开发&#xff0c;众多头部SDK伙伴也在积极加入&#xff0c;为开发者提供构建鸿蒙原生应用所需的多项能力。近期&#xff0c;友盟移动统计SDK、神策数据SDK、阿里云日志服务SDK…

【Vue】v-bind对样式控制的增强-操作class

文章目录 一、语法二、示例代码三、京东秒杀-tab栏切换导航高亮四、v-bind对有样式控制的增强-操作style五、进度条案例 为了方便开发者进行样式控制&#xff0c; Vue 扩展了 v-bind 的语法&#xff0c;可以针对 class 类名 和 style 行内样式 进行控制 。 一、语法 语法 &l…

Latex中标注通讯作者

** 直接使用脚注&#xff0c;不用添加宏包 多个同地址的并列&#xff0c;建议加点空格&#xff0c;好看一些 ** \title{xxxxxxxxxxxxxxxxxxx}\author{xxxxxxxxxxxxxxxxxxx\footnote{Corresponding author} ,bbbbbbbbbbbbbbbbbbb}\address{xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx…

免费,Scratch蓝桥杯比赛历年真题--第15届蓝桥杯STEMA真题-2024年3月份(含答案解析和代码)

第15届蓝桥杯STEMA真题-2024年3月份 一、单选题 答案&#xff1a;D 解析&#xff1a;y坐标正值表示上&#xff0c;负值表示下&#xff0c;故答案为D。 答案&#xff1a;C 解析&#xff1a;18<25为真&#xff0c;或关系表示一真即为真&#xff0c;故答案为C。 答案&#xff…

Android设备获取OAID调研和实现

什么是OAID、AAID、VAID OAID OAID是"Android ID"&#xff08;安卓ID&#xff09;的一种替代方案&#xff0c;其全称为"Open Anonymous Identifier"&#xff08;开放匿名标识符&#xff09;。 因传统的移动终端设备标识如国际移动设备识别码&#xff08;…

冯喜运:6.5黄金原油今日行情趋势分析及操作策略

【黄金消息面分析】&#xff1a;在全球经济的波动中&#xff0c;美元和黄金市场的表现一直是投资者关注的焦点。最近&#xff0c;市场情绪和经济数据的波动对这两个市场产生了显著的影响。周二欧市早盘&#xff0c;现货黄金价格出现短线回调&#xff0c;金价跌破2340美元/盎司&…

数组中的第K个最大元素 ---- 分治-快排

题目链接 题目: 分析: 这道题很明显是一个top-K问题, 我们很容易想到用堆排序来解决, 堆排序的时间复杂度是O(N*logN), 不符合题意, 所以我们可以用另一种方法:快速选择算法, 他的时间复杂度为O(N)快速选择算法, 其实是基于快排, 进行修改而成, 我们还是使用将"将数组分…

Mode Solver ------- Mesh size 对仿真结果的影响

Mesh size 对仿真结果的影响 引言正文引言 在 FDE Solver ------ Straight Si waveguide simulation 硅直波导仿真(完美版) 一文中我们介绍了硅直波导的仿真。在 DE Solver ------ Simulation mesh settings 仿真网格设定(完美版) 一文中我们介绍如何设定仿真网格,在 Lum…

【Godot4自学手册】第四十一节背包系统(一)UI设置

各位同学&#xff0c;好久没有更新笔记了&#xff0c;今天开始&#xff0c;我准备自学背包系统。今天先学习下UI界面设置。 一、新建场景和结点 1.新建Node2D场景&#xff0c;命名为Inventory&#xff0c;保存到Scenes目录下&#xff0c;inventory.tscn。 2.新建TextureRect子…

kivy.garden.matplotlib

matplotlib 是什么 # pip install matplotlib2.2.2 from kivy.garden.matplotlib.backend_kivyagg import FigureCanvasKivyAgg FigureCanvasKivyAgg class FigureCanvasKivyAgg(FigureCanvasKivy, FigureCanvasAgg):FigureCanvasKivyAgg class. See module documentation f…

力扣题解 >>> 二叉树

验证二叉搜索树 递归判断数组是否升序 var isValidBST function(root) {// 搜索二叉树中序遍历之后的结果数组一定是升序if(!root){return true;}let result [];var dg function(node){if(node){dg(node.left);result.push(node.val);dg(node.right);}}dg(root);for(let i…

国联易安:网络反不正当竞争,要防患于未然

据市场监管总局官网消息&#xff0c;为预防和制止网络不正当竞争&#xff0c;维护公平竞争的市场秩序&#xff0c;鼓励创新&#xff0c;保护经营者和消费者的合法权益&#xff0c;促进数字经济规范健康持续发展&#xff0c;市场监管总局近日发布《网络反不正当竞争暂行规定》&a…

微信小程序-WXS脚本

一、概述 1.WXS WXS(WeiXin Script)是小程序独有的一套脚本语言&#xff0c;结合 WXML&#xff0c;可以构建出页面的结构。 2.wxs 的应用场景 wxml中无法调用在页面的.js 中定义的函数&#xff0c;但是&#xff0c;wxml 中可以调用 wxs 中定义的函数。因此&#xff0c;小程序…

Jupyter 各种主题

安装和更新主题 # 安装jupyter主题 pip install jupyterthemes # 加载可用主题列表 jt -l可用主题列表 Available Themes:chesterishgrade3gruvboxdgruvboxlmonokaioceans16onedorksolarizeddsolarizedl# 选择你想要的主题 jt -t <name of the theme> # 如 jt -t che…

软件测试总结基础

软件测试总结基础 1. 何为软件测试 定义&#xff1a;使用技术手段验证软件是否满足需求 目的&#xff1a;减少bug&#xff0c;保证质量 2. 软件测试分类 阶段划分 单元测试&#xff0c;针对源代码进行测试集成测试&#xff0c;针对接口进行测试系统测试&#xff0c;针对功能…

Web 网页性能优化

Web 网页性能及性能优化 一、Web 性能 Web 性能是 Web 开发的一个重要方面&#xff0c;侧重于网页加载速度以及对用户输入的响应速度 通过优化网站来改善性能&#xff0c;可以在为用户提供更好的体验 网页性能既广泛又非常深入 1. 为什么性能这么重要&#xff1f; 1. 性能…

人工智能学习笔记(1):了解sklearn

sklearn 简介 Sklearn是一个基于Python语言的开源机器学习库。全称Scikit-Learn&#xff0c;是建立在诸如NumPy、SciPy和matplotlib等其他Python库之上&#xff0c;为用户提供了一系列高质量的机器学习算法&#xff0c;其典型特点有&#xff1a; 简单有效的工具进行预测数据分…

YoloV8改进策略:Neck篇|自研Neck层融合模型|深度特征与浅层特征融合,涨点明显|附结构图(独家原创)

摘要 本文介绍的独家原创的Neck层特征融合方法&#xff0c;将深度特征和浅层特征相融合&#xff0c;结合自研下采样模块和动态上采样模块&#xff0c;提供了一种高效的Neck层改进方式&#xff0c;不仅为他们提供了一个现成的解决方案&#xff0c;而且能够作为灵感启发&#xf…