(python)小学出题热门词汇可视化绘制

1.代码

import pandas as pd  
from wordcloud import WordCloud  
import matplotlib.pyplot as plt  
from collections import Counter  
import jieba  # 如果你处理的是中文文本,需要jieba分词  
import re  # 停用词列表,这里只是示例,你可以根据需要添加或修改  
stopwords = ['的', '是', '在', '了', '有', '和', '人', '我', '他', '她', '它', '们', '...','0','1','2','3','4','5','6','7','8','9','10','12','20','30']  # 读取Excel文件  
df = pd.read_csv('word.csv', encoding='gbk')  # 假设你的数据在名为'text'的列中  
texts = df['text'].tolist()  # 数据清洗和分词  
cleaned_texts = []  
for text in texts:  # 去除标点符号和非中文字符  cleaned_text = re.sub(r'[^\u4e00-\u9fa5\w]', '', text)  # 使用jieba进行分词  words = jieba.cut(cleaned_text)  # 去除停用词  filtered_words = [word for word in words if word not in stopwords]  cleaned_texts.append(' '.join(filtered_words))  # 生成词频字典  
word_freq = Counter()  
for text in cleaned_texts:  word_freq.update(text.split())  # 绘制词云图  
wordcloud = WordCloud(font_path='simhei.ttf',  # 设置字体文件,确保能正确显示中文  background_color='white',  stopwords=None,  # WordCloud已经通过上面的步骤去除了停用词  min_font_size=10).generate_from_frequencies(word_freq)  plt.figure(figsize=(10, 10))  
plt.imshow(wordcloud, interpolation='bilinear')  
plt.axis('off')  
plt.show()

2.运行结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/860648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Swift 周报 第五十四期

文章目录 前言新闻和社区苹果上架 iPhone 14/Pro 官翻机:起售价不到 5000 元苹果 iPhone SE 4 售价曝光苹果针对欧盟 20 亿美元罚单提起上诉 双方另一场“缠斗”已跨越近八年 提案通过的提案正在审查的提案 Swift论坛推荐博文话题讨论关于我们 前言 本期是 Swift 编…

SAP ABAP 之OOALV

文章目录 前言一、案例介绍/笔者需求二、SE24 查看类 a.基本属性 Properties b.接口 Interfaces c.友元 Friends d.属性 Attributes e.方法 Methods f.事件 Events g.局部类型 Types …

Vulnhub--AI: WEB: 2

渗透复现 平台框架存在目录穿越漏洞,利用该漏洞读取敏感信息 Ping功能点绕过,进行命令执行操作,反弹shell无果后,利用目录穿越漏洞遍历敏感API,读取到用户SSH登录凭证 SSH登录进行Linux lxd容器提权 知识扩展 目录…

企业运维六边形战士 质量稳定 效率为王

随着信息化的不断深入和扩展,企业IT系统的复杂性和设备多样性日益增加。为了保障业务的高可用性和连续性,企业需要一个全面、高效、智能的一体化运维管理平台。在用户市场的推动下,LinkSLA智能运维管家展现出【六边形战士】的优质属性&#x…

最年轻的国家最高科技奖得主,量子领域科学家:薛其坤

6月24日,2023年度国家最高科学技术奖在京揭晓,李德仁院士、薛其坤院士获得中国科技界崇高荣誉。 薛其坤是凝聚态物理领域著名科学家,取得多项引领性的重要科学突破,包括:他率领团队首次实验观测到量子反常霍尔效应&am…

【c语言】二级指针

1,定义 本质还是从指针的角度去理解,只不过存的指针的值 2,使用方法

怎么在线一次压缩多张图片?分享3款简单的在线图片压缩工具

在日常工作和生活中,经常会需要使用图片处理大小功能,网上有很多的图片压缩工具都能够快速处理图片大小,那么当遇到大量的图片需要压缩大小时,该如何操作才能快速在线压缩图片大小呢?多张图片怎么一次批量压缩&#xf…

Python 全栈体系【四阶】(六十一)

第五章 深度学习 十三、自然语言处理(NLP) 5. NLP应用 5.2 文本情感分析 目标:利用训练数据集,对模型训练,从而实现对中文评论语句情感分析。情绪分为正面、负面两种 数据集:中文关于酒店的评论&#…

使用Servlet开发javaweb,请求常见错误详解及其解决办法【404、405、500】

Servlet报错的情况多种多样,涵盖了配置错误、代码逻辑错误、资源未找到、权限问题等多个方面。以下是一些常见的Servlet报错情况及其可能的原因和解决方法: 404 Not Found: 错误原因图示: URL映射 发送请求,出现404错误 原因: 请…

基于jeecgboot-vue3的Flowable流程-自定义业务表单处理(一)支持同一个业务多个关联流程的选择支持

因为这个项目license问题无法开源,更多技术支持与服务请加入我的知识星球。 这部分先讲讲支持自定义业务表单一个业务服务表单多个流程的支持处理 1、后端mapper部分 如下,修改selectSysCustomFormByServiceName为list对象,以便支持多个 &…

通信系统网络架构_1.局域网网络架构

当今,通信网络从大的方面主要包括局域网、广域网、移动通信网等网络形式。不同的网络会采用不同的技术进行网络构建。以下针对不同的网络给出各自的网络架构以及所采用的技术。 1.概述 局域网,即计算机局部区域网络,是一种为单一机构所拥有的…

Simufact Additive增材制造支撑创建功能

增材制造工艺作为近年来制造行业的顶流,一直备受各行业关注。除了率先大范围展开增材制造应用的航空行业,在汽车、电子乃至医疗行业也都有了不俗的进展。深谙增材制造工艺的学者都直言:使用3D打印简单,但应用好比较难。那是因为这…

【高校科研前沿】四川大学刘超研究员为一作在《Geophys. Res. Lett.》发表团队成果:植被形态影响河床泥沙输运

文章简介 论文名称:Plant morphology impacts bedload sediment transport 第一作者及单位:刘超(研究员|四川大学水利水电学院) 通讯作者及单位:Yuqi Shan(四川大学灾后重建与管理研究所) 文…

【HashMap和HashSetyi以及散列表的拉链法,线性探测法详解】

🌈个人主页:SKY-30 ⛅个人推荐:基于java提供的ArrayList实现的扑克牌游戏 |C贪吃蛇详解 ⚡学好数据结构,刷题刻不容缓:点击一起刷题 🌙心灵鸡汤:总有人要赢,为什么不能是我呢 &…

昇思25天学习打卡营第2天 | 张量Tensor

张量Tensor 张量(Tensor)基础 张量是MindSpore中的基本数据结构的一种,类似于NumPy中数组和矩阵非常相似。它具有以下重要属性: 形状(shape)和数据类型(dtype):每个张量…

如何找到合适的Python第三方库?

找合适的Python库其实很简单,按照以下三步法,你能找到90%的Python库。 1、百度谷歌搜索 明确自己的需求,用Python来干什么,力求简短明了。比如定位“数据分析”,然后去搜索关键词【Python数据分析第三方库】&#xf…

基于 JWT 进行身份验证

一、JWT 介绍 JWT 本质上就是一组字串,通过(.)切分成三个为 Base64 编码的部分: Header : 描述 JWT 的元数据,定义了生成签名的算法以及 Token 的类型。Payload : 用来存放实际需要传递的数据Signature(签…

考研数学|张宇和武忠祥,强化能不能同时跟?

可以说你跟武老师学明白了,120完全没问题!如果追求更高,宇哥的怀抱也想你敞开! 学长我21年一战数学83,总分没过线,22年二战143,逆袭上岸211!市面上的老师我基本都听过,最…

微深节能 料场堆取料无人操作系统 格雷母线

格雷母线高精度位移检测系统在料场堆取料中的应用是一个重要的技术进步,它极大地提升了堆取料作业的自动化和精确性。 一、格雷母线定位系统概述 格雷母线高精度位移测量系统,包括格雷母线、天线箱、地址解码器、地址编码器四个部分组成。 格雷母线类似一…

Java养老护理助浴陪诊小程序APP源码

💖护理助浴陪诊小程序💖 一、引言:养老新趋势🌱 在快节奏的现代生活中,养老问题逐渐成为了社会关注的焦点。如何为老年人提供便捷、贴心的服务,让他们晚年生活更加安心、舒适,是我们每个人都需…