NLP--关键词

       在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。

1.词频统计

       统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中,两个字以上的词语都有哪些?他们出现的次数分别是多少?

2.关键词统计:有TF-IDF算法和textrank算法。

       TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。调用jieba库,使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

       textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库,使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

      词云通过文本预处理,词频统计,将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。其中,需要根据不同的环境设置相应的字体。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/23906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

defineProps定义类型

1.props标注类型 原因&#xff1a;确保给组件传递的props是类型安全的 <script setup lang"ts"> //1.使用别名类型或者接口定义Props类型 type Props {name:stringage?:number } //2 使用defineProps注解类型 const props defineProps<Props>() <…

mysql如何处理无效数据

在 MySQL 中处理无效数据值是一个常见任务,可以通过多种方式进行,如使用条件更新、删除、替换或数据校验等。 1. 使用条件更新无效数据值 如果要将表中的无效数据值更新为某个默认值,可以使用 UPDATE 语句配合 WHERE 子句。例如,将负数改为零: UPDATE table_name SET c…

全年申报!2024年陕西省双软企业认定条件标准、申报好处费用

1.双软企业是什么? 答:双软认证并不是一个资质,而是"软件产品登记"和"软件企业认定"两个不同资质的统称.叫做"双软企业" 2.双软企业的优惠政策是什么? 答:(1)软件产品登记的优惠政策:软件产品增值税,从13%减按3%征收,实行即征即退; (2)软件…

BGP邻居长时间停留在Active排错思路

当邻居状态长时间停留在Active&#xff0c;首先应检查网络连通性&#xff0c;包括路由可达性、中间设备的ACL/Firewall规则、TCP端口179是否开放等。 使用网络监控工具或BGP调试命令&#xff08;如在Cisco设备上使用debug bgp events或debug tcp transactions&#xff09;可以…

vben:路由跳转和关闭当前页面

使用Vben admin框架开发前端&#xff0c;在tab页用到路由跳转和关闭当前页面的功能&#xff0c;代码如下。 按钮 <a-button ghost style"margin-right: 20px" click"closeNowTab">取消</a-button>实现代码 import { useGo } from //hooks/w…

Dubbo SPI(Service Provider Interface)机制深度解析

Dubbo SPI&#xff08;Service Provider Interface&#xff09;机制是Apache Dubbo框架中一项核心的技术组件&#xff0c;它超越了传统Java SPI的范畴&#xff0c;为Dubbo带来了高度的可扩展性和灵活性。在分布式服务架构日益复杂多变的今天&#xff0c;Dubbo SPI机制通过巧妙的…

Ansible语法与模块

目录 如何查询帮助 核心模块 社区和特定平台模块 其他常用模块 语法总结 Ansible 命令行工具 1. ansible 2. ansible-playbook 3. ansible-vault 4. ansible-galaxy 5.ansible-doc 6.ansible-config 7.ansible-pull 8.ansible-console 如何查询帮助 ansible-doc…

什么叫防御式编程

防御式编程是一种编程策略&#xff0c;主要目的是提高代码的健壮性和可靠性。它假设任何错误都可能发生&#xff0c;并且在设计和编写代码时采取预防措施以防止这些错误导致程序崩溃或产生错误结果。 以下是一些防御式编程的常见实践&#xff1a; 输入验证&#xff1a;总是验证…

2024Stable Diffusion WebUI详细使用指南

Stable Diffusion WebUI&#xff08;AUTOMATIC1111&#xff0c;简称A1111&#xff09;是一个为高级用户设计的图形用户界面&#xff08;GUI&#xff09;&#xff0c;它提供了丰富的功能和灵活性&#xff0c;以满足复杂和高级的图像生成需求。由于其强大的功能和社区的活跃参与&…

22 - 游戏玩法分析 IV(高频 SQL 50 题基础版)

22 - 游戏玩法分析 IV 考点&#xff1a; 聚合函数 # 日期相加 date_add(min(event_date),INTERVAL 1 DAY) select round(count(distinct player_id)/(select count(distinct player_id) from Activity),2) fraction fromActivity where-- 如果日期加一天的数据能在表中…

pytorch笔记:自动混合精度(AMP)

1 理论部分 1.1 FP16 VS FP32 FP32具有八个指数位和23个小数位&#xff0c;而FP16具有五个指数位和十个小数位Tensor内核支持混合精度数学&#xff0c;即输入为半精度&#xff08;FP16&#xff09;&#xff0c;输出为全精度&#xff08;FP32&#xff09; 1.1.1 使用FP16的优缺…

MySQL主从同步优化指南:架构、瓶颈与解决方案

前言 ​ 在现代数据库架构中&#xff0c;MySQL 主从同步是实现高可用性和负载均衡的关键技术。本文将深入探讨主从同步的架构、延迟原因以及优化策略&#xff0c;并提供专业的监控建议。 MySQL 主从同步架构 ​ 主从复制流程&#xff1a; 从库生成两个线程&#xff0c;一个…

20 - 每月交易 I(高频 SQL 50 题基础版)

20 - 每月交易 I -- 考点&#xff1a;日期转换格式 -- date_format(trans_date,%Y-%m)select date_format(trans_date,%Y-%m) month,country,count(*) trans_count,sum(if(stateapproved,1,0)) approved_count,sum(amount) trans_total_amount,sum(if(state"approved&qu…

【主题广泛|稳定检索】2024年食品安全与生物技术国际会议(ICFSB 2024)

2024年食品安全与生物技术国际会议&#xff08;ICFSB 2024&#xff09; 2024 International Conference on Food Safety and Biotechnology 【重要信息】 大会地点&#xff1a;贵阳 大会官网&#xff1a;http://www.icicfsb.com 投稿邮箱&#xff1a;icicfsbsub-conf.com 【注…

语言大模型qwen1.5全流程解析:微调,量化与推理

在前一篇文章中&#xff0c;主要使用llama-factory封装的推理模块对速度进行了测试&#xff0c;vllm速度快些&#xff0c;但仍没有传说中的快3-5倍&#xff0c;需要单独测试。这里使用qwen1.5-1.8B作为测试模型。 qwen1.5是qwen2的先行版&#xff0c;24年2月发布&#xff0c;与…

this,apply,call,bind 超详细合集

前言 之前在学习this关键字的时候&#xff0c;其实一直都是懵懵懂懂。知道答案但是不知道所以。一直想知道为什么是这样&#xff1f;为什么this默认指向全局呢&#xff1f;今天忽然释然了&#xff0c;我又不是开发这门语言的人&#xff0c;我为什么要纠结这些。那今天就来讲讲…

Apache Doris 2.0.11 版本正式发布

亲爱的社区小伙伴们&#xff0c;Apache Doris 2.0.11 版本已于 2024 年 6 月 5 日正式与大家见面&#xff0c;该版本提交了 123 个改进项以及问题修复&#xff0c;进一步提升了系统的性能及稳定性&#xff0c;欢迎大家下载体验。 官网下载&#xff1a; https://doris.apache.o…

jenkins插件之Jdepend

JDepend插件是一个为构建生成JDepend报告的插件。 安装插件 JDepend Dashboard -->> 系统管理 -->> 插件管理 -->> Available plugins 搜索 Jdepend, 点击安装构建步骤新增执行shell #执行pdepend if docker exec phpfpm82 /tmp/composer/vendor/bin/pdepe…

ComfyUI工作流分享-黏土特效工作流

大家给的教程都是苹果端使用Remini的软件制作&#xff0c;免费白嫖7天&#xff0c;7天后就要收费&#xff0c;作为ComfyUI技术党&#xff0c;当然是选择自己实现了&#xff0c;搭建一套工作流就搞定&#xff0c;这不&#xff0c;今天就来分享一套对应的黏土效果工作流&#xff…

使用Python实现GLM解码器的示例(带有Tensor Shape标注)

ByteDance的“Glancing Transformer”&#xff08;GLAT&#xff09;是一种用于无自回归神经机器翻译&#xff08;NAT&#xff09;的创新模型。该模型通过一种称为“glancing sampling”的策略&#xff0c;显著提高了翻译的质量和效率。 GLAT 的主要特性 Glancing Sampling 机制…