TextRank 算法

第1关:Jieba 在关键词提取中的应用

任务描述

本关任务:根据本关所学有关使用 Jieba 库进行关键词提取的知识,编写使用 Jieba 模块进行关键词提取的程序,并通过所有测试用例。

相关知识

为了完成本关任务,你需要掌握:

  1. Jieba 模块的使用;

  2. Jieba 提取关键词的方法。

Jieba 关键词提取

jieba 库是一款优秀的 Python 第三方自然语言处理库,在我们的实际开发过程中,jieba 库是我们的好帮手,本实训将介绍 jieba 在关键词提取方面的应用。再利用 jieba 进行关键词提取时,有两种方式,一种是基于 TF-IDF 算法,一种是基于 TextRank 算法。接下来我们具体介绍这两种方式。

基于 TF-IDF 算法的关键词抽取

TF-IDF 算法是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,即一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章。

示例:使用 jieba 中的 TF-IDF

 
  1. import jieba.analyse
  2. jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

函数中各个参数的具体含义为:

  • sentence 为待提取的文本;

  • topK 为返回几个 TF/IDF 权重最大的关键词,默认值为20;

  • withWeight 为是否一并返回关键词权重值,默认值为 False ;

  • allowPOS 仅包括指定词性的词,默认值为空,即不筛选。

在使用 jieba 的 TF-IDF 算法时,需要注意的是,idf 的值是通过语料库统计得到的,所以,实际使用时,可能需要依据使用环境,替换为对应的语料库统计所得 idf 值;需要从分词结果中去除停用词;如果指定了仅提取指定词性的关键词,则词性分割非常重要,词性分割中准确程度,影响关键字的提取。

基于 TextRank 算法的关键词抽取

TextRank 采用图的思想,将文档中的词表示成一张无向有权图,词为图的节点,词之间的联系紧密程度体现为图的边的权值;计算词的权重等价于计算图中节点的权重;提取关键字,等价于找出图中权重排名 TopK 的节点。

示例:使用 jieba 中的 TextRank

 
  1. jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=("ns","n","vn","v")) # 直接使用,接口相同,注意默认过滤词性。
  2. jieba.analyse.TextRank() # 新建自定义 TextRank 实例

函数中各个参数的具体含义为:

  • sentence 为待提取的文本;

  • topK 为返回几个 TextRank 权重最大的关键词,默认值为20;

  • withWeight 为是否一并返回关键词权重值,默认值为 False ;

  • allowPOS 仅包括指定词性的词,默认值非空。

其基本思想为:将待抽取关键词的文本进行分词;以固定窗口大小(默认为5,通过 span 属性调整)、词之间的共现关系构建图;计算图中节点的 PageRank ,注意是无向带权图。

编程要求

在右侧编辑器中的 Begin-End 之间补充 Python 代码,使用 jieba 模块对所输入文本进行关键词提取,并输出前三个关键词。其中文本内容通过 input 从后台获取。

测试说明

测试输入: 以上信息提示,武汉疫情快速上升态势得到控制,湖北除武汉外,局部爆发的态势也得到控制,湖北以外省份疫情形势积极向好。下一步要从统筹推进疫情防控和经济社会发展出发,紧紧围绕社区防控和医疗救治两个重点,由全面防控向群专结合,精准防控转变。

预期输出:

 
  1. Building prefix dict from the default dictionary ...
  2. Dumping model to file cache /tmp/jieba.cache
  3. Loading model cost 1.309 seconds.
  4. Prefix dict has been built successfully. # 接口调用附加信息
  5. 疫情 武汉 湖北
import jieba.analyse
import warnings
warnings.filterwarnings("ignore")
sentence = input()# 任务:基于jieba中的TF-IDF算法完成对sentence的关键词提取,提取前三个关键词并以一行输出
# ********** Begin *********#kw = jieba.analyse.extract_tags(sentence,topK=3,withWeight=False,allowPOS=())
ans = ''
for w in kw:ans += w + ' 'print(ans)
# ********** End **********#

第2关:TextRank 算法

任务描述

本关任务:根据所学有关 TextRank 算法的知识,完成 TextRank 算法程序的编写并通过所有测试用例。

相关知识

为了完成本关任务,你需要掌握:

  1. PageRank 算法的思想;

  2. TextRank 算法的步骤与特点。

PageRank 算法

TextRank 算法的基本思想来源于 Google 的 PageRank 算法。因此在介绍TextRank 算法之前,我们先了解一下 PageRank 算法。PageRank 算法主要用于对在线搜索结果中的网页进行排序。让我们通过一个例子快速理解这个算法的基础。

图1

假设我们有4个网页——w1​,w2​,w3​,w4​。这些页面包含指向彼此的链接。有些页面可能没有链接,这些页面被称为悬空页面。

webpagelinks
w1[w4,w2]
w2[w3,w1]
w3[ ]
w4[w1]

如上表所示,各个网页之间的关系有:

  • w1​ 有指向 w2​、w4​ 的链接;

  • w2​ 有指向 w3​ 和 w1​ 的链接;

  • w4​ 仅指向 w1​ ;

  • w3​ 没有指向的链接,因此为悬空页面。

为了对这些页面进行排名,我们必须计算一个称为 PageRank 的分数。这个分数是用户访问该页面的概率。

为了获得用户从一个页面跳转到另一个页面的概率,我们将创建一个正方形矩阵 M,如图2所示,它有 n 行和 n 列,其中 n 是网页的数量。

图 2 正方形矩阵

矩阵中的每个元素表示从一个页面链接进另一个页面的可能性。如图3所示,高亮的方格包含的是从 w1​跳转到 w2​ 的概率。

图 3 概率正方形矩阵

如下是概率初始化的步骤:

  1. 从页面 i 连接到页面 j 的概率,也就是 M[i][j] ,初始化为1/页面i的出链接总数wi

  2. 如果页面 i 没有到页面 j 的链接,那么 M[i][j] 初始化为 0 ;

  3. 如果一个页面是悬空页面,那么假设它链接到其他页面的概率为等可能的,因此 M[i][j] 初始化为1/页面总数

因此在本例中,矩阵 M 初始化后如图4所示:

图 4 初始化后的矩阵

最后,这个矩阵中的值将以迭代的方式更新,以获得网页排名。

TextRank 算法

掌握了 PageRank 算法后,让我们理解 TextRank 算法。两种算法的相似之处列举如下:

  • 用句子代替网页;

  • 任意两个句子的相似性等价于网页转换概率;

  • 相似性得分存储在一个方形矩阵中,类似于 PageRank 的矩阵 M 。

图 5 TextRank 算法

TextRank 算法是一种抽取式的无监督的文本摘要方法。其步骤如下:

  1. 把所有文章整合成文本数据;

  2. 把文本分割成单个句子;

  3. 为每个句子找到向量表示(词向量);

  4. 计算句子向量间的相似性并存放在矩阵中;

  5. 将相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子 TextRank 计算;

  6. 一定数量的排名最高的句子构成最后的摘要。

编程要求

在右侧编辑器中的 Begin-End 之间补充 Python 代码,实现 TextRank 算法,完成对所输入文本的关键词提取,输出前三个关键词。其中文本内容通过 input 从后台获取。

测试说明

平台将使用测试集运行你编写的程序代码,若全部的运行结果正确,则通关。

测试输入: 在抗击新型冠状病毒的特殊时期,有这样一群人,面对疫情,他们逆向而行,穿梭在辖区的街头巷尾。一只口罩、一双手套,简单的防护措施,就是他们为自己武装的勇气。作为抗击疫情战场上不可或缺的组成部分,社区工作者们用爱筑起了疫情防控的第一道防线。

预期输出:

 
  1. Building prefix dict from the default dictionary ...
  2. Dumping model to file cache /tmp/jieba.cache
  3. Loading model cost 1.259 seconds.
  4. Prefix dict has been built successfully.# 接口调用的附加信息
  5. 疫情 防护 手套
from jieba import analyse
text = input() # 原始文本
# 任务:使用jieba模块中有关TextRank算法的模块完成对text中前三个关键字的提取并输出
# ********** Begin *********#kws = analyse.textrank(text)
ans = ''
i = 0 
for w in kws:ans+=w+' 'i+=1if i > 2:breakprint(ans)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/861865.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp生成微信小程序二维码

文章目录 一、获取不限制的小程序码1、第一步:需要先获取ACCESS_TOKEN2、第二步:获取微信小程序二维码 二、获取小程序码1、第一步:需要先获取ACCESS_TOKEN2、第二步:获取微信小程序二维码 三、扫普通链接二维码打开小程序1、协议…

反向代购是怎么火起来的?今后的发展趋势如何?

反向代购和反向海淘的兴起可以归因于多个因素,这些因素共同推动了海外消费者对中国商品的需求和购买热潮。以下是对其火起来的原因的详细分析: 海外华人华侨的需求增加: 随着中国国际移民群体的扩大,海外华人华侨数量不断增多。这…

第三届仿真模拟、电子信息科学与技术国际学术会议(SMEI 2024,8月02-04)

随着仿真模拟技术的成熟和进步,仿真模拟技术越来越广泛地应用于工业工程、管理科学、社会经济、交通运输、生态环境、军事装备等各个科学领域,并深刻影响着信息技术和信息产业的发展。围绕仿真模拟、电子信息科学与技术等方面内容,为更好地促…

Gartner发布2024年企业高管增长议程:使网络安全投资与业务增长保持一致

网络安全投资和准备被视为推动企业发展的关键因素。除了避免损失之外,高管还应利用有效的以业务为中心的安全方法,通过大规模实现敏捷性和创新来推动收入增长。 主要发现 高增长公司通过扩大商业足迹来推动业绩,这需要大规模的创新、敏捷性和…

002 使用kibana操作ElasticSearch7.x

文章目录 4.使用kibana操作es4.1.文档操作1.put方式发送数据2.post方式发送数据3.查看索引文档 GET4.更新文档 POST5.删除文档&索引 DELETE6.批量添加数据_bulk 4.2.Query DLS(查询领域对象语言)1.url 检索数据语法2.查询所有数据3.查询全部数据并排序4.查询全部数据排序并…

时序分析基本概念介绍——min period 最小时钟周期

文章目录 前言一、什么是 min period?二、为什么检查 min period?三、如何设置 min period?四、如何检查 min period?五、如何修复 min period?总结 前言 我们在实际设计中可能会碰到这种情况,如果我们的m…

介绍ES6中的class类:(一) 类的基本语法

一、类的由来与简介 1. 简介 很早很早之前,在JavaScript的世界里,生成实例对象的传统方法是通过构造函数。 嗯哼? function Point(x, y) {this.x x;this.y y; }Point.prototype.toString function () {return ( this.x , this.y )…

计算机图形学入门18:阴影映射

1.前言 前面几篇关于光栅化的文章中介绍了如何计算物体表面的光照,但是着色并不会进行阴影的计算,阴影需要单独进行处理,目前最常用的阴影计算技术之一就是Shadow Mapping技术,也就是俗称的阴影映射技术。 2.阴影映射 Shadow Map…

提升用户转化率秘诀!Xinstall的H5拉起应用技术让您领先一步!

在移动互联网时代,App的推广和运营面临着诸多挑战。其中,H5页面如何高效、便捷地拉起应用,成为了一个亟待解决的问题。今天,我们就来谈谈如何利用Xinstall品牌,轻松解决这一痛点,提升用户体验,助…

boss直聘招聘数据爬取及可视化分析2.0

boss直聘招聘数据爬取及可视化分析2.0 一、需求介绍二、完整代码2.1 爬虫代码2.2 数据可视化模块一、需求介绍 笔者在前两篇介绍boss直聘招聘数据爬取和可视化分析的博客的基础上,对代码和功能进行了完善。在数据爬取的模块,代码更加简洁易懂,且性能更加稳定;在数据可视化…

SpringBoot | 使用jwt令牌实现登录认证,使用Md5加密实现注册

对于登录认证中的令牌,其实就是一段字符串,那为什么要那么麻烦去用jwt令牌?其实对于登录这个业务,在平常我们实现这个功能时,可能大部分都是通过比对用户名和密码,只要正确,就登录成功&#xff…

关于 AD21导入电子元器件放置“3D体”STEP模型失去3D纹理贴图 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/139969415 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

https网站安全证书的作用与申请办法

HTTPS网站安全证书,正式名称为超文本传输安全协议证书,是通过SSL/TLS加密协议,保障互联网用户与网站间数据交换的安全性的关键技术。 一:HTTPS网站安全证书的作用 1 消除不安全提示:未使用https协议的网站&#xff0c…

threejs的学习(一)

1.万事开头难 先把环境搭好 https://github.com/mrdoob/three.js/tree/dev/src 把这个项目clone下来 yarn install 安装依赖 yarn start 启动项目 然后用vite新建一个项目 npm init vite@latest 选择第一个 Vanilla就行 然后选择js 然后成功创建之后,npm start npm …

云计算【第一阶段(22)】进程和计划任务管理

一、查看进程 1.1、程序和进程的关系 程序 保存在硬盘,光盘等介质中的可执行代码和数据静态保存的代码 进程 在cpu及内存中运行的程序代码动态执行的代码父,子进程:每个程序可以创建一个或多个进程 1.2、查看进程 1.2.1、静态查看进程…

MQTT遗嘱信息(1)

本文内容参考: 什么是MQTT遗嘱消息?如何配置和处理遗嘱消息?_mqtt last will-CSDN博客 【MQTT基础篇(十五)】MQTT遗嘱_last-will qos-CSDN博客 MQTT 协议学习:Retained(保留消息)…

纯干货丨知乎广告投放流程和避坑攻略

精准有效的广告投放企业获客的关键,知乎作为中国最大的知识分享平台,拥有着高质量的用户群体和高度的用户粘性,为广告主提供了独一无二的品牌传播与产品推广平台。然而,如何在知乎上高效、精准地进行广告投放,避免不必…

pdf转换成cad,这几个cad转换小妙招快码住!

在数字设计领域,PDF(Portable Document Format)和CAD(Computer-Aided Design)文件格式各有其独特之处。PDF常用于文件共享和打印,而CAD则是工程师和设计师们进行精确绘图和建模的必备工具。然而&#xff0c…

谷粒商城P62 Spring Cloud Alibaba整合 OSS 报错问题(成功解决)

文章目录 一、依赖版本二、整合步骤2.1 视频 / 旧版本2.2 官网 / 新版本 三、product测试四、额外补充4.1 renren-fast报错4.2 解决方案4.2.1 视频 / 旧版本4.2.2 官网 / 新版本 最近在学习谷粒商城,一直卡在P62,SpringCloud Alibaba整合OSS报错&#xf…

word图题表题公式按照章节编号(不用题注)

预期效果: 其中3表示第三章,4表示第3章里的第4个图。标题、公式编号也是类似的。 为了达到这种按照章节编号的效果,原本可以用插入题注里的“包含章节编号” 但实际情况是,这不仅需要一级标题的序号是用“开始->多级列表”自动…