科研学习|论文解读——指导关键词组提取的局部词向量

原文标题

Local word vectors guiding keyphrase extraction

摘要

自动关键词组提取是一项基本的文本信息处理任务,涉及到从文件中选择具有代表性的短语来概括其内容。这项工作提出了一种新的无监督的关键词组提取方法,其主要创新点是使用局部词嵌入(特别是GloVe向量),即从所考虑的单个文档中训练出来的嵌入。我们认为,这种对单词和关键词组的局部表示能够准确地捕捉它们在文档中的语义,因此有助于提高关键词组的提取质量。实证结果提供的证据表明,与在非常大的第三语料库或由同一科学领域的多个文档组成的更大的语料库上训练的嵌入以及其他最先进的无监督关键词组提取方法相比,局部表示确实可以带来更好的关键词组提取结果。

1.引言

        关键词组提取是指从文档中选择一组短语,这些短语汇总了该文档中讨论的主要主题。自动关键词组提取是数字内容管理中的一项基本任务,因为它可用于文档索引,进而可计算文档间语义相似度,并可改善数字图书馆浏览。此外,其还提供了一种文档摘要的方法。

        自动关键词组抽取的有监督机器学习方法依赖于带注释语料库。然而,人工选择每一份文件的关键词组需要投入时间和金钱,具有很大的主观性。在许多情况下,由于误解,所提取的关键词组包含一个或多个非核心主题,或者它们错过了文档中讨论的一个或多个重要主题。此外,有监督方法常常不能很好地概括来自不同内容领域的文档,而不是来自训练语料库,可能需要重新训练以处理概念漂移,而且易受文档不同词汇表和作者不同写作风格影响。

        我们的方法从给定学术出版物的全文中学习到局部词向量,我们就会计算其标题和摘要中词的平均向量(参考向量);然后,从标题和摘要中提取候选关键词组,并根据它们与参考向量的余弦相似度对它们进行排序,越接近参考向量的词向量就越有代表性。

2.相关工作

2.1 自动关键词提取

有监督方法        

在有监督学习中,分类器在带关键词组注释

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/755677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MacOS---设置Java环境变量

介绍 在MacOS系统配置Java环境变量。 操作步骤 第一步:打开.bash_profile文件 vim ~/.bash_profile第二步:添加或修改配置 如果是第一次配置需要添加配置如果是已经配置过想更换其他版本需要修改配置 在文件末尾添加或修改下面的配置 export JAVA…

SQL的INSERT IGNORE用法

INSERT IGNORE 和 ON DUPLICATE KEY UPDATE 在处理插入操作中遇到唯一键冲突时有着不同的行为: INSERT IGNORE:当使用 INSERT IGNORE 时,如果插入的数据中存在与现有记录的主键或唯一键相同的值,则 MySQL 会忽略该条记录的插入&am…

基于Spring Boot框架的学生作业管理系统

摘 要 快速发展的社会中,人们的生活水平都在提高,生活节奏也在逐渐加快。为了节省时间和提高工作效率,越来越多的人选择利用互联网进行线上打理各种事务,然后线上管理系统也就相继涌现。与此同时,人们开始接受方便的生…

LWC 学习资源

Lightning Web Components 開発者ガイドlibraryblogs Lightning Web Component (LWC)のご紹介 LWCからデータベースにアクセスする方法 - QiitaLightning Web Component 間の通信の基礎 - Qiita Sodech Developer Blog LWCとApexを連携させてREST コールアウトを実行する Taig…

从零开始学习在VUE3中使用canvas(二):fillStyle(填充样式)

一、fillStyle概念 在canvas中我们可以用fillStyle定义接下来的图像的样式&#xff0c;默认为黑色#000。 我们可以使用纯色、渐变、和纹理&#xff08;例如图片&#xff09;进行填充&#xff0c;来达到自己想要的效果。 二、代码 <template><div class"canva…

nginx 报Too many open files

nginx 异常报 Too many open files 上周时&#xff0c;nginx已经报 Too many open files 当时把 配置文件调整最大连接65535了&#xff0c;reload 重新加载nginx后不报错了。 cat /proc/14921/limits |grep "Max open file" * soft nofile 65535 * hard nof…

Softing TDX——设计模板

| 高质量的设计模板——减少开发诊断仪所需的工作量 现今&#xff0c;用户对诊断仪的界面和操作理念提出了更高的要求。一个直观的用户界面既能减少用户熟悉诊断仪的时间&#xff0c;又能减少在日常工作中进行诊断任务的时间。然而&#xff0c;创建一个精巧又独立于平台的诊断…

【黑马程序员】Python高阶

文章目录 闭包定义nonlocal关键字作用优缺点优点缺点 装饰器装饰器闭包写法 设计模式单例模式工厂模式优点代码示例 多线程基本概念threading模块 网络编程服务端开发socketsocket服务端编程 客户端开发 正则表达式正则的三个基础方法matchsearchfindAll 元字符匹配单字符匹配数…

代码随想录算法训练营第二十五天|● 216.组合总和III ● 17.电话号码的字母组合(JS写法)

216 组合总和Ⅲ 题目链接/文章讲解&#xff1a;https://programmercarl.com/0216.%E7%BB%84%E5%90%88%E6%80%BB%E5%92%8CIII.html 视频讲解&#xff1a;https://www.bilibili.com/video/BV1wg411873x 方法一&#xff1a;自己写的 自己写的&#xff0c;本题和77很像&#xf…

Redis数据结构对象之集合对象和有序集合对象

集合对象 集合对象的编码可以是intset或者hashtable. 概述 intset编码的集合对象使用整数集合作为底层实现&#xff0c;集合对象包含的所有元素都被保存在整数集合里面。 另一方面&#xff0c;hashtable编码的集合对象使用字典作为底层实现&#xff0c;字典的每个键都是一个…

PyTorch学习笔记之基础函数篇(十五)

文章目录 数值比较运算8.1 torch.equal()函数8.2 torch.ge()函数8.3 torch.gt()函数8.4 torch.le()函数8.5 torch.lt()函数8.6 torch.ne()函数8.7 torch.sort()函数8.8 torch.topk()函数 数值比较运算 8.1 torch.equal()函数 torch.equal(tensor1, tensor2) -> bool这个函…

JavaScript函数声明调用

普通函数 function f1(a, b) {return "普通函数f1&#xff1a;" a * b }console.log(f1(3, 7));var $ function f2() {return 普通函数f2 } console.log($())箭头函数 // 多个参数的箭头函数 const f3 (param1, param2) > {return "箭头函数f3&#xff…

web部署 四 限制

案例: 1/设置其下载速度限制:1000000010m&#xff0c;10000001m&#xff0c;2分别查看下载速率是否发生变化。 2/限制连接数&#xff0c;同时下载5个文件。查看第6个是否能正常访问。使用命令符:netstat-n&#xff0c;查看活动链接&#xff0c; 正常情况下我们的下载速度 我们…

遥感深度学习:CNN-LSTM模型用于NDVI的预测(Pytorch代码深度剖析)

代码上传至Github库&#xff1a;https://github.com/ChaoQiezi/CNN-LSTM-model-is-used-to-predict-NDVI 01 前言 这是一次完整的关于时空遥感影像预测相关的深度学习项目&#xff0c;后续有时间更新后续部分。 通过这次项目&#xff0c;你可以了解&#xff1a; pytroch的模…

石油炼化5G智能制造工厂数字孪生可视化平台,推进行业数字化转型

石油炼化5G智能制造工厂数字孪生可视化平台&#xff0c;推进行业数字化转型。在石油炼化行业&#xff0c;5G智能制造工厂数字孪生可视化平台的出现&#xff0c;为行业的数字化转型注入了新的活力。石油炼化行业作为传统工业的重要领域&#xff0c;面临着资源紧张、环境压力、安…

数组排列组合---M中取出N个元素

一、数组M中取出N个元素的所有组合 const getCombinationsWithRepetition (array: Array<string>, n: number) > {const result [] as anyconst currentCombination [] as anyfunction backtrack(start: number, count: number) {if (count 0) {result.push(curr…

蓝桥杯练习题——健身大调查

在浏览器中预览 index.html 页面效果如下&#xff1a; 目标 完成 js/index.js 中的 formSubmit 函数&#xff0c;用户填写表单信息后&#xff0c;点击蓝色提交按钮&#xff0c;表单项隐藏&#xff0c;页面显示用户提交的表单信息&#xff08;在 id 为 result 的元素显示&#…

Redis高性能IO模型剖析

Redis的高性能IO模型主要归功于其内部精心设计的机制&#xff0c;包括单线程模型、IO多路复用技术、高效的数据结构以及内存操作等。下面我们将逐一剖析这些关键因素。 首先&#xff0c;Redis采用单线程模型来处理网络IO和键值对读写操作。这种设计避免了多线程间的竞争和同步…

OxyPlot 导出图片

在 OxyPlot 官方文档 https://oxyplot.readthedocs.io/en/latest/export/index.html 中查看 这里用到的是导出到 PNG 文件的方法&#xff0c;不过用的 NuGet 包最新版&#xff08;2.1.0&#xff09;中&#xff0c;PngExporter 中并没有 Background 属性&#xff1a; 所以如果图…

【C语言】C语言内存函数

&#x1f451;个人主页&#xff1a;啊Q闻 &#x1f387;收录专栏&#xff1a;《C语言》 &#x1f389;道阻且长&#xff0c;行则将至 前言 这篇博客是关于C语言内存函数(memcpy,memmove,memset,memcmp)的使用以及部分的模拟实现 memcpy,memmove,memset,memc…