原文标题
Local word vectors guiding keyphrase extraction
摘要
自动关键词组提取是一项基本的文本信息处理任务,涉及到从文件中选择具有代表性的短语来概括其内容。这项工作提出了一种新的无监督的关键词组提取方法,其主要创新点是使用局部词嵌入(特别是GloVe向量),即从所考虑的单个文档中训练出来的嵌入。我们认为,这种对单词和关键词组的局部表示能够准确地捕捉它们在文档中的语义,因此有助于提高关键词组的提取质量。实证结果提供的证据表明,与在非常大的第三语料库或由同一科学领域的多个文档组成的更大的语料库上训练的嵌入以及其他最先进的无监督关键词组提取方法相比,局部表示确实可以带来更好的关键词组提取结果。
1.引言
关键词组提取是指从文档中选择一组短语,这些短语汇总了该文档中讨论的主要主题。自动关键词组提取是数字内容管理中的一项基本任务,因为它可用于文档索引,进而可计算文档间语义相似度,并可改善数字图书馆浏览。此外,其还提供了一种文档摘要的方法。
自动关键词组抽取的有监督机器学习方法依赖于带注释语料库。然而,人工选择每一份文件的关键词组需要投入时间和金钱,具有很大的主观性。在许多情况下,由于误解,所提取的关键词组包含一个或多个非核心主题,或者它们错过了文档中讨论的一个或多个重要主题。此外,有监督方法常常不能很好地概括来自不同内容领域的文档,而不是来自训练语料库,可能需要重新训练以处理概念漂移,而且易受文档不同词汇表和作者不同写作风格影响。
我们的方法从给定学术出版物的全文中学习到局部词向量,我们就会计算其标题和摘要中词的平均向量(参考向量);然后,从标题和摘要中提取候选关键词组,并根据它们与参考向量的余弦相似度对它们进行排序,越接近参考向量的词向量就越有代表性。
2.相关工作
2.1 自动关键词提取
有监督方法
在有监督学习中,分类器在带关键词组注释