论文浅尝 | 通过阅读实体描述进行零样本的实体链接

笔记整理 | 赖泽升,东南大学本科生


来源:ACL2019

动机

  先前实体链接的大多数工作都着重于与通用实体数据库的链接,通常希望链接到专门的实体词典,例如法律案件,公司项目描述,小说中的字符集或术语表。

但这些工作的不足之处在于,对于这些专用实体词典,带标签的数据不易获得,而且获取起来往往相当昂贵。

因此,为了解决上述问题,论文提出了一种新的实体链接模型,以将其推广到看不见的专业实体。但是,该任务的难度在于:在没有可用的完整别名表或频率统计数据和元数据的情况下,模型必须阅读实体描述并推断实体mention与其上下文的对应关系;由于带有标签的mention对于测试实体是不可用的,因此模型必须适应新mention的上下文和实体描述。

为了解决上述难题,论文提出了一种新的预训练模型DAP,去解决如何将不可见的实体链接到一个新的领域的问题,从而完成零样本的实体链接任务。

贡献

文章的主要贡献:

(1)提出了一个新的零样本实体链接任务,旨在以最小的假设条件下,挑战实体链接系统的泛化能力。并且为此任务构建了一个数据集,该数据集将公开提供。

(2)通过使用最前沿的阅读理解模型为实体链接任务来建立强大的基准。此外,论文还发现上下文和实体描述之间的attention对于此任务至关重要,而在以前的实体链接工作中并未使用attention。

(3)提出了一种简单但新颖的适应策略,该策略称为领域自适应预训练策略(DAP),并通过实验表明它可以进一步提高实体链接的性能。

模型

论文将实体链接任务分为两个阶段,第一阶段是快速产生候选实体,第二阶段是对每个候选实体计算得分,选出得分最高的即为目标实体。

对于第一阶段,论文使用BM25(TF-IDF的一种变体)来衡量mention字符串和候选文档之间的相似性。通过Lucene的BM25评分检索到的前k个实体用于培训和评估。在论文的实验中,k设置为64。排名前64位的候选实体的平均覆盖率小于77%。这说明任务艰巨,并且在候选实体生成阶段仍有很大的改进空间。

对于第二阶段,论文中使用了基于Transformer结构的BERT。在BERT中,mention用m表示,候选实体的描述用e表示,两者都由128个词标记表示,被连接起来并作为序列对连同特殊的开始和分隔符一起输入到模型中:Mention中的单词被特殊的嵌入向量标记,该向量被添加到mention的单词嵌入中。Transformer编码器对输入的信息产生向量hm,e,它是最后一个隐藏层输出的特殊表示。在候选实体集合中,每一个实体的得分由公式:得出,此处的是经过学习的参数向量。选出得分最高的候选实体即为目标实体。该模型的训练方法是使用softmax loss。在论文中,使用了具有12层,隐藏层数为768和12个attention的体系结构,此结构模型称为Full-Transformer。

为了评估这种新颖模型的价值,论文中还使用了Full-Transformer两个变种模型作对比实验。一个被称为Pool-Transformer,原理是分别将mention和候选实体描述输入到Transformer中,在最后的隐藏层分别输出hm和he。该mention和候选实体之间的相似度用公式:计算,然后选出得分最高的候选实体。另外一个被称为:Cand-Pool-Transformer,原理是使用单个向量表示实体,但可以单独使用mention及其上下文。该模型还使用了两个Transformer编码器,但引入了一个额外的attention模块,该模块使hm可以在上下文中参与mention的单个token表示。

实验

论文中,作者引入了一系列符号来描述组成预训练阶段的各种方式。

Usrc表示来自源世界文档的一系列的文本段

Utgt表示目标世界文档中的文本片段

Usrc+tgt表示从Usrc和Utgt中随机交错抽取的文本段

Uwb表示在开源语料库中的文本段,在此实验中语料库指的是Wikipedia和BookCorpus

如下表4所示,零样本实体链接的基准结果如下。在所有验证域上的平均归一化实体链接准确度中最高的是:Full-Transformer+Uwb组合,达到了76.06

下图2(a)表示,使用DAP模型对实体链接任务的准确度相比其他模型要高,,并且经过对模型的微调后,准确度会比原来上升一些。图(b)表示了在目标域上评估的预训练模型的MLM(Masked LM)准确性与微调模型的实体链接性能之间的关系。可以看出。两者呈正相关的关系。

下表5显示了Full-Transformer(Uwb)对训练集和测试集中可见实体和不可见实体的预测准确度

下表6显示了Full-Transformer在测试域对实体链接的准确度

总结

本文提出了一种零样本实体链接的新任务,并为此构建了一个多世界数据集。该数据集可以用作实体链接研究的共享基准,该链接任务主要用于专门的专业领域,在领域中其中没有带有标注的mention,并且实体仅通过描述进行定义。并且文章还通过将强大的神经阅读理解与领域自适应预训练(DAP)相结合,提出了一个强大的基准。经过实验证明,论文中提出的模型比之前的实体链接工作准确率更好,验证了模型的有效性。但与此同时,候选实体生成阶段留有很大的改进空间。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 29. 两数相除(位运算)

1. 题目 给定两个整数,被除数 dividend 和除数 divisor。将两数相除,要求不使用乘法、除法和 mod 运算符。 返回被除数 dividend 除以除数 divisor 得到的商。 示例 1: 输入: dividend 10, divisor 3 输出: 3示例 2: 输入: dividend 7, divisor -…

Git使用的奇技淫巧

源 | Linux公社Git 版本对比相关操作[1] 输出工作区和暂存区的不同。git diff[2] 展示暂存区和最近版本的不同git diff --cached[3] 展示暂存区、工作区和最近版本的不同git diff HEAD[4] 展示本地仓库中任意两个 commit 之间的文件变动git diff <commit-id> <commit-…

Hyperloop,让发布简洁高效

Hyperloop 是什么&#xff1f; Hyperloop 是服务于美团点评客户端的组件发版、持续集成、App 打包构建、资源调度等各个环节的发布调度系统。名称起源于美国 Elon Musk 构想的 Hyperloop 超级高铁&#xff0c;象征着现代、简洁、高效。 Hyperloop 提供了一站式的平台&#xff0…

论文浅尝 | 基于潜在类别信息的实体链接

笔记整理 | 黄一凡&#xff0c;东南大学本科生来源&#xff1a;AAAI2020链接&#xff1a;https://arxiv.org/pdf/2001.01447v1.pdf一、简介作者意识到在利用预训练模型进行实体链接时&#xff0c;往往会将类别信息忽略&#xff0c;因此会导致模型将指称链接到拥有错误类别的错误…

LeetCode 166. 分数到小数(小数除法)

1. 题目 给定两个整数&#xff0c;分别表示分数的分子 numerator 和分母 denominator&#xff0c;以字符串形式返回小数。 如果小数部分为循环小数&#xff0c;则将循环的部分括在括号内。 示例 1: 输入: numerator 1, denominator 2 输出: "0.5"示例 2: 输入: …

百度飞桨弯道超车了吗?!

事情是这样的...前不久&#xff0c;小夕注意到了一份来自权威评测机构IDC发布的《2020年下半年深度学习平台市场份额报告》&#xff1a;▲IDC:2020年中国深度学习平台市场综合份额top 5立刻惊了&#xff01;印象里百度飞桨三年前还只是一个低调、小而美的深度学习框架&#xff…

美团点评酒旅数据仓库建设实践

在美团点评酒旅事业群内&#xff0c;业务由传统的团购形式转向预订、直连等更加丰富的产品形式&#xff0c;业务系统也在迅速的迭代变化&#xff0c;这些都对数据仓库的扩展性、稳定性、易用性提出了更高要求。对此&#xff0c;我们采取了分层次、分主题的方式&#xff0c;本文…

论文小综 | 文档级关系抽取方法(上)

本文作者&#xff1a;陈想&#xff0c;浙江大学在读博士&#xff0c;研究方向为自然语言处理张宁豫&#xff0c;浙江大学助理研究员&#xff0c;研究方向为自然语言处理、知识表示与推理1. 前言关系抽取(Relation Extraction, RE)是从纯文本中提取未知关系事实&#xff0c;是自…

LeetCode 621. 任务调度器(贪心)

1. 题目 给定一个用字符数组表示的 CPU 需要执行的任务列表。其中包含使用大写的 A - Z 字母表示的26 种不同种类的任务。任务可以以任意顺序执行&#xff0c;并且每个任务都可以在 1 个单位时间内执行完。CPU 在任何一个单位时间内都可以执行一个任务&#xff0c;或者在待命状…

吴恩达发起新型竞赛范式!模型固定,只调数据?!

文 | 小戏打开 Kaggle &#xff0c;琳琅满目的比赛让人目不暇接&#xff0c;研究的领域更是五花八门&#xff0c;从农林牧渔到衣食住行&#xff0c;似乎只要有数据&#xff0c;不论数据好坏&#xff0c;就可以直接使用各种机器学习的模型在其身上大展拳脚&#xff0c;从逻辑回归…

论文小综 | 文档级关系抽取方法(下)

本文作者&#xff1a;陈想&#xff0c;浙江大学在读博士&#xff0c;研究方向为自然语言处理张宁豫&#xff0c;浙江大学助理研究员&#xff0c;研究方向为自然语言处理、知识表示与推理这篇推文是文档级关系抽取方法的第二部分&#xff0c;前面的部分请移步推文“论文小综 | 文…

LeetCode 128. 最长连续序列(哈希set)

1. 题目 给定一个未排序的整数数组&#xff0c;找出最长连续序列的长度。 要求算法的时间复杂度为 O(n)。 示例:输入: [100, 4, 200, 1, 3, 2] 输出: 4 解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#…

清华姚班教师劝退文:读博,你真的想好了吗?

文 | 张焕晨编 | 琰琰源 | AI科技评论先简单介绍一下我的背景。我本科在University of Wisconsin-Madison&#xff0c;然后去CMU念了个PhD&#xff0c;主要研究数据库方向。目前回国在清华IIIS&#xff08;姚班&#xff09;做助理教授&#xff0c;并且 cofound 了Singularity D…

纠删码存储系统中的投机性部分写技术

本文已被USENIX’17年度技术大会录用&#xff0c;此处为中文简译版。 阅读英文论文完整版请点击&#xff1a;Speculative Partial Writes in Erasure-Coded Systems 多副本和纠删码&#xff08;EC&#xff0c;Erasure Code&#xff09;是存储系统中常见的两种数据可靠性方法。与…

论文浅尝 - EMNLP | 通过元强化学习实现少样本复杂知识库问答

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;EMNLP 2020链接&#xff1a;https://www.aclweb.org/anthology/2020.emnlp-main.469.pdf本文关注聚合型复杂知识图谱问答任务&#xff0c;这类复杂问题的答案通常需要经过一些集合操作得到&#xff0c;例如&#x…

写了一篇关于 NLP 综述的综述!

文 | 小轶综述&#xff0c;往往是了解一个子领域最为高效的起点。然而&#xff0c;对于AI这样一个日新月异高速发展的行业&#xff0c;时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation&#xff0c;如果它写于 20 年前&#xff0c;那对今天…

美团点评容器平台HULK的调度系统

本文是美团点评基础架构系列文章之一。这个系列将全面介绍支撑数亿用户、超千万日订单的美团点评平台诸多业务的公共基础架构相关技术。系列已经发布的文章包括&#xff1a; - 《分布式会话跟踪系统架构设计与实践》 - 《Leaf——美团点评分布式ID生成系统》 - 《深度剖析开源分…

论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵&#xff0c;天津大学硕士链接&#xff1a;https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf动机从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究…

python的环境变量设置

程序和可执行文件可以在许多目录&#xff0c;而这些路径很可能不在操作系统提供可执行文件的搜索路径中。 path(路径)存储在环境变量中&#xff0c;这是由操作系统维护的一个命名的字符串。这些变量包含可用的命令行解释器和其他程序的信息。 Unix 或 Windows 中路径变量为 P…

LeetCode 76. 最小覆盖子串(滑动窗口)

1. 题目 给你一个字符串 S、一个字符串 T&#xff0c;请在字符串 S 里面找出&#xff1a;包含 T 所有字母的最小子串。 示例&#xff1a; 输入: S "ADOBECODEBANC", T "ABC" 输出: "BANC"说明&#xff1a; 如果 S 中不存这样的子串&#xff…