论文浅尝 | 基于潜在类别信息的实体链接

笔记整理 | 黄一凡,东南大学本科生


来源:AAAI2020

链接:https://arxiv.org/pdf/2001.01447v1.pdf

一、简介

作者意识到在利用预训练模型进行实体链接时,往往会将类别信息忽略,因此会导致模型将指称链接到拥有错误类别的错误实体。为了验证这一发现,作者对DeepED(Ganea and Hofmann 2017)在AIDA-CoNLL的验证集上的结果进行分析,发现超过一半的错误中,类别信息都不匹配。原因有二:一是词袋模型忽视了位置信息;二是DeepED采取的预训练模型编码方式对实体的类别信息不敏感。

为了解决上述问题,本文提出将待链接指称的前后相邻词建模,从而考虑潜在的类别信息。另外,本文还将一个基于BERT的实体相似度特征纳入原始模型,使其可以更好地注意类别信息。

二、贡献

a)指出当前基于注意力机制的模型常常会将某一指称链接到不属于同一类别的实体并分析其可能成因。

b)提出一个全新的基于BERT的实体表示方法,可以更好地注意到潜在类别信息。

c)将基于BERT的实体相似度特征纳入DeepED。

d)在标准benchmark数据集上验证了该模型的有效性,并有显著提高。此外,该模型可以更正大部分类别错误。

三、模型

该模型包含两个阶段:1)基于BERT构造实体表示 2)在模型中加入实体相似度特征

3.1、基于BERT的实体表示

3.1.1、上下文表示

一个指称的相邻文本可以代表其类别信息。因此,我们通过提取预训练BERT模型的最顶层表示来表示上下文:

3.1.2、实体表示

对于每一个实体,随机从维基百科采样N个上下文信息,接着用平均池化表示该实体:

3.2、基于BERT的实体相似度

使用上下文表示和实体表示间的cosine相似度定义实体相似度:

最终,采用两个拥有100个隐藏单元和ReLU激活函数的全连接层将计算得到的实体相似度与原模型结合:

四、实验

4.1、数据集

为了全面的评估该模型的效果,作者分别测试了该模型的in-domain和out-domain效果。

对于in-domain,使用AIDA-CoNLL数据集进行训练、验证以及测试;对于out-domain,使用AIDA-CoNLL训练集上训练的模型,在五个流行的数据集上进行测试:MSNBC,AQUAINT,ACE 2004,WNED-CWEB,WNED-WIKI。

4.2、设置

为了与DeepED模型进行对比,候选指称生成采用了与其相同的方法,同时只考虑在知识库中存在的指称。

4.3、结果

该表展示了在in-domain设置下本文提出的模型与其他SOTA模型在AIDA-B数据集上的F1得分对比。可以发现,不论是在local模型还是global模型,该模型均取得了显著的提高。

另外,在out-domain中,平均来看,本文提出的模型相对原有模型也有着一定的模型。由此可见,该模型的鲁棒性较好。

4.4、分析

a)为了验证该模型可以更好地获取类别信息,作者进行了一个基于该模型的类别预测实验。实验从维基百科中随机采样了10万个实体,并预测它们的类别。最终结果验证了作者的猜想。

b)该模型可以大大减少类别错误。作者还更进一步分析了依然存在的类别错误,并将其成因分为三类:先验知识、全局信息和上下文信息,并会在今后根据此进一步对模型进行改进。

c)经过实验进一步发现,如果使用表现更好的全局模型,该模型的效果还会进一步提高。

五、总结

本文提出提取潜在的类别信息来提高实体链接的表现,实验表明该模型无论在in-domain还是out-domain都可以提高表现。在未来,作者还将进一步研究全局模型处理方法来进一步提高实体链接的准确率。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 166. 分数到小数(小数除法)

1. 题目 给定两个整数,分别表示分数的分子 numerator 和分母 denominator,以字符串形式返回小数。 如果小数部分为循环小数,则将循环的部分括在括号内。 示例 1: 输入: numerator 1, denominator 2 输出: "0.5"示例 2: 输入: …

百度飞桨弯道超车了吗?!

事情是这样的...前不久,小夕注意到了一份来自权威评测机构IDC发布的《2020年下半年深度学习平台市场份额报告》:▲IDC:2020年中国深度学习平台市场综合份额top 5立刻惊了!印象里百度飞桨三年前还只是一个低调、小而美的深度学习框架&#xff…

美团点评酒旅数据仓库建设实践

在美团点评酒旅事业群内,业务由传统的团购形式转向预订、直连等更加丰富的产品形式,业务系统也在迅速的迭代变化,这些都对数据仓库的扩展性、稳定性、易用性提出了更高要求。对此,我们采取了分层次、分主题的方式,本文…

论文小综 | 文档级关系抽取方法(上)

本文作者:陈想,浙江大学在读博士,研究方向为自然语言处理张宁豫,浙江大学助理研究员,研究方向为自然语言处理、知识表示与推理1. 前言关系抽取(Relation Extraction, RE)是从纯文本中提取未知关系事实,是自…

LeetCode 621. 任务调度器(贪心)

1. 题目 给定一个用字符数组表示的 CPU 需要执行的任务列表。其中包含使用大写的 A - Z 字母表示的26 种不同种类的任务。任务可以以任意顺序执行,并且每个任务都可以在 1 个单位时间内执行完。CPU 在任何一个单位时间内都可以执行一个任务,或者在待命状…

吴恩达发起新型竞赛范式!模型固定,只调数据?!

文 | 小戏打开 Kaggle ,琳琅满目的比赛让人目不暇接,研究的领域更是五花八门,从农林牧渔到衣食住行,似乎只要有数据,不论数据好坏,就可以直接使用各种机器学习的模型在其身上大展拳脚,从逻辑回归…

论文小综 | 文档级关系抽取方法(下)

本文作者:陈想,浙江大学在读博士,研究方向为自然语言处理张宁豫,浙江大学助理研究员,研究方向为自然语言处理、知识表示与推理这篇推文是文档级关系抽取方法的第二部分,前面的部分请移步推文“论文小综 | 文…

LeetCode 128. 最长连续序列(哈希set)

1. 题目 给定一个未排序的整数数组,找出最长连续序列的长度。 要求算法的时间复杂度为 O(n)。 示例:输入: [100, 4, 200, 1, 3, 2] 输出: 4 解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。来源:力扣(LeetCode) 链接&#…

清华姚班教师劝退文:读博,你真的想好了吗?

文 | 张焕晨编 | 琰琰源 | AI科技评论先简单介绍一下我的背景。我本科在University of Wisconsin-Madison,然后去CMU念了个PhD,主要研究数据库方向。目前回国在清华IIIS(姚班)做助理教授,并且 cofound 了Singularity D…

纠删码存储系统中的投机性部分写技术

本文已被USENIX’17年度技术大会录用,此处为中文简译版。 阅读英文论文完整版请点击:Speculative Partial Writes in Erasure-Coded Systems 多副本和纠删码(EC,Erasure Code)是存储系统中常见的两种数据可靠性方法。与…

论文浅尝 - EMNLP | 通过元强化学习实现少样本复杂知识库问答

笔记整理 | 谭亦鸣,东南大学博士生来源:EMNLP 2020链接:https://www.aclweb.org/anthology/2020.emnlp-main.469.pdf本文关注聚合型复杂知识图谱问答任务,这类复杂问题的答案通常需要经过一些集合操作得到,例如&#x…

写了一篇关于 NLP 综述的综述!

文 | 小轶综述,往往是了解一个子领域最为高效的起点。然而,对于AI这样一个日新月异高速发展的行业,时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation,如果它写于 20 年前,那对今天…

美团点评容器平台HULK的调度系统

本文是美团点评基础架构系列文章之一。这个系列将全面介绍支撑数亿用户、超千万日订单的美团点评平台诸多业务的公共基础架构相关技术。系列已经发布的文章包括: - 《分布式会话跟踪系统架构设计与实践》 - 《Leaf——美团点评分布式ID生成系统》 - 《深度剖析开源分…

论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵,天津大学硕士链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf动机从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究…

python的环境变量设置

程序和可执行文件可以在许多目录,而这些路径很可能不在操作系统提供可执行文件的搜索路径中。 path(路径)存储在环境变量中,这是由操作系统维护的一个命名的字符串。这些变量包含可用的命令行解释器和其他程序的信息。 Unix 或 Windows 中路径变量为 P…

LeetCode 76. 最小覆盖子串(滑动窗口)

1. 题目 给你一个字符串 S、一个字符串 T,请在字符串 S 里面找出:包含 T 所有字母的最小子串。 示例: 输入: S "ADOBECODEBANC", T "ABC" 输出: "BANC"说明: 如果 S 中不存这样的子串&#xff…

推荐一个可交互的 Attention 可视化工具!我的Transformer可解释性有救啦?

本文首发于微信公众号”夕小瑶的卖萌屋“文 | Sherry源 | 夕小瑶的卖萌屋视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化&#xf…

机器学习中模型优化不得不思考的几个问题

本文根据美团点评算法工程师胡淏4月22日在“携程技术沙龙”上的分享整理而成。文字综合了“携程技术中心”微信公众号的版本和胡淏本人在微博上发表的文章,并有少量编辑加工。 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累…

【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1部门介绍:语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理及智能响应能力。团队以建设业界一流的语音交互…

LeetCode 289. 生命游戏(位运算)

文章目录1. 题目2. 解题2.1 复制数组解法2.2 原地解法2.3 位运算1. 题目 链接&#xff1a;289. 生命游戏 2. 解题 2.1 复制数组解法 很简单&#xff0c;按照题意模拟即可 class Solution { public:void gameOfLife(vector<vector<int>>& board) {if(board…