论文浅尝 - TACL2020 | 改进低资源跨语言实体链接的候选生成问题

论文笔记整理:谭亦鸣,东南大学博士。


来源:TACL 2020

链接:

https://arxiv.org/ftp/arxiv/papers/2003/2003.01343.pdf

1.背景介绍

跨语言实体链接(Cross-lingual Entity Linking, XEL)旨在利用源语言文本中实体描述(提及),从目标语言的知识库中获取对应的参照实体,其解决方法一般分为两个步骤:1.候选生成;2.实体挑选。这一任务在富资源场景下(如Wikipeida)取得了不错的研究成果,但是并没有很好的扩展到低资源语言上(Low-resource Language, LRL)。虽然近期利用迁移学习的工作通过利用相关语言资源能够一定程度上缓解LRL对资源的需求,但是其实验性能依旧远逊于富资源的XEL模型。

其中一个主要原因是,跨语言的实体链接无法像单语那样使用序列匹配的方式解决候选生成问题,虽然Wikipedia提供了inter language links这样的多语言实体对齐资源,具有一定可扩展的潜力,但是现阶段的工作依然表现不佳。也有一些工作提出利用翻译模型生成LRL的英文实体,或者基于实体词典训练跨语言的序列匹配模型。然而这些方法在Top-30的候选实体上依然远不如富资源,且有落后达70%的候选召回率。

动机

作者对现有的SOAT候选生成模型Rijhwani et al. (2019)进行错误分析,发现两个普遍存在的错误原因:1.知识库与文本中实体名(提及)的误匹配;2.字符串匹配模型本身的失误。

如图1所示,这是一个Marathi语言到英语知识库的链接实示例(一种来自印度西部地区的小语种)。在这个例子中,第一类错误表现为英语实体Cobie Smulders被匹配到文本中的Smulders(绿色部分)或者Jacoba Francisca Maria Smulders(黄色部分);第二类错误则是类似蓝色例子中的Cobie Smulder被序列匹配到Cobie Sikkens上。

为了解决这两类问题,作者提出如下改进:

对于误匹配问题,作者注意到learning-based方法中,包括(Pan et al., 2017; Rijhwani et al., 2019)等工作的候选生成模型训练数据集是由“实体-实体”组构成,这就使得模型无法捕捉文本中可能存在提及的多样性。因此,作者将“提及-实体”组也添加到训练数据中,从而提供更明确的监督。此外,注意到许多源语言资源(variation)与其英文表示存在的相似性,因此也可以使用英文语言资源去获取它们。因此作者从英文Wikipedia中收集了实体的别名资源,并允许模型在生成候选的时候查询这些别名。

本文的第二个贡献是改进了对提及以及实体字符串的表示策略。作者首先假定Rijhwani et. al 2019的LSTM模型可能存在的部分问题,即未能对字符串中所有的单词进行适当的表示学习,这可能是因为该模型不是很适合在LRL上进行学习。在这里,作者提出改用基于字符n-gram的embedding方法替代LSTM。

2.模型/方法

首先对现有模型的不足进行实验分析,以印证本文猜测。

2.1提及类型与分析

作者使用HRL(富资源语言,这里使用的是Amharic, Hindi和Thai等语言)-EN的实体组作为训练数据集(数据集信息实验部分会做说明),训练了一个Pivoting-based Entity Linking(PBEL)模型用于生成LRL文本中抽取出的实体提及所对应的候选实体。在LRL方面使用了Tigrinya, Oromo, Marathi以及Lao等四种语言。

作者从每个LRL随机抽取100个系统输出,并在性能分析时对它们的提及创建类型,并做人工标注,主要包含以下类型:

                DIRECT:直接音译

                ALIAS:别名(与KB中的完全不同);

                TRANS:字对字翻译;

                EXTRA_SRC:在提及中至少多了一个(非专有名词)单词;

                EXTRA_ENG:在英文实体中至少多了一个(非专有名词)单词;

                BAD_SPAN:提及范围不是一个实体(实体抽取部分出错);

        

对于每个候选实体样本,作者考虑了三种场景:Top-1(目标实体是Top-1候选);Top-2~30;不属于Top-30。图2描述了这组场景和样本的分布情况,可以看到Top-30完全无法覆盖目标实体的三类提及是:ALIAS,EXTRA_SRC,EXTRA_ENG。

2.2模型改进

首先作者在保持“实体-实体”组训练集的基础上,收集了“提及-实体”组,用于扩充训练数据。其次,通过利用Wikipeida中的“alsoknown as”获取到英语实体的别名列表,用于扩充可产生候选实体的匹配范围(公式1)。

之后,作者使用CHARAGRAM,替换Bi-LSTM作为字符串的编码模型,其结构如图3所示:

字符串的编码过程如下:

其中,N是预设的滑动窗口尺寸,V是训练数据集中所有出现的n-gram的集合,如果n-gram是未出现在V中的,那么将会直接音译。

3.实验

数据

DARPA-LRL:来自新闻,博客和社交媒体,包含Tigrinya (ti), Oromo (om), Kinyarwanda (rw), Marathi (mr), Sinhala (si)以及Lao (lo)等小语种语言。

WIKI:Wikipedia中的子数据集(Pan et al., 2017; Rijhwani et al., 2019)

各语言的表示方式见表2。

       结果

       作者给出了各模型上Top-30候选的召回率作为评价标准,如表3所示:

并再一次做了错误分析,对比可以看到,新的方法在各提及类型上都产生了一定的效果:

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478606.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卫星系统——酒店后端全链路日志收集工具介绍

背景 随着酒店业务的高速发展,我们为用户、商家提供的服务越来越精细,系统服务化程度、复杂度也逐渐上升。微服务化虽然能够很好地解决问题,但也有副作用,比如,问题定位。 每次问题定位都需要从源头开始找同事帮我人肉…

拖拽式Vue组件代码生成平台(LCG)新版详细介绍

拖拽式Vue组件代码生成平台是一款小猴自研的Vue代码生成工具,英文全称:Low Code Generator,简称LCG。它也是一种LowCode解决方案。通过它可以快速完成Vue组件的代码骨架搭建,通过减少不必要的重复工作从而带来开发效率的提升。 体…

ImportError: libgthread-2.0.so.0: cannot open shared object file: No such file or directory

apt-get update apt-get install libglib2.0-dev系统:ubuntu16.04

LeetCode 454. 四数相加 II(哈希)

1. 题目 给定四个包含整数的数组列表 A , B , C , D ,计算有多少个元组 (i, j, k, l) ,使得 A[i] B[j] C[k] D[l] 0。 为了使问题简单化,所有的 A, B, C, D 具有相同的长度 N,且 0 ≤ N ≤ 500 。所有整数的范围在 -228 到 228 - 1 之间…

论文浅尝 - AAAI2020 | 多轮对话系统中的历史自适应知识融合机制

论文笔记整理:潘锐,天津大学硕士。链接:https://www.aaai.org/ojs/index.php/AAAI/article/view/6425来 源:AAAI 2020论文简介保持对话的一致性和避免内容重复是构建以知识为基础的多轮对话系统的两个关键因素。尽管一些工作倾…

高性能平台设计—美团旅行结算平台实践

本文根据第23期美团技术沙龙演讲内容整理而成。 背景 美团酒旅有很多条业务线,例如酒店、门票、火车票等等,每种业务都有结算诉求,而结算处于整个交易的最后一环不可缺少,因此我们将结算平台化,来满足业务的结算诉求。…

小程序调试技术导读

近期团队内在自研小程序,我负责开发者工具中的调试部分。调试作为面向开发者的基础能力,扮演了极为重要的角色。 本篇文章是导读文章。 调试能力从0到1一共经历了4个版本,接下来的文章将会以这4个版本为主线分别进行介绍。 初始版 上图为调试…

可交互的 Attention 可视化工具!我的Transformer可解释性有救了?

文 | Sherry视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化,最经典的莫过于的CNN密恐图了:这种可视化方法…

ImportError: libSM.so.6: cannot open shared object file: No such file or dir

ImportError: libSM.so.6: cannot open shared object file: No such file or dir 出现错误: ImportError: libSM.so.6: cannot open shared object file: No such file or dir 解决方法: apt-get install libsm6如果你出现了上面的错误,那…

LeetCode 347. 前 K 个高频元素(哈希/优先队列)

文章目录1. 题目2. 解题2.1 哈希2.2 优先队列1. 题目 给定一个非空的整数数组,返回其中出现频率前 k 高的元素。 示例 1: 输入: nums [1,1,1,2,2,3], k 2 输出: [1,2]示例 2: 输入: nums [1], k 1 输出: [1] 说明: 你可以假设给定的 k 总是合理的&…

Lego-美团接口自动化测试实践

一、概述 1.1 接口自动化概述 众所周知,接口自动化测试有着如下特点: 低投入,高产出。比较容易实现自动化。和UI自动化测试相比更加稳定。如何做好一个接口自动化测试项目呢? 我认为,一个“好的”自动化测试项目&#…

小程序调试技术详解(基于小猴小程序)

本篇文章主要围绕小猴小程序调试技术第三版进行展开。 在上一篇导读文章中提到,小猴小程序的调试部分从无到有一共经历了3个版本。本篇文章会详细描述面向开发者的调试功能是如何实现的。 文章将会描述以下部分: 调试实现的基本通信关系结构。如何实现…

论文浅尝 - CIKM2020 | 用于推荐系统的多模态知识图谱

论文笔记整理:王琰,东南大学硕士。来源:CIKM 2020链接:https://doi.org/10.1145/3340531.3411947研究背景与任务描述为了解决推荐系统中的数据稀疏和冷启动问题,研究人员通过利用有价值的外部知识作为辅助信息&#xf…

FedNLP: 首个联邦学习赋能NLP的开源框架,NLP迈向分布式新时代

文 | 阿毅两周前,南加大Yuchen Lin(PhD student USC and ex-research intern GoogleAI)所在的团队在Twitter官宣开源首个以研究为导向的联邦学习赋能NLP的FedNLP框架。发布数小时内就获得了647个赞,163次转发,可见其热度。我相信大…

LeetCode 380. 常数时间插入、删除和获取随机元素(哈希+vector)

1. 题目 设计一个支持在平均 时间复杂度 O(1) 下,执行以下操作的数据结构。 insert(val):当元素 val 不存在时,向集合中插入该项。 remove(val):元素 val 存在时,从集合中移除该项。 getRandom:随机返回现…

论文浅尝 - ICLR2020 | 知识图谱中数值规则的可微学习

论文笔记整理:许泽众,浙江大学博士研究生。研究方向:知识图谱,规则挖掘等。论文链接:https://openreview.net/pdf?idrJleKgrKwS本文解决的是规则的学习问题,学习出来的规则可用于知识推理任务,…

2021大厂面试高频100题最新汇总(附答案详解)

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力?其中一个最热门的回答是:“其实,无论你是前端还是后端、想进大厂还是拿高薪,算法都一定很重要。”为什么,算法会如此重要?不…

LeetCode 33. 搜索旋转排序数组(二分查找)

1. 题目 假设按照升序排序的数组在预先未知的某个点上进行了旋转。 ( 例如,数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7,0,1,2] )。 搜索一个给定的目标值,如果数组中存在这个目标值,则返回它的索引,否则返回 -1 。 你可以假设数…

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

论文笔记整理:谭亦鸣,东南大学博士。来源:EMNLP 2020链接:https://arxiv.org/pdf/2005.00692.pdf1.背景介绍跨语言实体链接(XEL)旨在将任一非英语文本中的实体提及匹配到英语知识库上(例如Wikip…