论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

论文笔记整理:谭亦鸣,东南大学博士。


来源:EMNLP 2020

链接:https://arxiv.org/pdf/2005.00692.pdf

1.背景介绍

跨语言实体链接(XEL)旨在将任一非英语文本中的实体提及匹配到英语知识库上(例如Wikipedia,图1所示)。近年来,大批研究成果被提出,但是现有的技术并不能很好的处理低资源语言(LRL)的挑战。且这些技术并不能轻松扩展到非基于Wikipedia的数据上(训练数据主要来自Wiki)。本文对LRL上的跨语言实体链接技术进行了深入分析,重点研究了识别与给定候选实体的关键步骤。作者的分析表明,现有方法受限于Wikipedia的inter-languagelinks,但是在(Wiki中)语言规模较小的情况下性能拉跨。作者推断基于LRL的XEL需要借助于Wikipedia之外的跨语言资源,并且构建了一个简单有效的zero-shot XEL系统,名为QuEL,其实现利用了搜索引擎的查询日志。在25种语言的实验上,QuEL表现出平均达到25%的gold候选召回率提升,以及基于现有SOAT端到端实体链接模型13%的准确性提升。

缺陷分析与动机

作者首先发现,现有的XEL模型大都严重依赖于Wiki所提供的interlanguagelinks(ILLs)资源,但是如图2所示,ILLs(B)仅仅覆盖了LRL实体(A)中的一个小子集,因此能够被直接使用的部分主要是B∩C的区域。例如,Amharic Wikipedia 涵盖 14,854个条目,但其中仅有8176的部分具有指向英文的ILLs。因此现有的效果较好的候选实体生成模型所使用的数据集大多是基于Wikipedia的,但是对于非Wiki-based的文本和新闻或者社交媒体之类的数据则不具备这样的效果。

因此,本文的动机可以描述为,LRL-based XEL需要使用Wiki以外的跨语言数据,以覆盖更多类似图2中A区域的实体(从而跳出研究对Wikipedia数据集的依赖,且增加其实际可能的使用范围)。

2.模型/方法

Wikipedia外部数据说明

作者使用了Query logs(QL)数据集,一个免费的在线百科资源,涵盖了wiki中的跨语言子集,且整体数据规模相对Wiki大很多。该数据集已经被使用到一些研究任务中,包括跨领域NER和本体知识的获取。本文是该数据集第一次被用于跨语言任务。

候选生成分析:

本文对四种候选生成方法进行分析:p(e|m), xlwikifier, name_trans, pivoting, 以及 translit(如表1所示)

分析上述方法使用的数据集是LORELEI(内容形式是新闻和社交媒体文本),所有都是Wikipedia外部数据,评价指标是goldcandidate recall,即候选列表中涵盖gold英文实体的源语言提及的比例。

图3给出了Wikipeida中ILLs对LRL覆盖的不足(2019-10-20版本),表2给出了随机筛选的5个LRL的源语言实体占比。

p(e|m)的workflow是:源语言提及->源语言wiki实体->英语(目标语言)wiki实体。在这个过程中只要一个link缺失,那么整个过程就无法进行。

name_trans: 它的翻译性能则受限于wikipedia中的映射标签。

translit以及pivoting则同样受到训练数据集规模不够的限制。

  在LRL的设定下,较少的Wikiarticles引发了更少的Wiki锚文本映射。作者在LRL(图4上)与HRL(富资源语言,图4下)上对现有方法的goldcandidate recall以及其对提及在Wikipedia中的覆盖率对比。

改进的候选生成QuEL_CG

通过使用QL映射文件,作者在直接搜索源语言提及以及基于查询的方法下获取到高质量候选列表。在搜索引擎方面作者使用了GoogleSearch。该方法也可以与p(e|m)一起使用,以强化QL的鲁棒性。

3.实验

数据集

LORELEI (Strassel and Tracey, 2016),涵盖了新闻和社交媒体方面的文本数据,作者将其中的25种语言分为了LRL与LRL。其中包含了四种实体类型:GPE地缘政治实体;LOC地点实体;PER人物实体;ORG组织实体。该数据集提供了一个特定的英语知识库,其中提及的内容都被链接到该知识库。作者将原始数据集改为链接到英文Wikipedia,对于没有链接的部分则使用原知识库的英文信息(名称和描述)从Wikipedia种进行检索。

Wikipedia-based数据集:(Tsai and Roth, 2016)收集的,建立于Wiki锚文本映射的基础上,涵盖的语言均为HRL。

对比系统:xlwikifier, xelms, ELISA, PBEL PLUS

实体链接结果

下表给出了不同类型实体的链接准确性实验结果。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MSON,让JSON序列化更快

问题 我们经常需要在主线程中读取一些配置文件或者缓存数据,最常用的结构化存储数据的方式就是将对象序列化为JSON字符串保存起来,这种方式特别简单而且可以和SharedPrefrence配合使用,因此应用广泛。但是目前用到的Gson在序列化JSON时很慢&a…

屠榜各大CV任务!「百度顶会论文复现营」携Swin Transformer来袭!

目标检测刷到58.7 AP!实例分割刷到51.1 Mask AP!!语义分割在ADE20K上刷到53.5 mIoU!!!......Swin Transformer持续屠榜各大CV任务,并且均名列前茅!通过分层体系结构,带来…

百度任务型对话系统小记

意图扩展阅读: 古月哲亭: AAAI 2021 | 清华提出深度对齐聚类用于新意图发现:https://mp.weixin.qq.com/s/9dNs8TTERPdxmrVc3tF1zw 相关项目地址:https://github.com/thuiar/OKD-Reading-List 古月哲亭: 意图知识图谱的构建与应用&#xff1a…

论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...

论文笔记整理:柏超宇,东南大学硕士。文章链接:https://arxiv.org/pdf/2011.01565.pdf来源:EMNLP 2020动机社交媒体每天都会产生大量的内容。为了帮助用户快速捕捉所需内容,关键词预测受到越来越多的关注。尽管如此&…

从实际案例聊聊Java应用的GC优化

当Java程序性能达不到既定目标,且其他优化手段都已经穷尽时,通常需要调整垃圾回收器来进一步提高性能,称为GC优化。但GC算法复杂,影响GC性能的参数众多,且参数调整又依赖于应用各自的特点,这些因素很大程度…

LeetCode 162. 寻找峰值(二分查找)

1. 题目 峰值元素是指其值大于左右相邻值的元素。 给定一个输入数组 nums,其中 nums[i] ≠ nums[i1],找到峰值元素并返回其索引。 数组可能包含多个峰值,在这种情况下,返回任何一个峰值所在位置即可。 你可以假设 nums[-1] n…

谷歌:CNN击败Transformer,有望成为预训练界新霸主!LeCun却沉默了...

文 | ????????????????这几年,大家都说深度学习进入了预训练时代。作为一个入行不久的小白,我一直以为各类基于 Transformers 结构的预训练模型是 NLP 的巨大里程碑,CNN、RNN 老矣,只配作为手下败将。大家的文章似…

新词发现简介

原文链接:https://blog.csdn.net/weixin_43378396/article/details/103848628 新词发现是 NLP 的基础任务之一,通过对已有语料进行挖掘,从中识别出新词。新词发现也可称为未登录词识别,严格来讲,新词是指随时代发展而新…

论文浅尝 - AAAI2020 | 利用自然语言推断生成人称一致的对话

链接: https://arxiv.org/pdf/1911.05889.pdf动机虽然最近几年通过利用社交网络上大量人人交互数据训练开放域对话模型取得了很大的成功,但是这些数据驱动的对话系统仍然无法很自然的与人类对话,其中的一个主要问题就是对话系统缺乏一致的角色…

智能投放系统之场景分析最佳实践

美团点评作为业内最大的O2O的平台,以短信/push作为运营手段触达用户的量级巨大,每日数以千万计。 美团点评线上存在超过千万的POI,覆盖超过2000城市、2.5万个后台商圈。在海量数据存在的前提下,实时投放的用户在场景的选择上存在一…

7个提升PyTorch性能的技巧

文 | William Falcon源 | AI公园在过去的10个月里,在PyTorch Lightning工作期间,团队和我已经接触过许多结构PyTorch代码的风格,我们已经发现了一些人们无意中引入瓶颈的关键地方。我们非常小心地确保PyTorch Lightning不会对我们为你自动编写…

论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习

论文笔记整理:叶橄强,浙江大学在读硕士,研究方向为知识图谱的表示学习和预训练。来源:EMNLP 2020现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能,在知识图谱推理中显示出其优势。但在遍历过程…

Shield——开源的移动端页面模块化开发框架

一直以来,如何能更高效地开发与维护页面是Android与iOS开发同学最主要的工作和最关心的问题。随着业务的不断发展,根据特定业务场景产生的定制化需求变得越来越多。单一页面往往需要根据不同业务、不同场景甚至不同用户展示不同的内容。在这样的背景下&a…

1年排名前进13位 ,这个论题成顶会新宠!

写过论文的同学都知道,写久了真的会头秃,其中耗发量最高的当属论题和创新点。今天分享一套方法,这个方法已经帮助近3000位同学成功发(拯)表(救)论(头)文(发&a…

LeetCode 50. Pow(x, n)(二分查找)

文章目录1. 题目2. 二分查找2.1 递归2.2 循环1. 题目 实现 pow(x, n) &#xff0c;即计算 x 的 n 次幂函数。 示例 输入: 2.00000, 10 输出: 1024.00000 示例 输入: 2.00000, -2 输出: 0.25000 解释: 2-2 1/22 1/4 0.25 说明: -100.0 < x < 100.0 n 是 32 位有符号…

OpenKG 祝大家 2021 新年快乐 —「2020 精选文章汇编」

过去的一年是不寻常的一年&#xff0c;虽然疫情改变了所有人的生活&#xff0c;但是它并没有击垮我们。这一年&#xff0c;大家依旧保持着开源开放的精神&#xff0c;持续地分享着知识图谱领域的技术动态、应用实践&#xff0c;同学们也持续不断地输出优质的论文笔记。OpenKG 继…

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么&#xff1f;”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因&#xff0c;业务人员会通过使用多维查询、dashboard等数据产品锁定问题&#xff0c;再辅助人工分析查找问题原因&#xff0c;这个过程通常需要一…

论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?

笔记整理 | 陈卓&#xff0c;浙江大学计算机科学与技术系&#xff0c;博士研究生研究方向 | 知识图谱&#xff0c;图神经网络&#xff0c;多模态论文链接&#xff1a;https://www.aclweb.org/anthology/2020.emnlp-main.583.pdf发表会议&#xff1a;EMNLP 2020背景提要抽取式阅…

为什么每次有人大声通电话时,我就很烦躁...

文 | Chaos编 | 小戏不知你是否有过这样的体验&#xff0c;当你周围有人在大声讲电话时&#xff0c;你会不自觉的感觉到烦躁。为什么呢&#xff1f;有一种委婉的说法是因为你听到了不完整的对话。直白点说其实就是讲电话的人通过放大声音强行让你接收了他说的信息&#xff0c;但…