论文浅尝 - ACL2020 | 用于关系三元组抽取的级联二进制标记框架

论文笔记整理:王中昊,天津大学。


来源:ACL2020

链接:https://arxiv.org/pdf/1909.03227.pdf

摘要

从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而,对于同一句子中的多个关系三元组共享同一个实体的重叠三元组问题,现有的研究很少。在这项工作中,我们引入了一个新的视角来重新审视关系三元组抽取任务,并从一个原则性的问题出发,提出了一个新的级联二进制标记框架(CASREL)。我们的新框架不再像以前的工作那样把关系看作是离散的标签,而是将关系建模为将句子中的主语映射到宾语的函数,这样就很自然地解决了重叠问题。实验表明,CASREL框架在编码模块使用随机初始化的BERT编码器时,其性能已经超过了最先进的方法,显示了新标签框架的强大功能。当使用预训练的BERT编码器时,它的性能得到了进一步的提升,在两个公共数据集NYT和WebNLG上,它分别比最强基线的F1分数提高了17.5和30.2个百分点。对重叠三元组的不同场景的深入分析表明,该方法在所有这些场景中提供了一致的性能增益。

CASREL框架

关系三元组抽取的目的是识别句子中所有可能的(主语、关系、宾语)三元组,其中一些三元组可能与主语或宾语共享相同的实体。为了实现这个目标,我们直接对三元组进行建模,并在三元组的层次上设计一个训练目标。这与以前的方法(Fu et al.,2019)不同,前者通过实体和关系来定义训练目标,而没有在三元组的层次上对他们进行明确的建模。

形式上,给定训练集D中的注释语句xj和xj中一组潜在重叠的三元组Tj={(s,r,o)},我们的目标是使训练集D的数据可能性最大化:

      

这里我们稍微滥用了符号Tj。s∈Tj表示出现在Tj三元组中的主语。Tj | s是Tj中主语s引导的三元组。(r,o)∈Tj | s是Tj中主语s引导的三元组中的(r,o)对。R是所有可能关系的集合。R\Tj | s表示除Tj中以s为首的所有关系。o表示“空”宾语(解释如下)。

式(2)应用概率链式法则。式(3)利用了一个关键事实:对于给定的主语s,任何与s相关的关系(Tj | s中的关系)都会对应句子中相应的宾语,而所有其他关系在句子中必然没有宾语,即“空”宾语。

这个公式有几个好处。首先,由于数据的似然性是从三元组层次开始的,优化这个似然性相当于在三元组层次上直接优化最终的评价标准。其次,通过不假设多个三元组如何共享一个句子中的实体,它通过设计来处理重叠的三元组问题。第三,式(3)中的分解启发了一种新的三元组抽取标记方案:我们学习一个主语标记符p(s | xj),它识别句子中的主语实体;对于每个关系r,我们学习一个宾语标记pr(o | s,xj),它识别给定主语的关系特定对象。通过这种方式,我们将每个关系建模为一个将主语映射到宾语的函数,而不是对(主语、宾语)对的关系进行分类。

事实上,这种新颖的标记方案允许我们一次提取多个三元组:我们首先运行主语标记器来查找句子中所有可能的主语,然后针对找到的每个主语,应用关系特定的宾语标记器来查找所有相关关系和对应的宾语。

上述通用框架中的关键组件,即主题标记器和特定于关系的对象标记器,可以通过多种方式实例化。在本文中,我们将它们实例化为深双向变压器BERT上的二进制标记器(Devlin等人,2019)。我们将在下面描述它的细节。

BERT编码器

编码器模块从句子xj中提取特征信息xj,并将其输入到后续的标记模块中。我们使用一个预先训练的BERT模型(Devlin等人,2019)来编码上下文信息。

本文简要回顾了基于多层双向变换器的语言表示模型BERT。它的目的是通过共同调节每个单词的左右语境来学习深层表征,并且最近被证明在许多下游任务中非常有效(Zhong等人,2019)。具体地说,它由N个相同的转换器组组成。我们将转换器块表示为Trans(x),其中x代表输入向量。具体操作如下:

          

式中,S是输入句子中子词索引的一个热点向量的矩阵,Ws是子词嵌入矩阵,Wp是位置嵌入矩阵,其中p代表输入序列中的位置索引,hα是隐藏状态向量,即。,输入句在α层的上下文表示,N是转换块的个数。注意,在我们的工作中,输入是单个文本句子而不是句子对,因此等式(4)中没有考虑原始BERT论文中描述的分段嵌入。有关变压器结构的更全面的描述,请参考(Vaswani等人,2017)。

级联解码器

现在,我们描述一个新的级联二进制标记方案的实例,这个方案是受前面的公式启发的。其基本思想是通过两个级联步骤提取三元组。首先,我们从输入句子中检测主语。然后对于每个候选主语,我们检查所有可能的关系,看一个关系是否能将句子中的宾语与该主语相关联。与这两个步骤相对应,级联解码器由两个模块组成,如图2所示:一个主题标记器;一组特定于关系的对象标记器。

主题标记器  低层标记模块通过直接解码N层BERT编码器产生的编码向量hN来识别输入句子中所有可能的主语。更精确地说,它采用两个完全相同的二值分类器来分别检测对象的起始位置和结束位置,为每个标记分配一个二进制标记(0/1),该标记指示当前标记是否对应于主题的开始位置或结束位置。主题标记器对每个令牌的具体操作如下:

           

其中pi start_s和pi end_s 分别表示将输入序列中的第i个单词标识为对象的开始位置和结束位置的概率。如果概率超过某个阈值,则相应的部分将被分配一个标签1,否则将被分配一个标签0。xi是输入序列中第i个单词的编码表示,即xi=hN[i],其中W(·)表示可训练的权重,b(·)是偏差,而α是sigmoid激活函数。

主题标记器优化以下似然函数,以确定给定句子表示x的主语s范围:

      

其中L是句子的长度。如果z为真,I{z}=1,否则为0。yi start_s是x中第i个单词的主语开始位置的二进制标记,yi end_s表示对象的结束位置。参数θ={Wstart,bstart,Wend,bend}。

对于多目标检测,我们采用最近开始-结束对匹配原则,根据起始和结束位置标记器的结果来确定任何目标的跨度。例如,如图2所示,第一个开始标记“Jackie”最近的结束标记是“Brown”,因此第一个主题范围的检测结果将是“Jackie R.Brown”。值得注意的是,为了匹配给定开始令牌的结束令牌,我们不考虑其位置在给定单词位置之前的单词。这种匹配策略能够保持任何实体跨度的完整性,只要在给定句子中任何实体跨度的自然连续性,都能正确地检测到任何实体跨度的完整性。

特定于关系的对象标记器  高级标记模块同时识别对象以及与较低级别获得的主题相关的相关关系。如图2所示,它由一组特定于关系的对象标记器组成,这些标记器的结构与底层模块中所有可能关系的主题标记器结构相同。所有对象标记器将同时为每个检测到的对象标识相应的对象时间。不同在主题标记器直接解码编码向量hN的基础上,关系特定对象标记器也考虑了主语特征。关系特定对象标记器对每个单词的详细操作如下:

            

其中pi start_s和pi end_s 分别表示将输入序列中的第i个单词识别为对象的起始位置和结束位置的概率,vk sub表示在低级模块中检测到的第k个对象的编码表示向量。

对于每个主题,我们迭代地对其应用相同的解码过程。注意,主体通常由多个令牌组成,为了使第9和等式(10)中的xi和vksub的添加成为可能,我们需要保持两个向量的维数一致。为此,我们将第k个主语的开始和结束标记之间的平均向量表示作为vksub

关系r的宾语标记器优化以下似然函数,以确定给定句子表示x和主语s的宾语o的跨度:

        

其中yi start_s是x中第i个单词的对象开始位置的二进制标记,yi end_s是第i个单词的对象结束位置的标记。对于“空”对象o∅,所有i的标记 yi start_o∅= yi end_o∅=0。参数φr={Wr start,br start,Wr end,br end}。

注意,在高级标记模块中,关系也由对象标记器的输出决定。例如,在检测到的主体“Jackie R.Brown”和候选对象“Washington”之间的关系“Work in”就不成立了。因此,关系“Work in”的object tagger不会识别“Washington”的跨度,即起始位置和结束位置的输出都是零,如图2所示。相反,“出生地”的关系在“Jackie R.Brown”和“Washington”之间,因此相应的宾语标注器将输出候选对象“Washington”的跨度。在此设置中,高级模块能够同时识别关系以及与在低级模块中检测到的对象有关的对象。

数据记录可能性目标

通过式(3)的对数,目标J(Θ)为:

       

其中参数Θ={θ,{φr}r∈R}。pθ(s | x)在式(8)中定义,pφr(o | s,x)在式(11)中定义。我们通过Adam随机梯度下降方法(Kingma和Ba,2014)在小批次中最大化J(Θ)来训练模型。

实验

比较方法 我们将我们的模型与几个强大的最先进模型进行比较,即NovelTagging(Zheng et al.,2017)、CopyR(Zeng et al.,2018)、GraphRel(Fu et al.,2019)和CopyRRL(Zeng et al.,2019)。上述基线的报告结果直接取自原始出版文献。

             

请注意,我们在预先训练的BERT模型上实例化CASREL框架,以结合所提出的新标记方案的能力和预先学习的先验知识,以获得更好的性能。为了评估引入基于转换器的BERT模型的影响,我们进行了一系列消融试验。CASRELrandom是一个框架,其中BERT的所有参数都被随机初始化;CASRELLSTM是在基于LSTM的结构上实例化的框架(Zheng et al.,2017),带有预先训练的手套嵌入(Pennington et al.,2014);CASREL是使用预训练的BERT权重的成熟框架。

主要结果 表2显示了对两个数据集进行关系三元组抽取的不同基线的结果。在所有三个评估指标方面,CASREL模型在所有三个评估指标方面均优于所有基线,在纽约时报和WebNLG数据集上,F1分数分别比最先进方法(Zeng等人,2019年)提高了17.5%和30.2%。即使不利用预先训练的BERT,CASRELrandom和CASRELLSTM仍然与现有的最新模型相竞争。这验证了所提出的级联解码器的实用性,该解码器采用了一种新的二进制标记方案。从CASRELrandom到CASREL的性能改进突出了先验知识在预训练语言模型中的重要性。

不同类型句子的详细结果  为了进一步研究CASREL框架提取重叠关系三元组的能力,我们对不同类型的句子进行了两次扩展实验,并与前人的工作进行了比较。

图3显示了三种不同重叠模式的详细结果。可以看出,大多数基线在Normal、EPO和SEO上的性能都呈下降趋势,反映出从不同重叠模式的句子中提取关系三元组的难度越来越大。也就是说,在这三个重叠的模式中,普通类是最容易提取的模式,而EPO和SEO类则是比较难提取的基线模型。相比之下,所提出的CASREL模型在所有三个重叠模式上都获得了一致的强性能,特别是对于那些硬模式。我们也验证了CASREL在从不同三元组数的句子中提取关系三元组的能力。我们把句子分成五类,表3显示了结果。同样,CASREL模型在所有五个类中都取得了优异的性能。虽然发现大多数基线的性能随着句子中包含的关系三元组数量的增加而下降并不奇怪,但是从不同模型的性能变化中仍然可以观察到一些模式。与以往致力于解决关系三元组抽取中的重叠问题的工作相比,我们的模型对输入句子日益复杂的影响最小。尽管与最先进的方法CopyRRL(Zeng et al.,2019)相比,CASREL模型在所有五个类别上都获得了相当大的改进,但这两个数据集的F1得分的最大提高都来自最困难的类别(N≥5),这表明我们的模型比基线更适合复杂的场景。

这两个实验验证了级联二元标记框架在从复杂句子中提取多个(可能重叠)关系三元组方面的优越性。以往的研究都需要明确地预测句子中可能包含的所有关系类型,这是一个相当具有挑战性的任务,因此在提取的结果中缺少许多关系。相比之下,我们的CASREL模型不考虑关系类型的预测,并且倾向于从给定的句子中提取尽可能多的关系三元组。我们将此归因于级联解码器的高级标记模块中的关系特定对象标记器同时考虑了所有关系类型。

总结

本文中,我们介绍了一个新的级联二进制标记框架(CASREL),它是从关系三元组抽取的一个原则性问题中派生出来的。我们没有将关系建模为实体对的离散标签,而是将关系建模为映射主语到宾语的函数,这为重新审视关系三元组抽取任务提供了一个新的视角。因此,我们的模型可以同时从句子中提取多个关系三元组,而不存在重叠问题。我们在两个广泛使用的数据集上进行了大量的实验,以验证所提出的CASREL框架的有效性。实验结果表明,在不同的场景下,我们的模型的性能远远优于最新的基线,尤其是在重叠关系三元组的提取上。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478891.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团客户端响应式框架 EasyReact 开源啦

前言 EasyReact 是一款基于响应式编程范式的客户端开发框架,开发者可以使用此框架轻松地解决客户端的异步问题。 目前 EasyReact 已在美团和大众点评客户端的部分业务中实践,并且持续迭代了一年多的时间。近日,我们决定开源这个项目的 iOS Ob…

LeetCode 897. 递增顺序查找树(中序遍历)

1. 题目 给定一个树,按中序遍历重新排列树,使树中最左边的结点现在是树的根,并且每个结点没有左子结点,只有一个右子结点。 示例 :输入:[5,3,6,2,4,null,8,1,null,null,null,7,9]5/ \3 6/ \ \2 4…

谈谈怎样提高炼丹手速

文 | 夕小瑶最近搞定几件焦头烂额的大事后,终于有了一丢丢的时间来写写文章,并且偶尔思考下算法工程师的核心竞争力是什么。前不久一时兴起写了篇标题党文章《惊了!掌握了这个炼丹技巧的我开始突飞猛进》,简单描述了一下我的升级打…

论文浅尝 | 神经协同推理

论文笔记整理:叶橄强,浙江大学计算机学院,知识图谱和知识推理方向。Paper link: https://arxiv.org/abs/2005.08129Github link: https://github.com/Scagin/NeuralLogicReasoning背景:推荐任务推荐作为一种认知智能任务&#xff…

在服务器上安装anaconda遇到的问题总结

1 安装anaconda需要一些安装包,需要提前备准备好,比如bunzip2, gcc编译等软件。 cd /anacondaRElyanacondaREly文件夹下放了anaconda所依赖的安装包,切换到该路径 rpm -Uvh *.rpm --nodeps --force安装好anaconda 需要的依赖环境…

LeetCode 693. 交替位二进制数(位运算)

1. 题目 给定一个正整数,检查他是否为交替位二进制数:换句话说,就是他的二进制数相邻的两个位数永不相等。 输入: 5 输出: True 解释: 5的二进制数是: 101输入: 7 输出: False 解释: 7的二进制数是: 111输入: 11 输出: False 解释: 11的二进…

全栈深度学习第6期: 模型测试和部署

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群。…

开源开放 | 欧若科技通过 OpenKG 开放 Nebula Graph 图数据库

开源工具名称:Nebula Graph贡献者:杭州欧若数网科技有限公司 Nebula GraphOpenKG 链接:http://openkg.cn/tool/nebula-graph-database 谣言盐水漱口能预防感染?钟南山院士团队公开辟谣:「盐水漱口有利于…

pkuseg-python的postag.zip在不能联网的服务器上的解决办法

关于pkuseg-python的基本介绍和使用: pkuseg.pkuseg( postag True)时,会触发download.py文件的下载命令,从github中下载,进而会导致服务器报错,如下 进而在pkuseg文件下打开download.py和__in…

数据库的方向 - 行vs列(转自: IBM i 中国开发团队)

转载地址:https://www.ibm.com/developerworks/community/blogs/IBMi/entry/database?langen 原文链接:http://ibmsystemsmag.blogs.com/you_and_i/db2/ 数据库的方向 - 行vs列 如果你是一位数据库专家的话,这篇博客可能帮不了你什么。 …

Android自动化页面测速在美团的实践

背景 随着移动互联网的快速发展,移动应用越来越注重用户体验。美团技术团队在开发过程中也非常注重提升移动应用的整体质量,其中很重要的一项内容就是页面的加载速度。如果发生冷启动时间过长、页面渲染时间过长、网络请求过慢等现象,就会直接…

NLP领域的首次Hard Label黑盒攻击!

文 | 阿毅编 | 小轶背景前段时间已经和大家分享了两篇关于NLP Privacy的文章。今天,我们又来给大家推送优质论文了(公众号学习法)。其实,NLP与其他方向的跨界结合这段时间层出不穷,且都发表到了非常好的顶会上。目前有…

论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA

论文笔记整理:吴畏,东南大学硕士研究生。来源: ACL 2020论文地址: https://www.aclweb.org/anthology/2020.acl-main.412.pdf开源代码: https://github.com/malllabiisc/EmbedKGQA动机在多跳KGQA中,系统需要对KG的多个边缘执行推理以推断出正…

MCI:移动持续集成在大众点评的实践

一、背景 美团是全球最大的互联网生活服务平台,为3.2亿活跃用户和500多万的优质商户提供一个连接线上与线下的电子商务服务。秉承“帮大家吃得更好,生活更好”的使命,我们的业务覆盖了超过200个品类和2800个城区县网络,在餐饮、外…

LeetCode 260. 只出现一次的数字 III(位运算)

1. 题目 给定一个整数数组 nums,其中恰好有两个元素只出现一次,其余所有元素均出现两次。 找出只出现一次的那两个元素。 示例 :输入: [1,2,1,3,2,5] 输出: [3,5]注意: 结果输出的顺序并不重要,对于上面的例子, [5,…

没有什么多模态任务是一层Transformer解决不了的!

文 | 子龙曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎,提取视觉…

论文浅尝 - KDD2020 | 真实世界超图的结构模式和生成模型

论文笔记整理:毕祯,浙江大学硕士,研究方向:知识图谱、自然语言处理。链接:https://arxiv.org/abs/2006.07060动机图已被用作对人或物体之间的成对关系建模的强大工具。而超图是更广泛概念的一种特殊类型,其…

LeetCode 1122. 数组的相对排序

1. 题目 给你两个数组,arr1 和 arr2, arr2 中的元素各不相同 arr2 中的每个元素都出现在 arr1 中 对 arr1 中的元素进行排序,使 arr1 中项的相对顺序和 arr2 中的相对顺序相同。未在 arr2 中出现过的元素需要按照升序放在 arr1 的末尾。 示…

老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

文 | ????????????????编 | 王苏今天介绍的是一篇 NAACL21 新鲜出炉的工作!NAACL 上周四出的结果,这篇工作本周一上传 arxiv,周二被王苏小哥哥发现,周三拜读了一下,今天就来和大家分享啦!&…

如何基于深度学习实现图像的智能审核?

背景 美团每天有百万级的图片产生量,运营人员负责相关图片的内容审核,对涉及法律风险及不符合平台规定的图片进行删除操作。由于图片数量巨大,人工审核耗时耗力且审核能力有限。另外对于不同审核人员来讲,审核标准难以统一且实时变…