本文主要介绍远程监督关系抽取任务上两个最新的工作。远程监督(Distantly Supervised)是关系抽取(Relation Extraction)的一种主要实现方法。关系抽取是指获得文本中的三元组(triple),包括实体对和它们之间的关系,在自然语言理解中扮演着一个至关重要的角色。一般的方法采用完全监督的模式、需要大量的人工标注,这些是高成本且费时的。为了缓解这样的情况,研究人员企图构建远程监督关系提取器,将已有的知识库(比如 freebase)对应到非结构化的文本数据中,生成大量的训练数据来提高模型的训练效果。尽管远程监督节省了成本与时间,但是句子级的RE其包含大量噪声的问题亟需解决。
Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction
论文地址:
https://www.aclweb.org/anthology/P19-1134
论文动机
远程监督关系提取广泛用于从文本中提取关系事实,但存在标签噪声问题。目前的关系提取方法主要是通过多实例学习和提供语言和上下文信息的支持,以更有效地指导关系分类。在获得最先进的结果时,作者观察到这些模型偏向于识别有限的高精度关系,而忽略了长尾关系。本文的扩展点在于通用结构引入额外的背景知识或者进行深度语言模型表示处理。
论文贡献
- 论文使用改进的GPT模型来处理袋级、多实例的远程监督数据集,通过融合语句级信息和选择性注意机制得到袋级预测。除了从词法句法的角度解决问题外,也更注重大量的常识知识。
- 作者在NYT10数据集上评估所提出的微调语言模型,与RESIDE模型和PCNN+ATT模型相比,该模型实现了最先进的AUC。
- 作者对预测结果进行了人工分析,结果表明该模型预测得到更多样化的关系,并且表现出更高的召回率。
模型
1. contextualized representations 语言模型学习方法
无监督预训练语言表示模型采用最大似然估计作为损失函数,Transformer模型目标函数:
整个优化过程采用随机梯度下降,该结果是对于每一个词的概率分布用于下游任务的输入序列。
2. Transformer多示例学习
这部分介绍了我们对原始transformer体系结构的扩展,支持远程监督数据集上的袋级多实例学习。文章假设一个标记的数据可以表示为
选择注意力可以学习那些带有明显特征表示某个关系的句子同时不重视那些包含噪音的句子,权重计算公式如下:
最终优化目标如下:
由于引入语言模型在微调过程中有助于改善泛化能力实现快速收敛,故:
模型表现
文章在结果上强调P-R曲线的balance问题,即整体表现良好(AUC面积最好),这可能具备很高的应用价值,而baselines方法都体现出在高召回率下drop early现象。
Cross-relationCross-bag Attention for Distantly-supervised Relation Extraction
论文地址:
https://arxiv.org/abs/1812.10604
论文动机
尽管远程监督节省了成本与时间,但是远程监督方法是上下文无关的,对于句子级的RE包含大量噪声。因此,生成的训练数据通常包含大量噪音,可能导致在常规的监督学习中表现不佳。选择性注意力机制企图为句子分配注意力权重之后结合包内所有句子用于训练。然而,句子级选择性注意力(ATT)独立生成每种关系类型的权重而忽略了关系类型间的关联。
论文贡献
- 文章提出Cross-relation Attention,在考察所有关系类型之间的相互影响后产生注意力权重,并考虑了一个训练实例包含多个实体对的特殊情况。
- 本文提出Cross-bag Attention结合不同的句子包,将这种组合结构称为superbag,并将其作为训练示例代替句子包,这使得模型更加关注高质量的句子包,减少知识库中过时或未表示的信息带来的噪声。
- 文章采用句子级选择注意力机制减少噪声以及不匹配句子的影响,同时利用关系间的相关性来提高注意权重的质量。此外,不同于之前将所有实体对看作是等价的,文章采用注意力机制关注更高质量的关系对。
模型
本文模型(C2SA)的提出通过考虑关系间的相关性提高句子级注意力的效果,并在另一个注意力层级筛选包级别特征。多示例学习方法有助于减少噪声增强模型鲁棒性,多示例学习把句子包视为基础的训练示例,每个包中的一组句子被标记为相同的知识库事实。通过包内选择,模型可以更加关注高质量的句子减少对噪音句子关注。
如图1所示,关系抽取器包含两个组件:一个神经网络特征抽取器和一个输出层。模型训练过程整个分为四个步骤:首先为每个句子构建表示。之后,cross-relation选择性注意结合句子表征并生成句子包的表征。相似地,cross-bag选择注意力结合句子包表示生成超级包表示。最终loss基于superbag特征指导关系抽取器学习。
1. 神经网络特征抽取器
对于神经网络特征抽取器,它可以抽取有用的特征进行关系分类,并可以使用任何的神经网络结构包括CNN与RNN。文章采用piecewise-CNN,由卷积层和分段最大池化层。卷积层,输出结果c计算方法如下:
2. 输出层
基于抽取特征,输出层对关系类型做出预测。为计算每个关系的置信度,本文采用线性投影与softmax函数计算条件概率,采用droput策略防止过拟合。
3. Cross-relation Cross-bag Selective Attention
Cross-relation Selective Attention其目的旨在减少噪声或错误匹配句子的影响,计算选择注意力基于句子与关系间的相似性:
为了捕获关系之间的相关性,文中使用bayes规则计算期望注意权重:
Cross-relation Selective Attention不仅仅依赖于目标关系句子的相似性,也依赖于其他关系。该机制假设在包中至少一句话表达实体对的某种关系,远程监督在句子包级别存在噪音,可能大量关系对不能发现知识库中给定的表达,这种实体对会导致句子级关系抽取存在不匹配或噪声训练示例。针对上述问题,本文结合几个包含相同关系类型的句子包,将注意力集中到更高质量的部分,采用attention layer结合包,公式如下:
最终模型目标函数训练采用负对数似然实现,Cross-bag Selective Attention机制如下图,
模型表现
使用NYT10作为训练集,53个分类,数据集包含522611个句子,281270实体对和18252知识库事实。
实验结果反映了两个重要信息:(1)本文提出的cross-relation与cross-bag对模型效果的提升都有效;(2)余弦相似度代替点乘作为评分函数的一部分是非常有效的。