文章目录

abstract
1 introduction
2.方法
- 2.1实体关系表(Figure-2)
- 2.2 The Table Filling Multi-Task RNN Model
- 2.3 Context-aware TF-MTRNN model
- 2.4 Piggybacking for Entity-Relation Label Dependencies
- 2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)
3.Model training
- 3.1 端到端关系抽取

Gupta, P., et al. (2016). Table filling multi-task recurrent neural network for joint entity and relation extraction. Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers.

abstract

摘要提出了一种新的基于词的语义组合的上下文感知联合实体和词级关系提取方法，提出了一种多任务递归神经网络(TF-MTRNN)模型，将实体识别和关系分类任务简化为表格填充问题，并对它们之间的相关性进行了建模。该神经网络结构能够在不知道句子中对应关系参数的情况下对多个关系实例进行建模。实验结果表明，一种利用候选实体对关联实体之间的标签依赖关系进行建模的简单方法可以提高性能。我们在CoNLL04数据集上展示了最新的结果，实体识别和关系分类分别提高了2.0%和2.7%。

简化为表格填充问题
多任务RNN
对相关性建模
多关系

1 introduction

关系分类的任务是预测带注释的名词对(也称为关系参数)之间的语义关系。这些注释，例如参与关系的命名实体对，通常很难获得。传统方法通常是基于两个独立的子任务的管道:实体识别(ER1)和关系分类(RC),首先检测命名实体,然后执行关系分类检测实体提到,因此忽略了潜在的相互依赖关系和传播错误分类实体识别的关系。这两个子任务一起称为端到端关系提取。
关系分类是一个句子层次的多类分类问题，它通常假定句子中只有一个关系实例。通常认为实体识别影响关系分类，但关系分类不影响实体识别。在这里，我们用实验证据来证明后者是不正确的。例如，在图1中，PER和ORG实体之间存在关系Work For, ORG和LOC之间存在ORGBased，而LOC和LOC实体之间存在ORGBased。相反，对于具有关联关系的给定单词，可以检测候选实体类型。例如，在图2中，对于给定的关系，假设位于，候选实体对是(LOC, LOC)。因此，这两个任务是相互依赖的，通过提出的子任务联合建模和简单的piggybacking方法，优化单一网络，ER和RC对候选实体对的相互依赖关系进行建模，并实现相应的关系。
联合学习方法(Roth和Yih, 2004;Kate和Mooney, 2010)在复杂的多个独立模型上为子任务建立联合模型。(Miwa和Sasaki, 2014)提出了一种联合实体和关系提取方法，使用基于历史的结构化学习和表表示;然而，它们明确地合并实体关系标签的相互依赖性，使用复杂的特性和搜索启发式来填充表。此外，其最先进的方法是结构化预测，而不是基于神经网络框架。然而，递归和卷积神经网络等深度学习方法(Zeng et al.， 2014;张，王，2015;Nguyen和Grishman, 2015)对待关系分类是一个句子级的多类分类，依赖于句子中提供的关系参数。因此，它们不能在一个句子中处理多个关系实例，并且不能检测到参与检测到的关系的相应的实体提及对。

以前NN的方法没有多关系
本文贡献
- 提出了一种新的表格填充多任务递归神经网络
  - 减少了搜索启发式和显式实体和关系标签依赖
  - 多关系
- 使用一种简单的方法为单词(从每个单词的关联类型派生而来)附带候选命名实体，从而对标签依赖关系进行建模
  - 共享模型参数和表示

提出了一种新的表格填充多任务递归神经网络，通过统一的多任务递归神经网络对实体识别和关系分类任务进行联合建模。我们使用实体关系表表示来检测单个框架中的实体提及对和对应关系。它减少了联合实体和关系学习中对搜索启发式和显式实体和关系标签依赖的需要。据我们所知，这是首次尝试通过多任务递归神经网络来联合建模实体和关系提取任务之间的相互依赖关系。
本文提出了一种基于上下文感知的RNN框架的词对合成的句子级关联学习方法。我们的方法相对于最先进的方法，如CNN和RNN，在关系分类上有显著的优势，因为我们不需要标记的名词性，并且可以在一个句子中建模多个关系实例。
有命名实体标签对于发现它们之间的关系类型是非常有用的，反之亦然，有命名实体标签之间的关系类型可以减轻命名实体标签的问题。因此，使用一种简单的方法为单词(从每个单词的关联类型派生而来)附带候选命名实体，从而对标签依赖关系进行建模，从而改进了系统的性能。此外，该网络中的顺序学习方法通过共享模型参数和表示来学习实体和关系标签依赖关系，而不是显式地对它们建模。
在CoNLL04数据集上，我们的方法在实体识别和关系分类上分别比最先进的方法高出2.0%和2.7%。

2.方法

在这里插入图片描述

2.1实体关系表(Figure-2)

我们采用Miwa和Sasaki(2014)提出的表结构作为模型的主干，如表1所示。这种结构允许对联合实体和关系提取进行优雅的形式化处理，因为实体和关系标签都定义为句子中单词wi和wj之间的二元关系实例。实体标签是这样一个二元关系的i=j，即对角线上的单元格。对于i!=j来说，关系标签是这样一种二元关系，即，非对角单元格。为了消除冗余，我们规定对(wi, wj)的正确标签是关系标签r，当且仅当i !=j, wi=ei，wj=命名实体ej，r(ei, ej)为真。我们引入无关系的特殊符号⊥，即这两个词之间没有关系。
除了为实体和关系标签提供了一个通用的框架之外，表结构的另一个优点是每个句子都可以免费建模多个关系。它只是对应于几个(多个)用对应关系标记的非对角单元格。

2.2 The Table Filling Multi-Task RNN Model

在形式上，对于长度为n的句子，我们的任务是标记(n+1)n/2个空。挑战在于标签的决定是高度相互依赖的。我们采用深度学习方法，因为深度学习模型最近已经成功地在NLP中建模了复杂的依赖关系。更具体地说，我们应用递归神经网络(RNNs) (Elman, 1990;乔丹,1986;由于他们成功地完成了复杂的NLP任务，如机器翻译和推理。
为了应用RNNs，我们将表的单元格按图4所示的顺序排列，并使用（标记或填充）按顺序依次填充单元格。我们将这种方法称为表填充。
更具体地说，我们使用双向架构(Vu et al.， 2016b)，前向RNN和后向RNN来填充每个单元(i, j)，如图3所示。前向RNN提供了历史的表示w1，…wi。反向网络提供了下文的表示wj，…w |s |。图中显示了如何计算关联的命名实体标记。正向RNN如下图所示。hfi是历史的表现，hbj是下文内容的表达。两者都被输入到hi j中，然后hi j预测标签L-ORG。在这种情况下，i =j。关系标签的预测是相似的，除了i！= j时刻。

i=j:实体标签
i!=j:关系标签
方法：双向RNN
- -> 前向，前文
- <-后向，后文

我们提出的基于RNN的框架通过共享模型参数和表示形式，将实体和关系提取任务联合建模，以学习它们之间的相关性。如图3所示，我们使用两个独立的输出节点和权重矩阵分别进行实体和关系分类。实体标签赋值给一个词，关系赋值给一个词对;因此，只有来自前向和后向网络的相同单词组成时才会执行EE。

通过共享参数和表示–联合–》学习他们之间的相关性。

2.3 Context-aware TF-MTRNN model

在图3中，我们观察到，当单词Association和Va的隐藏表示被组合在一起时，中间的上下文，即在单词对组合中出现的所有单词之间的序列被遗漏了。因此，我们在网络中引入了缺少的上下文的第三个方向(图5)(即在Alexandria中)，将完整的上下文累积在组合的隐藏向量中(hi,j)。

前面只有上文和下文，没有实体之间的context，这里加上。

2.4 Piggybacking for Entity-Relation Label Dependencies

有命名实体标签对于发现它们之间的关系类型是非常有用的，反之亦然，有命名实体标签之间的关系类型可以减轻命名实体标签的问题。在图6的端到端关系提取过程中，我们对这些标签的相互依赖关系进行了建模，其中时间步长t的输入向量为
其中CRE是对实体依赖关系建模的计数向量，EER是预测实体对实体依赖关系建模的一个热点向量，Wemb是词嵌入向量。因此，在每个时间步长的输入向量t是这三个向量的串联。

为了将实体建模为关系依赖，TF-MTRNN模型(图6)首先计算实体类型，实体类型由实体-关系表的对角条目表示。将每个预测实体类型EER(填充的蓝色方框)与对应的词嵌入向量Wemb连接，然后输入相同的模型M进行关系分类。
为了对实体依赖关系进行建模，我们派生了一个候选实体标记列表，除了K个关系类型之外，每个词都参与了一个关系。与关系类型相关的每个单词都是由关系分类(RC)步骤确定的(图6)。图7展示了给定句子中每个单词的实体类型计数向量(图1)。例如，单词Alexandria参与了关系类型:ORGBased in和locate in。可能的实体类型是{U-ORG, L-ORG, U-LOC, L-LOC}用于ORGBased In，而{U-LOC, L-LOC}用于locate In。然后我们从这些可能的实体类型计算一个计数向量CRE。因此，U-LOC和L-LOC的出现次数分别为2,U-ORG和L-ORG的出现次数分别为1(图7)。将每个单词的count vector (filledyellow color box)作为候选实体类型，通过将其与对应的单词嵌入向量Wemb连接起来，作为实体学习的M。这种承载候选实体计数向量的简单方法允许从关系到实体学习标签依赖关系，以改进实体提取。此外，通过共享参数和在统一网络中调整共享嵌入实现多任务处理，可以实现学习标签的相互依赖性。

计算实体类型（对角线上）EER
EER+Wemb
关系分类
- 候选实体标记列表
- 共享参数

2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)

排名损失被用于神经架构(多斯桑托斯et al ., 2015)和(Vu et al ., 2016 b)处理人工类。在我们的实验中,对于一个给定的句子x类标签y +,竞争类c-是选择得分最高的在所有竞争类在SGD步骤。基本原理是学习真正的标签之间的距离最大化y +最好的竞争力标签c-对于一个给定的数据点x。我们使用排名处理两个人工类即损失。O和⊥,分别在实体和关系类型。排名目标函数的定义是

set $γ+=2,m+=2.5,m−=0.5\gamma^+=2,m^+=2.5,m^-=0.5$

3.Model training

3.1 端到端关系抽取

在CoNLL04中，超过99%的单词对属于无关系类。因此，在关系学习中，要求命名实体考生选择候选词对。在图6和图9中，我们演示了用于端到端关系提取的联合和管道方法
在图6中，通过过滤掉非实体对来选择候选关系对。因此，在实体-关系表中，我们没有为非实体对插入任何关系标签，并且RC没有被执行。注意，RC选择了一个词对，其中至少有一个词是实体。它允许模型M通过携带候选命名实体(图7)在NER中纠正自身错误。然而，在图9中，两个独立的模型M1和M2分别为NER和RC进行了训练。在管道方法中，唯一的候选关系是具有(U-， U-)、(L-， L-)或(U-， L-)实体类型的单词对。因此，在RC子任务中，只有w1和w5是按照单词序列在M2中组成的。

大多无关系
生成候选词对
- 过滤掉非实体对
word embedding
- 50-d预训练词向量（7-gram)

多任务训练是通过在一组训练步骤中切换多个任务来执行的。然而,我们执行开关ER和RC子任务之间基于每一个任务的性能共同验证设置和更新学习速率只有当任务从RC转向ER(图8)。ER是多任务的任务开始和ER / RC切换在接下来的训练步骤,当他们ValidF1分数并不比BestValidF1分数的前面的步骤验证集。

(i)我们提出的所有模型元素(POS、CF、CTX、piggybacking、ensemble)都提高了性能，特别是CTX和piggybacking提供了很大的改进。
(ii)毫不奇怪，能够访问NER分类的管道RE模型比单独的RE模型表现得更好。
(iii)联合模型比单独和流水线模型的性能更好，表明联合训练和解码对联合NER和RE更有优势。
Word pair Compositions (T-SNE):我们观察到，具有共同关系类型的实体提及对在语义实体关系空间中形成对应于每个关系的簇