文章目录
- abstract
- 1.introduction
- 2 Proposed Walk-based Model
- 2.1 嵌入层
- 2.2 Bidirectional LSTM Layer
- 2.3 Edge Representation Layer
- 2.4 Walk Aggregation Layer
- 2.5 Classification Layer
- 3.实验
- 3.1数据集
- 3.2 Experimental Settings
- 5.结果
- 6.相关工作
- 6.总结
Christopoulou, F., et al. (2018). A Walk-based Model on Entity Graphs for Relation Extraction. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.
- 应用情景:
- 一个句子内存在多个实体
- 实体间有多个关系
- 一个关系可能有多个实体–>还是当做三元组处理
abstract
我们提出了一种新的基于图的神经网络模型用于关系提取。我们的模型同时处理句子中的多对,并考虑它们之间的相互作用。句子中的所有实体都作为节点放置在完全连接的图形结构中。边缘用实体对周围的位置感知上下文表示。为了考虑两个实体之间的不同关系路径,我们在每对之间构建最多l长度的步行。合并并迭代地使用结果遍历将边缘表示更新为更长的行走表示。我们表明,该模型在不使用任何外部工具的情况下实现了与ACE 2005数据集上最先进系统相当的性能。
- Christopoulou, F., et al. (2018)
- 模型:基于图的walk-based神经网络
- 用于:句子内存在多个实体对的情况
- 特点:
- 可以同时处理句内多个对的情况
- 考虑他们之间的相互作用
- 构建图:
- 节点:实体(句子内的所有实体)
- 边:全联接的,用实体对周围的位置敏感上下文(position-aware contexts)表示
- walk
- 步长:1–为了考虑两个实体间的不同关系路径
- 扩散迭代
1.introduction
关系提取(RE)是识别句子中已知实体提及之间的类型关系的任务。大多数现有的RE模型单独处理句子中的每个关系(Miwa和Bansal,2016; Nguyen和Grishman,2015)。但是,句子通常包含实体提及之间的多个关系。RE模型需要同时考虑这些对以模拟它们之间的依赖关系。一对兴趣(即“目标”对)之间的关系可以受同一句子中的其他对的影响。图1所示的例子解释了这种现象。利息与资本之间的关系可以直接从目标实体中提取,也可以通过合并句子中其他相关对的信息间接提取。人物实体(PER)Toefting通过介词with队友直接相关。同样,队友通过介词in与(GPE)capital直接相关。通过队友或通过队友间接相关,可以直接关联托付和资本。实质上,从Toefting到队友到资本的路径还可以支持Toefting和资本之间的关系。
- 关系抽取
- 大多:单独处理目标实体
- 问题:没有考虑其他实体、关系的影响
- 考虑了其他实体影响的:
- BIO embedding
- 句子内一个关系多个实体的情况
- 本文
- 本文
- 假设:实体间的关系,可以直接获取,也可通过其他相关对间接获得(如图1)
- 例子中实体间以介词链接
- 图的方法:从已有关系推断新的关系
- 问题:关系抽取没有预先定义的关系,
- 建立图:
- 节点:实体提及
- 边:有向边:实体提及的有序对
- 初始化:实体提及+上下文(注意力机制)
- 迭代:聚合得到两个实体间最多步长1的表示
- 贡献:
- 提出:基于图形和walk的神经网络模型,考虑了同一个句子多个实体对之间的关系
- 迭代算法:边的构建(聚合得到两个实体间最多步长1的表示)
- 不使用外部工具下,效果与最新的模型好
- 假设:实体间的关系,可以直接获取,也可通过其他相关对间接获得(如图1)
实体提及之间的句子中1的多个关系可以表示为图形。基于神经图的模型已经显示出在几个任务中基于传统特征的方法建模图的显着改进。它们最常用于知识图完成的知识图(KG)(Jiang等,2017)和知识图嵌入的创建(Wang等,2017; Shi和Weninger,2017)。这些模型依赖于现有关系之间的路径,以推断KG中实体之间的新关联。然而,对于从句子中提取关系,相关对不是预先定义的,因此需要考虑所有实体对来提取关系。此外,最先进的RE模型有时依赖外部句法工具来构建句子中两个实体之间的最短依赖路径(SD等)(Xu et al。,2015; Miwa and Bansal,2016)。这种对外部工具的依赖导致了依赖于域的模型。
- 基于图的模型:
- 用神经网络的>于特征的
- 用于
- 用于知识图完善的KG
- 知识图嵌入的创建
- 从已有关系的路径,推断新的关联
在本研究中,我们提出了一种基于实体图的神经关系提取模型,其中实体提及构成节点,有向边对应于实体提及的有序对。模型的概述如图2所示。我们从实体提及及其上下文的表示中初始化边缘的表示(一对有序的实体提及)。通过对上下文单词采用注意机制来实现上下文表示。然后,我们使用迭代过程将两个实体之间的最多l长度步行表示聚合成单个表示,这对应于边缘的最终表示。我们模型的贡献可归纳如下:
•我们提出了一种基于图形走的神经模型,该模型考虑了从句子中提取关系的多个实体对。
我们提出了一种迭代算法,用于形成一对实体之间最多1长度步行的单一表示。
我们展示了我们的模型在不使用外部句法工具的情况下与最新技术相媲美。
2 Proposed Walk-based Model
- RE任务
- 输入:句子、实体提及、语义类型
- 输出:句子中所有实体对(目标对)有无关系,有何关系
- 本文
- 总目标:通过使用实体对之间的中间关系链来支持实体对之间的关系
- 实现
- 输入:单词的表示
- 输出:句子中每对实体对的表示
- 做法:将目标对、上下文单词、它们相对实体的位置和它们之间的walk结合起来分类(提取关系)
- 结构
- 嵌入层,
- 单词:嵌入向量w,维度:nwn_wnw
- 语义实体类型:嵌入向量t,维度:ntn_tnt—(BIO嵌入??还是什么)
- 相对位置:嵌入向量p,维度:npn_pnp
- BLSTM层,
- 输入:word embedding
- 输出:h(单词表示,考虑了单词序列)
- et=[h←t;h→t]e_t=[\stackrel{\leftarrow}{h}_t;\stackrel{\rightarrow}{h}_t]et=[h←t;h→t]
- tip:不在BLSTM层编码目标对依赖信息
- 降低成本(句子数目小于对的数目
- 可在句子对中共享序列层:使模型可以间接地学习同一句子中相对词之间的隐藏依赖关系
- 边表示层,
- 实体表示:
- e=1∣I∣Σi∈IeiI是组成实体e的单词索引的集合e=\frac{1}{|I|}\Sigma_{i\in I} e_i\\I是组成实体e的单词索引的集合e=∣I∣1Σi∈IeiI是组成实体e的单词索引的集合
- 实体表示(单词层面)、类型表示ti和相对位置
- 实体一vi=[ei;ti;pij]实体二vj=[ej;tj;pji]实体一v_i=[e_i;t_i;p_{ij}]\\实体二v_j=[e_j;t_j;p_{ji}]实体一vi=[ei;ti;pij]实体二vj=[ej;tj;pji]
- 上下文表示:vijzv_{ijz}vijz实体i和实体j的第z个上下文
- vijz=[ez;tz;pzi;pzj]v_{ijz}=[e_z;t_z;p_{zi};p_{zj}]vijz=[ez;tz;pzi;pzj]
- 组成一个三维的矩阵C(长i,宽j,深度为z)
- attention
- u=qTtanh(Cij)α=softmax(u)cij=CijαTu=q^Ttanh(C_{ij})\\ \alpha=softmax(u)\\ c_{ij}=C_{ij}\alpha^Tu=qTtanh(Cij)α=softmax(u)cij=CijαT
- !!:该注意机制与关系类型无关。我们将依赖关系的关注作为未来的工作。
- 链接:全连接层
- vij(1)=Ws[vi;vj;cij]v_{ij}^{(1)}=W_s[v_i;v_j;c_{ij}]vij(1)=Ws[vi;vj;cij](边,或实体之间长度1的表示)
- 目的:减少向量的维度
- 实体表示:
- 步行聚合层(walk aggregation layer)
- 目标:为两个目标实体之间的有限数量的不同长度步行生成单个表示
- 有向图:句子
- 节点:实体
- 边:实体之间的关系表示vij(1)v_{ij}^{(1)}vij(1)
- 目标对之间的长度1walk的表示vij(1)v_{ij}^{(1)}vij(1) ,用于构建块,一边在该对之间创建和聚合one-to-l length walk
- 基于walk的算法
- walk 构建
- f(vik(λ),vkj(λ))=σ(vik(λ)⊙(Wbvik(λ))),⊙:逐元素乘法f(v_{ik}^{(\lambda)},v_{kj}^{(\lambda)})=\sigma(v_{ik}^{(\lambda)}\odot(W_bv_{ik}^{(\lambda)})),\odot:逐元素乘法f(vik(λ),vkj(λ))=σ(vik(λ)⊙(Wbvik(λ))),⊙:逐元素乘法
- walk的长度变为:2−2λ2-2\lambda2−2λ
- vik(λ)的长度为:1−λv_{ik}^{(\lambda)}的长度为:1-\lambdavik(λ)的长度为:1−λ
- f(vik(λ),vkj(λ))=σ(vik(λ)⊙(Wbvik(λ))),⊙:逐元素乘法f(v_{ik}^{(\lambda)},v_{kj}^{(\lambda)})=\sigma(v_{ik}^{(\lambda)}\odot(W_bv_{ik}^{(\lambda)})),\odot:逐元素乘法f(vik(λ),vkj(λ))=σ(vik(λ)⊙(Wbvik(λ))),⊙:逐元素乘法
- walk 聚合
- vij(2λ)=βvij(λ)+(1−β)Σk≠i,jf(vik(λ),vkj(λ))v_{ij}^{(2\lambda)}=\beta v_{ij}^{(\lambda)}+(1-\beta)\Sigma_{k\neq i,j}f(v_{ik}^{(\lambda)},v_{kj}^{(\lambda)})vij(2λ)=βvij(λ)+(1−β)Σk=i,jf(vik(λ),vkj(λ))
- 从λ=1\lambda=1λ=1开始,使用上式,得到λ=2,重复至2λ=l,达到所需最大路径长度\lambda=2,重复至2\lambda=l,达到所需最大路径长度λ=2,重复至2λ=l,达到所需最大路径长度
- 理解:i-j联合i-k-j的路径,综合得到i-j的表示。迭代多次,趋于收敛
- walk 构建
- 最终的分类层
- y=softmax(Wrvij(l)+br),Wr∈Rnb×nry=softmax(W_rv_{ij}^{(l)}+b_r),W_r \in R^{n_b\times n_r}y=softmax(Wrvij(l)+br),Wr∈Rnb×nr
- nb是vij(l)的维度,nr:关系总数n_b是v_{ij}^{(l)}的维度,n_r:关系总数nb是vij(l)的维度,nr:关系总数
- 2r+1个类:考虑双向+一个无关系
- y=softmax(Wrvij(l)+br),Wr∈Rnb×nry=softmax(W_rv_{ij}^{(l)}+b_r),W_r \in R^{n_b\times n_r}y=softmax(Wrvij(l)+br),Wr∈Rnb×nr
- 嵌入层,
RE任务的目标是给出句子,实体提及及其语义类型,以提取和分类句子中的所有相关实体对(目标对)。所提出的模型由五个堆叠层组成:嵌入层,BLSTM层,边缘表示层,步行聚合层和最终的分类层。
如图2所示,模型接收单词表示并同时产生句子中每对的表示。这些表示将目标对,其上下文单词,它们与对实体的相对位置以及它们之间的行走组合在一起。在分类期间,它们用于预测每对的关系类型。
2.1 嵌入层
嵌入层涉及创建,,维度向量,这些向量分配给单词,语义实体类型和目标对的相对位置。我们将所有单词和语义类型分别映射到实值向量w和t。基于句子中单词的位置创建目标实体的相对位置。在图1的示例中,队友与首都的相对位置是,队友与Toefting的相对位置是+16。我们将实值向量p嵌入这些位置。
2.2 Bidirectional LSTM Layer
每个句子的单词表示被馈送到双向长短期记忆(BLSTM)层,其对每个单词的上下文表示进行编码。BLSTM输出新的词级表示h(Hochreiter和Schmidhuber,1997),它考虑了单词的序列。
我们避免在此BLSTM层中编码目标对依赖信息。这具有两个优点:(i)计算成本降低,因为基于句子的数量而不是对的数量重复该计算,(ii)我们可以在句子对中共享序列层。第二个优点尤为重要,因为它使模型能够间接地学习同一句子中相关对之间的隐藏依赖关系。
2.3 Edge Representation Layer
BLSTM的输出字表示进一步分为两部分:(i)目标对表示和(ii)目标对特定上下文表示。目标对的上下文可以表示为句子中不属于实体提及的所有单词。我们代表如下所述的相关对
目标对包含两个实体和。如果一个实体由N个单词组成,我们将其BLSTM表示创建为相应单词的BLSTM表示的平均值,其中I是在实体e中具有单词indices的集合。
我们首先为每个对实体创建一个表示,然后我们构造该对的上下文的表示。
然后将每个目标对的上下文单词表示编译成具有注意机制的单个表示。遵循Zhou等人提出的方法。 (2016),我们计算目标对的上下文单词的权重并计算它们的加权平均值,
该注意机制与关系类型无关。我们将依赖关系的关注作为未来的工作。
最后,我们连接目标实体及其上下文的表示()。我们使用完全连接的线性层和来减少结果向量的维数。这对应于节点i和j之间的边缘或一长度步行的表示:。
2.4 Walk Aggregation Layer
我们的主要目标是通过使用对实体之间的中间关系链来支持实体对之间的关系。因此,该层的目标是为两个目标实体之间的有限数量的不同长度步行生成单个表示。为了实现这一点,我们将句子表示为有向图,其中实体构成图节点,并且边对应于两个节点之间的关系的表示。目标对之间的一次性步行的表示用作构建块,以便在该对之间创建和聚合一对一长度步行的表示。基于walk的算法可以看作是一个两步过程:步行构建和步行聚合。在第一步中,使用修改的双线性变换组合图中的两个连续边,
在步行聚合步骤中,我们线性组合初始步行(长度为1到λ)和扩展步行
2.5 Classification Layer
我们总共使用2r+1类来考虑每对的两个方向,即从左到右和从右到左。第一个参数首先出现在从左到右关系的句子中,而第二个参数首先出现在从右到左的关系中。附加类对应于非相关对,即“无关系”类。我们为每个方向选择最有效的预测,并在预测相互矛盾时选择正面和最有效的预测。
3.实验
3.1数据集
我们在ACE 20051上评估我们的模型在关系提取任务中的表现。ACE 2005在命名实体之间包括7种实体类型和6种关系类型。我们遵循Miwa和Bansal(2016)中描述的预处理。
- ACE 2005
- 7种实体+6种关系
- 预处理
- 遵循Miwa和Bansal(2016)
3.2 Experimental Settings
我们使用Chainer库实现了我们的模型(Tokui等,2015).2该模型使用Adam优化器进行训练(Kingma和Ba,2015)。
在Jozefowicz等人的工作之后,LSTM层的遗忘偏差被初始化为等于1的值。 (2015年)。我们使用10个句子的批量大小,并将对的表示维度设置为100。我们使用梯度削波,嵌入和输出层的dropout以及L2正则化而不规范偏差,以避免过度拟合。我们还将早期停止=5起来,以选择训练时期和参数平均的数量。我们使用RoBO Toolkit(Klein等,2017)在相应的开发集上调整模型超参数。有关数值,请参阅补充材料。
我们根据它包含的实体数量提取句子中所有可能的对。如果在语料库中找不到对,则为其分配“无关系”类。我们报告了Miwa和Bansal(2016)以及Nguyen和Grishman(2015)之后的微观精确度,召回率和F1分数。
- 使用库:Chainer库
- 优化器:adam
- 防止过拟合
- 梯度削波,
- 嵌入和输出层的dropout以及
- L2正则化而不规范偏差
- 调参
- early stopping-5
- RoBO Toolkit(Klein等,2017)
5.结果
- 对比
- SPTree:Miwa和Bansal(2016)
- baseline:Nguyen和Grishman(2015)(CNN)(移除了负例)
- 和最好的系统SPTree比,比不上,但差不多,表明在没有额外工具下,能够达到相当的性能
- 句子中实体数目不同情况下的比较
- 句子中实体越多,所需要的步长越大
- 句子中实体越多,所需要的步长越大
我们对结果进行了近似随机化测试(Noreen,1989)。最佳步行模型与表1中最先进的SPTree模型没有统计学上的显着差异。这表明所提出的模型可以在没有任何外部句法工具的情况下实现相当的性能。
最后,我们将所提出的模型的性能表示为句子中实体数量的函数。表2中的结果表明,对于多对句子,与无步行模型相比,该模型的表现明显更好,证明了该方法的有效性。另外,观察到对于更多实体对,似乎需要更长的步行。然而,非常长的步行导致性能降低(l = 8)。
6.相关工作
- 特征方法
- (Hermann和Blunsom,2013; Miwa和Sasaki,2014; Nguyen和Grishman,2014; Gormley等,2015)。
- 神经网络
- RNN:能够编码长单词序列的语言和句法属性
- (Cai等,2016; Miwa和Bansal,2016; Xu等,2016; Liu等,2015)
- 分开对待每个实体对
- (dos Santos等,2015; Nguyen和Grishman,2015)
- 未考虑单个句子中多个关系之间的依赖关系
- CNN:
- 基于图的模型:
- 远程监督的KB(Zeng等,2017)
- 用图定义了语义类型
- 本文:图:在句子中构建了基于实体的图形
- 其他:句子内多个关系
- Gupta等,2016; Miwa和Sasaki,2014; Li和Ji,2014)
- 无长距离的walk
- 远程监督的KB(Zeng等,2017)
- RNN:能够编码长单词序列的语言和句法属性
传统上,关系提取方法已经结合了多种手工制作的特征来表示相关的实体对(Hermann和Blunsom,2013; Miwa和Sasaki,2014; Nguyen和Grishman,2014; Gormley等,2015)。最近的模型采用神经网络架构,无需繁重的特征工程即可实现最先进的结果。神经网络技术可以分为递归神经网络(RNN)和卷积神经网络(CNN)。前者能够编码长单词序列的语言和句法属性,使其成为与序列相关的任务的优选,例如,自然语言生成(Goyal et al。,2016),机器翻译(Sutskever et al。,2014)。
事实证明,最先进的系统在使用RNN的关系提取方面取得了良好的性能(Cai等,2016; Miwa和Bansal,2016; Xu等,2016; Liu等,2015)。然而,大多数方法没有考虑单个句子中关系之间的依赖关系(dos Santos等,2015; Nguyen和Grishman,2015),并分别对待每一对。当前基于图的模型应用于远程监督关系提取的知识图(Zeng等,2017)。图形在其方法中定义了语义类型,而我们在句子中构建了基于实体的图形。其他方法也在句子中处理多个关系(Gupta等,2016; Miwa和Sasaki,2014; Li和Ji,2014),但是他们无法模拟实体提及之间的长距离行走。
6.总结
我们提出了一种新的神经网络模型,用于同时对相关对的句子级提取。我们的模型利用目标和上下文对特定表示,并创建对表示,这些表示在对的实体之间编码最多l长度的步行。我们将模型与最先进的模型进行了比较,并在没有任何外部句法工具的情况下观察到ACE2005数据集的可比性能。所提方法的特征总结为三个因素:关系之间依赖关系的编码,以向量形式表示多个步行的能力以及与外部工具的独立性。未来的工作将致力于构建端到端关系提取系统以及应用于不同类型的数据集。