文章目录
- abstract
- 1.introduction
- 2. 相关工作
- 2.1 命名实体识别
- 2.2 关系抽取
- 2.3 实体关系联合抽取模型
- 3.联合模型
- 3.1 Embedding层
- 3.2 bilstm--编码层
- 3.3 命名实体识别
- 3.4 多头选择的关系抽取模型
- 3.5. Edmonds’ algorithm
Joint entity recognition and relation extraction as a multi-head selection problem
code
abstract
联合实体识别和关系提取的最新模型严重依赖外部自然语言处理(NLP)工具,如词性标记器和依赖解析器。因此,这种联合模型的性能取决于从这些NLP工具中获得的特征的质量。然而,这些特性对于不同的语言和上下文并不总是准确的。在本文中,我们提出了一个联合神经模型,它可以同时进行实体识别和关系提取,不需要任何手动提取的特征或使用任何外部工具。具体地,我们使用CRF(条件随机域)层将实体识别任务和关系提取任务建模为一个多头选择问题。,可能为每个实体标识多个关系)。我们提出了一个广泛的实验设置,以证明我们的方法的有效性使用数据集从不同的上下文(即。、新闻、生物医学、房地产)和语言(即、英语、荷兰)。我们的模型优于之前使用自动提取特征的神经模型,而它在基于特征的神经模型的合理范围内执行,甚至超过了它们
- 转化为多头选择问题
- 同时实体识别和关系识别
- 多重关系
1.introduction
- 管道模型(分开进行)
- 这个问题传统上是作为两个独立的子任务处理的,即(i)命名实体识别(NER) (Nadeau &Sekine, 2007)和(ii)关系提取(RE) (Bach &Badaskar, 2007),在一个管道设置中。管道模型的主要限制是:(i)组件之间的错误传播(即(ii)来自一个任务的可能有用的信息不会被另一个任务利用(例如,识别一个关联的工作可能有助于NER模块检测两个实体的类型,即。, PER, ORG,反之亦然)。另一方面,最近的研究建议使用联合模型来检测实体及其关系,以克服上述问题并实现最先进的性能。
- 问题
- 组件之间错误传播
- 来自一个任务的有用信息不一定会被使用
以前的联合模式严重依赖手工制作的特征。神经网络的最新进展缓解了手工特征工程的问题,但其中一些仍然依赖于NLP工具(如POS标记器、依赖解析器)。
- 关系抽取
- Miwa&Bansal(2016)提出了一种基于递归神经网络(RNN)的联合模型,该模型使用双向顺序LSTM (Long - Short - Term Memory,长短时记忆)对实体进行建模,并使用一种考虑依赖树信息的树-LSTM对实体之间的关系进行建模。依赖项信息是使用外部依赖项解析器提取的。
- 依赖于依赖解析器,依赖解析器在特定语言(英语)和上下文(即、新闻)上表现得特别好——泛化性弱。
- 同样,Li等人(2017)在生物医学文本的实体和关系提取中,采用了同样使用树- lstms的模型来提取依赖信息。
- Gupta等人(2016)提出了一种依赖于RNNs的方法,但是使用了大量手工制作的特性和额外的NLP工具来提取诸如posr -tag等特性。
- (注意,前面的工作是检查实体对的关系提取,而不是直接对整个句子建模。)
- Adel,Schutze(2017)使用卷积神经网络(CNNs)复制实体周围的上下文。这意味着同一句子中其他对实体的关系(可能有助于决定关系类型为特定的一对)不考虑
- Katiyar,Cardie(2017)提出了一种基于LSTMs的神经联合模型,他们一次对整个句子进行建模,但仍然没有一个处理多重关系的原则性方法。
- Bekoulis等人(2018)引入了一个二次评分层来同时对两个任务进行建模。该方法的局限性在于只能将单个关系分配给一个token,而实体识别任务的时间复杂度与线性复杂度的标准方法相比有所增加
- Miwa&Bansal(2016)提出了一种基于递归神经网络(RNN)的联合模型,该模型使用双向顺序LSTM (Long - Short - Term Memory,长短时记忆)对实体进行建模,并使用一种考虑依赖树信息的树-LSTM对实体之间的关系进行建模。依赖项信息是使用外部依赖项解析器提取的。
- 本文贡献
- (i)我们的模型不依赖于外部NLP工具还是手工功能,
- (ii)实体和关系在同一文本片段(通常是一个句子)同时提取,
- (3)一个实体可以参与多个关系
- 与Miwa比,本文想要开发一个能在各种设置中很好概括的模型,因此只使用在训练中学习到的自动提取的特性。——不同的上下文下也用相同的模型,得到了改进。
- 与Adel和Schutze(2017)相比,我们通过一次建模所有实体和句子之间的关系来训练我们的模型。这种类型的推理有助于获得关于相邻实体和关系的信息,而不是每次只检查一对实体。
- 最后,我们解决了Katiyar &Cardie(2017)和Bekoulis等人(2017),他们本质上假定类(即关系)是互斥的:我们通过将关系提取组件描述为一个多标签预测问题来解决这个问题
2. 相关工作
2.1 命名实体识别
在我们的工作中,为了解决端到端关系提取问题,NER是我们首先要解决的任务。许多不同的方法来ner任务提出了
- 基于手工的特性,如
- CRFs(拉弗蒂et al ., 2001),
- 最大利润率马尔可夫网络(Taskar et al ., 2003)和
- 对结构化输出(Tsochantaridis et al ., 2004)的支持向量机(svm),等等。
- 基于CNN和rnn模型的深度学习方法与CRF损失函数相结合(Collobert et al., 2011;黄等,2015;Lample等人,2016;马,霍维,2016)。
- 这些方法在不依赖手工特性的情况下,在公开可用的NER数据集上实现了最先进的性能。
2.2 关系抽取
- 我们将关系提取作为联合模型的第二个任务。关系提取的主要方法
- 依赖于手工特征(Zelenko et al., 2003;Kambhatla, 2004)或神经网络(Socher et al., 2012;曾等,2014)。
- 基于特征的方法侧重于获得有效的手工特征,例如
- 定义kernel函数(Zelenko et al., 2003;Culotta,Sorensen, 2004)和
- 设计词汇、句法、语义特征等(Kambhatla, 2004;Rink&Harabagiu, 2010)。
- 神经网络模型已经被提出来克服手工设计的问题,从而提高性能。
- CNN-(Zeng等,2014;徐等,2015a;dos Santos等人,2015)和
- rnn-based (Socher等人,2013;张,王,2015;Xu等人,2015b)引入了模型来自动提取词汇和句子级特征,从而更深入地理解语言。
- Vu等人(2016)使用集成方案将CNNs和RNNs结合起来,以获得最先进的结果。
2.3 实体关系联合抽取模型
- Feature-based joint models (Kate & Mooney, 2010; Yang & Cardie, 2013; Li & Ji,2014; Miwa & Sasaki, 2014)提出了同时解决实体识别和关系提取(RE)子任务的方法。这些方法依赖于NLP工具(如POS标记器)或手工设计的特性的可用性,因此
- (i)需要额外的数据预处理工作,
- (ii)在NLP工具不可靠的不同应用程序和语言设置中表现较差
- (iii)增加计算复杂度。
- 在本文中,我们引入一个联合神经网络模型来克服上述问题,并自动执行端到端的关系提取,而不需要任何手动的特征工程或使用额外的NLP组件
- 神经网络方法已经被考虑在联合设置(端到端关系提取)中解决这个问题,
- 通常包括使用RNNs和CNNs (Miwa & Bansal, 2016; Zheng et al., 2017; Li et al., 2017)。
- 特别的,Miwa & Bansal(2016)提出使用双向树结构的RNNs来捕获依赖树信息(其中使用最先进的依赖解析器来提取解析树),这已被证明对关系提取是有益的(Xu et al., 2015a,b)。
- Li等人(2017)将Miwa &Bansal的工作应用于生物医学文本,报告了两个生物医学数据集的最新性能。
- Gupta等人(2016)提出在RNNs的同时使用大量手工制作的功能。
- Adel,Schutze(2017)解决了实体分类任务(与NER不同,因为在实体分类中,实体的边界是已知的,只需要预测实体的类型)和关系提取问题,使用了全局规范化目标的近似值(即:它们复制句子的上下文(实体的左右部分),每次向CNN提供一个实体对,以提取关系。因此,他们不会在同一句话中同时推断出其他潜在的实体和关系。
- Katiyar,Cardie(2017)和Bekoulis等人(2018)研究了RNNs,注意在不使用任何依赖解析树特征的情况下提取实体提及之间的关系。
- 我们不一样:
- 不同于Katiyar &Cardie(2017)在这项工作中我们将该问题定义为一个多头选择问题,通过使用sigmoid损失来获得多个关系,并为NER组件使用CRF损失。通过这种方式,我们能够独立地预测不互斥的类,而不是在标记之间分配相等的概率值。
- 我们克服了额外的时间复杂度增加问题(由Bekoulis等人(2018)通过将损失函数分为NER和关系提取组件造成的)。此外,我们可以处理多个关系,而不只是预测单个关系,正如Bekoulis等人(2018)在结构化房地产广告中的应用中所描述的那样。
3.联合模型
在本节中,我们将给出如图1所示的多头关节模型。模型能够同时识别实体(即以及它们之间所有可能的关系。我们将该问题描述为一个扩展了以前工作的多头选择问题(Zhang et al., 2017;(Bekoulis et al., 2018)如2.3节所述。所谓多头,我们的意思是任何特定的实体都可能涉及到与其他实体的多种关系。模型的基本层如下图1所示:
(i)embedding层,
(ii)双向序列LSTM (BiLSTM)层,
(iii) CRF层,
(iv) sigmoid评分层。
- Embedding层
- 输入:句子的token(单词
- 输出:词向量
- BiLSTM层能够为每个通过RNN结构合并上下文的单词提取更复杂的表示。
- 然后CRF和sigmoid层就能够生成这两个任务的输出。
- 每个token的输出(例如,史密斯)是双重的:
- (i)一个实体识别标签(如I-PER,表示命名实体的类型)和
- (2)一组元组组成的头标记实体和它们之间的关系的类型(例如,{(中心工作),(住在亚特兰大)})。
- 由于我们假设了基于标记的编码,所以我们只将实体的最后一个标记作为另一个标记的头部,从而消除了冗余关系。例如,有一个关于实体约翰·史密斯和疾病控制中心之间工作关系。我们只连接Smith和Center,而不连接实体的所有令牌。同样,对于没有关系的情况,我们引入N标签,并预测令牌本身为头部。
3.1 Embedding层
- 输入:一个token序列
- 输出:一个token输出一个word vector
- 方法:
- skip-gram
- word2vec
- 在这项工作中,我们还使用了字符嵌入(character embeddings),因为它们通常应用于神经网络(Ma & Hovy, 2016;Lample等人,2016)。
- 这种类型的嵌入能够捕获前缀和后缀等形态特征。
- eg
- 例如,在不良药物事件(ADE)数据集中,后缀“毒性”可以指定一个不良药物事件实体,如“神经毒性”或“肝毒性”,因此它是非常有用的。
- 另一个例子可能是荷兰语中的后缀“kamer”(英语中的“房间”)荷兰房地产分类(DREC)数据集,用于指定空间实体“badkamer”(英语中的“bathroom”)和“slaapkamer”(英语中的“bedroom”)。
- 字符级嵌入是在training中学习的,类似于Ma & Hovy(2016)和Lample等人(2016)。
- 有效果,有提升
图2说明了基于字嵌入特征的神经网络结构。每个单词的字符由字符向量表示
(即。嵌入的)。将字符嵌入提供给BiLSTM,并将两个最终状态(向前和向后)连接起来。向量wchars是单词的字符级表示。然后将这个向量进一步连接到单词级表示wword2vec,以获得完整的单词嵌入向量
- 字符embedding->bilstm->forward+backward
- wchar+wwordw_{char}+w_{word}wchar+wword–完整的单词嵌入向量
3.2 bilstm–编码层
这项工作中,我们使用了多层的LSTMs(这是一种能够很好地捕获长期依赖关系的特定类型的rns)(Bengio et al., 1994; Pascanu et al.,2013).
- 第i时间步的输出:
3.3 命名实体识别
- –》序列标注问题
- BIO
- 每个token分配一个标记(一个词一个标记)
- 在CRF层,可以看到我们分别指定了B-ORG和I-ORG标记来表示实体“疾病控制中心”的开始和内部标记。
- 在BiLSTM层的顶层,我们使用softmax或CRF层来计算每个令牌的最可能实体标记。
- 我们计算每个令牌wi对每个实体标签的得分:
- 我们仅对实体分类(EC)任务(类似于NER)使用softmax方法,在此任务中,假设边界已知,我们只需预测每个令牌的实体类型(例如PER)。
- CRF方法用于包含实体类型和边界识别的NER任务。
- 尽管假设独立的标记分布有利于实体分类任务(例如,POS标记),但当存在强依赖时时,情况就不一样了
- 具体来说,在NER中,BIO标记方案强制了几个限制(例如,B-LOC不能被I-PER遵循)。softmax方法允许局部决策(即,对于每个令牌的标记wi),即使BiLSTM捕获关于相邻单词的信息。但是,相邻的标记并没有考虑到特定标记的标记决策。
- 例如,在实体中“John Smith”,按PER标记“Smith”有助于确定“John”是B-PER。为此,对于NER,我们使用一个线性链CRF,类似于Lample et al.(2016),在使用CRF时,报告了对∼1% F1 NER点的改进。在我们的例子中,使用CRF我们还报告了一个∼1%的整体性能改进,如表2所示(参见5.2节)。
- 具体来说,在NER中,BIO标记方案强制了几个限制(例如,B-LOC不能被I-PER遵循)。softmax方法允许局部决策(即,对于每个令牌的标记wi),即使BiLSTM捕获关于相邻单词的信息。但是,相邻的标记并没有考虑到特定标记的标记决策。
- CRF的得分(T是转移矩阵)
- 我们使用Viterbi来获得得分最高的标记序列y (e)。
- 我们通过最小化交叉熵损失来训练softmax(用于EC任务)和CRF层(用于NER)。
- 我们还使用实体标签作为输入到我们的关系提取层学习标签嵌入,
- 由Miwa &Bansal(2016)报告了2% F1的改进(使用标签嵌入)。在我们的例子中,标签嵌入导致F1得分增加1%,如表2所示(见5.2节)。
- 下一层的输入是双重的:
- LSTM的输出状态和学习到的标签嵌入表示,
- 对命名实体的知识对关系提取有用的直觉进行编码。
- 在训练期间,我们使用gold实体标记,
- 而在预测时,我们使用预测的实体标记作为下一层的输入。
- 下一层的输入是LSTM的隐藏状态hi(带有令牌wi的标签嵌入gi的拼接:
3.4 多头选择的关系抽取模型
我们将关系提取任务描述为一个多头选择问题(Zhang et al., 2017;(Bekoulis et al., 2018)。
在我们方法的一般公式中,每个令牌wi可以有多个头(即,与其他令牌的多个关系)。
我们预测元组(yi, c_i)其中yi是正面的向量,而c_i是每个令牌wi对应关系的向量。这与之前的依赖分析方法的标准头选择不同(Zhang et al., 2017),因为
(i)它被扩展为预测多个头,
(ii)头的决策和关系是共同做出的(即,而不是先预测正面,然后在下一步使用额外的分类器来预测关系)。
- 输入:给定一个令牌序列w和一组关系标签R作为输入,
- 目标:我们的目标是识别每个令牌的wi, i{0,…, n}最可能正面的向量y i 和最可能对应关系标签r i的向量
- 得分(给定一个标签rk,我们计算令牌wi和wj之间的分数如下:
- 交叉熵损失函数
3.5. Edmonds’ algorithm
通过使用阈值推理,关系树结构不能得到保证。因此,我们应该对我们的模型实施树结构约束。为此,我们使用有向图的Edmonds最大生成树算法(Chu &刘,1965;埃德蒙兹,1967)。构造一个完全连通的有向图G = (V, E),其中顶点V表示标识实体的最后标记(NER预测的),边E表示得分最高的关系,它们的得分作为权重。Edmonds算法适用于阈值推理尚未形成树的情况。