论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录

  • abstract
  • 1.introduction
  • 2. 相关工作
    • 2.1 命名实体识别
    • 2.2 关系抽取
    • 2.3 实体关系联合抽取模型
  • 3.联合模型
    • 3.1 Embedding层
    • 3.2 bilstm--编码层
    • 3.3 命名实体识别
  • 3.4 多头选择的关系抽取模型
    • 3.5. Edmonds’ algorithm

Joint entity recognition and relation extraction as a multi-head selection problem
code

abstract

联合实体识别和关系提取的最新模型严重依赖外部自然语言处理(NLP)工具,如词性标记器和依赖解析器。因此,这种联合模型的性能取决于从这些NLP工具中获得的特征的质量。然而,这些特性对于不同的语言和上下文并不总是准确的。在本文中,我们提出了一个联合神经模型,它可以同时进行实体识别和关系提取,不需要任何手动提取的特征或使用任何外部工具。具体地,我们使用CRF(条件随机域)层将实体识别任务和关系提取任务建模为一个多头选择问题。,可能为每个实体标识多个关系)。我们提出了一个广泛的实验设置,以证明我们的方法的有效性使用数据集从不同的上下文(即。、新闻、生物医学、房地产)和语言(即、英语、荷兰)。我们的模型优于之前使用自动提取特征的神经模型,而它在基于特征的神经模型的合理范围内执行,甚至超过了它们

  • 转化为多头选择问题
  • 同时实体识别和关系识别
  • 多重关系

1.introduction

  • 管道模型(分开进行)
    • 这个问题传统上是作为两个独立的子任务处理的,即(i)命名实体识别(NER) (Nadeau &Sekine, 2007)和(ii)关系提取(RE) (Bach &Badaskar, 2007),在一个管道设置中。管道模型的主要限制是:(i)组件之间的错误传播(即(ii)来自一个任务的可能有用的信息不会被另一个任务利用(例如,识别一个关联的工作可能有助于NER模块检测两个实体的类型,即。, PER, ORG,反之亦然)。另一方面,最近的研究建议使用联合模型来检测实体及其关系,以克服上述问题并实现最先进的性能。
    • 问题
      • 组件之间错误传播
      • 来自一个任务的有用信息不一定会被使用

以前的联合模式严重依赖手工制作的特征。神经网络的最新进展缓解了手工特征工程的问题,但其中一些仍然依赖于NLP工具(如POS标记器、依赖解析器)。

  • 关系抽取
    • Miwa&Bansal(2016)提出了一种基于递归神经网络(RNN)的联合模型,该模型使用双向顺序LSTM (Long - Short - Term Memory,长短时记忆)对实体进行建模,并使用一种考虑依赖树信息的树-LSTM对实体之间的关系进行建模。依赖项信息是使用外部依赖项解析器提取的。
      • 依赖于依赖解析器,依赖解析器在特定语言(英语)和上下文(即、新闻)上表现得特别好——泛化性弱。
    • 同样,Li等人(2017)在生物医学文本的实体和关系提取中,采用了同样使用树- lstms的模型来提取依赖信息。
    • Gupta等人(2016)提出了一种依赖于RNNs的方法,但是使用了大量手工制作的特性和额外的NLP工具来提取诸如posr -tag等特性。
    • (注意,前面的工作是检查实体对的关系提取,而不是直接对整个句子建模。)
    • Adel,Schutze(2017)使用卷积神经网络(CNNs)复制实体周围的上下文。这意味着同一句子中其他对实体的关系(可能有助于决定关系类型为特定的一对)不考虑
    • Katiyar,Cardie(2017)提出了一种基于LSTMs的神经联合模型,他们一次对整个句子进行建模,但仍然没有一个处理多重关系的原则性方法。
    • Bekoulis等人(2018)引入了一个二次评分层来同时对两个任务进行建模。该方法的局限性在于只能将单个关系分配给一个token,而实体识别任务的时间复杂度与线性复杂度的标准方法相比有所增加
  • 本文贡献
    • (i)我们的模型不依赖于外部NLP工具还是手工功能,
    • (ii)实体和关系在同一文本片段(通常是一个句子)同时提取,
    • (3)一个实体可以参与多个关系
    • 与Miwa比,本文想要开发一个能在各种设置中很好概括的模型,因此只使用在训练中学习到的自动提取的特性。——不同的上下文下也用相同的模型,得到了改进。
    • 与Adel和Schutze(2017)相比,我们通过一次建模所有实体和句子之间的关系来训练我们的模型。这种类型的推理有助于获得关于相邻实体和关系的信息,而不是每次只检查一对实体。
    • 最后,我们解决了Katiyar &Cardie(2017)和Bekoulis等人(2017),他们本质上假定类(即关系)是互斥的:我们通过将关系提取组件描述为一个多标签预测问题来解决这个问题

2. 相关工作

2.1 命名实体识别

在我们的工作中,为了解决端到端关系提取问题,NER是我们首先要解决的任务。许多不同的方法来ner任务提出了

  • 基于手工的特性,如
    • CRFs(拉弗蒂et al ., 2001),
    • 最大利润率马尔可夫网络(Taskar et al ., 2003)和
    • 对结构化输出(Tsochantaridis et al ., 2004)的支持向量机(svm),等等。
  • 基于CNN和rnn模型的深度学习方法与CRF损失函数相结合(Collobert et al., 2011;黄等,2015;Lample等人,2016;马,霍维,2016)。
  • 这些方法在不依赖手工特性的情况下,在公开可用的NER数据集上实现了最先进的性能。

2.2 关系抽取

  • 我们将关系提取作为联合模型的第二个任务。关系提取的主要方法
    • 依赖于手工特征(Zelenko et al., 2003;Kambhatla, 2004)或神经网络(Socher et al., 2012;曾等,2014)。
    • 基于特征的方法侧重于获得有效的手工特征,例如
      • 定义kernel函数(Zelenko et al., 2003;Culotta,Sorensen, 2004)和
      • 设计词汇、句法、语义特征等(Kambhatla, 2004;Rink&Harabagiu, 2010)。
    • 神经网络模型已经被提出来克服手工设计的问题,从而提高性能。
      • CNN-(Zeng等,2014;徐等,2015a;dos Santos等人,2015)和
      • rnn-based (Socher等人,2013;张,王,2015;Xu等人,2015b)引入了模型来自动提取词汇和句子级特征,从而更深入地理解语言。
      • Vu等人(2016)使用集成方案将CNNs和RNNs结合起来,以获得最先进的结果。

2.3 实体关系联合抽取模型

  • Feature-based joint models (Kate & Mooney, 2010; Yang & Cardie, 2013; Li & Ji,2014; Miwa & Sasaki, 2014)提出了同时解决实体识别和关系提取(RE)子任务的方法。这些方法依赖于NLP工具(如POS标记器)或手工设计的特性的可用性,因此
    • (i)需要额外的数据预处理工作,
    • (ii)在NLP工具不可靠的不同应用程序和语言设置中表现较差
    • (iii)增加计算复杂度。
  • 在本文中,我们引入一个联合神经网络模型来克服上述问题,并自动执行端到端的关系提取,而不需要任何手动的特征工程或使用额外的NLP组件
  • 神经网络方法已经被考虑在联合设置(端到端关系提取)中解决这个问题,
    • 通常包括使用RNNs和CNNs (Miwa & Bansal, 2016; Zheng et al., 2017; Li et al., 2017)。
    • 特别的,Miwa & Bansal(2016)提出使用双向树结构的RNNs来捕获依赖树信息(其中使用最先进的依赖解析器来提取解析树),这已被证明对关系提取是有益的(Xu et al., 2015a,b)。
    • Li等人(2017)将Miwa &Bansal的工作应用于生物医学文本,报告了两个生物医学数据集的最新性能。
    • Gupta等人(2016)提出在RNNs的同时使用大量手工制作的功能。
    • Adel,Schutze(2017)解决了实体分类任务(与NER不同,因为在实体分类中,实体的边界是已知的,只需要预测实体的类型)和关系提取问题,使用了全局规范化目标的近似值(即:它们复制句子的上下文(实体的左右部分),每次向CNN提供一个实体对,以提取关系。因此,他们不会在同一句话中同时推断出其他潜在的实体和关系。
    • Katiyar,Cardie(2017)和Bekoulis等人(2018)研究了RNNs,注意在不使用任何依赖解析树特征的情况下提取实体提及之间的关系。
  • 我们不一样:
    • 不同于Katiyar &Cardie(2017)在这项工作中我们将该问题定义为一个多头选择问题,通过使用sigmoid损失来获得多个关系,并为NER组件使用CRF损失。通过这种方式,我们能够独立地预测不互斥的类,而不是在标记之间分配相等的概率值。
    • 我们克服了额外的时间复杂度增加问题(由Bekoulis等人(2018)通过将损失函数分为NER和关系提取组件造成的)。此外,我们可以处理多个关系,而不只是预测单个关系,正如Bekoulis等人(2018)在结构化房地产广告中的应用中所描述的那样。
      在这里插入图片描述

3.联合模型

在这里插入图片描述
在本节中,我们将给出如图1所示的多头关节模型。模型能够同时识别实体(即以及它们之间所有可能的关系。我们将该问题描述为一个扩展了以前工作的多头选择问题(Zhang et al., 2017;(Bekoulis et al., 2018)如2.3节所述。所谓多头,我们的意思是任何特定的实体都可能涉及到与其他实体的多种关系。模型的基本层如下图1所示:
(i)embedding层,
(ii)双向序列LSTM (BiLSTM)层,
(iii) CRF层,
(iv) sigmoid评分层。

  • Embedding层
    • 输入:句子的token(单词
    • 输出:词向量
  • BiLSTM层能够为每个通过RNN结构合并上下文的单词提取更复杂的表示。
  • 然后CRF和sigmoid层就能够生成这两个任务的输出。
  • 每个token的输出(例如,史密斯)是双重的:
  • (i)一个实体识别标签(如I-PER,表示命名实体的类型)和
  • (2)一组元组组成的头标记实体和它们之间的关系的类型(例如,{(中心工作),(住在亚特兰大)})。
  • 由于我们假设了基于标记的编码,所以我们只将实体的最后一个标记作为另一个标记的头部,从而消除了冗余关系。例如,有一个关于实体约翰·史密斯和疾病控制中心之间工作关系。我们只连接Smith和Center,而不连接实体的所有令牌。同样,对于没有关系的情况,我们引入N标签,并预测令牌本身为头部。

3.1 Embedding层

  • 输入:一个token序列
  • 输出:一个token输出一个word vector
  • 方法:
    • skip-gram
    • word2vec
  • 在这项工作中,我们还使用了字符嵌入(character embeddings),因为它们通常应用于神经网络(Ma & Hovy, 2016;Lample等人,2016)。
    • 这种类型的嵌入能够捕获前缀和后缀等形态特征。
    • eg
      • 例如,在不良药物事件(ADE)数据集中,后缀“毒性”可以指定一个不良药物事件实体,如“神经毒性”或“肝毒性”,因此它是非常有用的。
      • 另一个例子可能是荷兰语中的后缀“kamer”(英语中的“房间”)荷兰房地产分类(DREC)数据集,用于指定空间实体“badkamer”(英语中的“bathroom”)和“slaapkamer”(英语中的“bedroom”)。
    • 字符级嵌入是在training中学习的,类似于Ma & Hovy(2016)和Lample等人(2016)。
    • 有效果,有提升

图2说明了基于字嵌入特征的神经网络结构。每个单词的字符由字符向量表示
(即。嵌入的)。将字符嵌入提供给BiLSTM,并将两个最终状态(向前和向后)连接起来。向量wchars是单词的字符级表示。然后将这个向量进一步连接到单词级表示wword2vec,以获得完整的单词嵌入向量

  • 字符embedding->bilstm->forward+backward
  • wchar+wwordw_{char}+w_{word}wchar+wword–完整的单词嵌入向量

3.2 bilstm–编码层

这项工作中,我们使用了多层的LSTMs(这是一种能够很好地捕获长期依赖关系的特定类型的rns)(Bengio et al., 1994; Pascanu et al.,2013).

  • 第i时间步的输出:在这里插入图片描述

3.3 命名实体识别

  • –》序列标注问题
  • BIO
  • 每个token分配一个标记(一个词一个标记)
  • 在CRF层,可以看到我们分别指定了B-ORG和I-ORG标记来表示实体“疾病控制中心”的开始和内部标记。
  • 在BiLSTM层的顶层,我们使用softmax或CRF层来计算每个令牌的最可能实体标记。
  • 我们计算每个令牌wi对每个实体标签的得分:
    在这里插入图片描述在这里插入图片描述
  • 我们仅对实体分类(EC)任务(类似于NER)使用softmax方法,在此任务中,假设边界已知,我们只需预测每个令牌的实体类型(例如PER)。
  • CRF方法用于包含实体类型和边界识别的NER任务。
  • 尽管假设独立的标记分布有利于实体分类任务(例如,POS标记),但当存在强依赖时时,情况就不一样了
    • 具体来说,在NER中,BIO标记方案强制了几个限制(例如,B-LOC不能被I-PER遵循)。softmax方法允许局部决策(即,对于每个令牌的标记wi),即使BiLSTM捕获关于相邻单词的信息。但是,相邻的标记并没有考虑到特定标记的标记决策。
      • 例如,在实体中“John Smith”,按PER标记“Smith”有助于确定“John”是B-PER。为此,对于NER,我们使用一个线性链CRF,类似于Lample et al.(2016),在使用CRF时,报告了对∼1% F1 NER点的改进。在我们的例子中,使用CRF我们还报告了一个∼1%的整体性能改进,如表2所示(参见5.2节)。
  • CRF的得分(T是转移矩阵)
  • 在这里插入图片描述在这里插入图片描述
  • 我们使用Viterbi来获得得分最高的标记序列y (e)。
  • 我们通过最小化交叉熵损失来训练softmax(用于EC任务)和CRF层(用于NER)。
  • 我们还使用实体标签作为输入到我们的关系提取层学习标签嵌入,
    • 由Miwa &Bansal(2016)报告了2% F1的改进(使用标签嵌入)。在我们的例子中,标签嵌入导致F1得分增加1%,如表2所示(见5.2节)。
  • 下一层的输入是双重的:
    • LSTM的输出状态和学习到的标签嵌入表示,
    • 对命名实体的知识对关系提取有用的直觉进行编码。
    • 在训练期间,我们使用gold实体标记,
    • 而在预测时,我们使用预测的实体标记作为下一层的输入。
    • 下一层的输入是LSTM的隐藏状态hi(带有令牌wi的标签嵌入gi的拼接:在这里插入图片描述

3.4 多头选择的关系抽取模型

我们将关系提取任务描述为一个多头选择问题(Zhang et al., 2017;(Bekoulis et al., 2018)。
在我们方法的一般公式中,每个令牌wi可以有多个头(即,与其他令牌的多个关系)。
我们预测元组(yi, c_i)其中yi是正面的向量,而c_i是每个令牌wi对应关系的向量。这与之前的依赖分析方法的标准头选择不同(Zhang et al., 2017),因为
(i)它被扩展为预测多个头,
(ii)头的决策和关系是共同做出的(即,而不是先预测正面,然后在下一步使用额外的分类器来预测关系)。

  • 输入:给定一个令牌序列w和一组关系标签R作为输入,
  • 目标:我们的目标是识别每个令牌的wi, i{0,…, n}最可能正面的向量y i 和最可能对应关系标签r i的向量
  • 得分(给定一个标签rk,我们计算令牌wi和wj之间的分数如下:
  • 在这里插入图片描述 在这里插入图片描述
  • 交叉熵损失函数
    在这里插入图片描述

3.5. Edmonds’ algorithm

通过使用阈值推理,关系树结构不能得到保证。因此,我们应该对我们的模型实施树结构约束。为此,我们使用有向图的Edmonds最大生成树算法(Chu &刘,1965;埃德蒙兹,1967)。构造一个完全连通的有向图G = (V, E),其中顶点V表示标识实体的最后标记(NER预测的),边E表示得分最高的关系,它们的得分作为权重。Edmonds算法适用于阈值推理尚未形成树的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481580.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源:AI科技评论作者:李梅、黄楠编辑:陈彩娴AI 作画很牛,但它并不理解图像背后的世界。自从 DALL-E 2 问世以来,很多人都认为,能够绘制逼真图像的 AI 是迈向通用人工智能(AGI)的一大…

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录1. introduction2.相关工作3.Model3.1 Joint learning as head selection3.2 AT4.实验设置5.结果6.总结实体关系抽取模型对抗学习. 论文链接 code Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” ar…

【前沿技术】美国脑计划2.0!投5亿美元,绘制史上最全人脑地图

来源:智能研究院【新智元导读】今天,脑科学计划宣布启动的「细胞图谱网络项目」,目标是绘制世界上最全面的人类大脑细胞图谱。这种雄心,堪比当年的人类基因组计划。今天,美国国立卫生研究院(NIH&#xff09…

HMM总结

文章目录4.HMM-->CRF4.1 HMM--是个序列4.1.1 推断问题(evaluate)4.1.2 viterbi decoding解码4.1.3 学习,参数估计4.1.4计算实例4.1.5 EM(baum-welch算法)的上溢出和下溢出概率图模型code4.HMM–>CRF 4.1 HMM–是个序列 x-观测到的条件…

南科大本科生在《物理评论快报》发文,实现由不定因果序驱动的量子冰箱

来源:FUTURE远见选编:FUTURE | 远见 闵青云 近日,南方科技大学物理系师生在实验中实现了由不定因果序驱动的量子冰箱。相关成果以「Experimental realization of a quantum refrigerator driven by indefinite causal orders」为题发表在《物…

论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF

文章目录abstract1.introduction1.2 条件模型2.标签偏差问题3.CRF提出条件随机场CRF abstract 我们提出了条件随机场,这是一个建立概率模型来分割和标记序列数据的框架。相对于隐马尔可夫模型和随机语法,条件随机场在这类任务中有几个优势,…

杨振宁六大数理工作赏析 | 祝贺杨先生百岁华诞

来源:返朴撰文:林开亮我的物理学界同事大多对数学采取功利主义的态度。也许因为受我父亲的影响,我较为欣赏数学。我欣赏数学家的价值观,钦佩数学的优美和力量:它既有战术上的随机应变,又有战略上的深谋远虑…

论文学习13Reconstructing the house from the ad: Structured prediction on real estate classifieds(实体关系抽取)

文章目录abstractIntroduction2. 相关工作3.房地产结构预测3.1问题形式化3.2 结构预测模型3.2.1 序列标注问题3.2.2 part-of tree constructLocally trained model (Threshold/Edmonds)Globally trained model (MTT)Transition-based dependency parsing (TB)4.实验5.pipeline总…

优化|深度学习或强化学习在组合优化方面有哪些应用?

来源:图灵人工智能前 言深度强化学习求解组合优化问题近年来受到广泛关注,是由于其结合了强化学习(Reinforcement learning)强大的决策(decision-making)能力和深度学习(deep learning)的各种模型(RNN、Transformer、GNN等等)强大的信息提取表征能力(r…

论文学习14-End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(端到端实体关系抽取)

文章目录abstract1.introduction2.相关工作3.model3.1嵌入层3.2 序列层3.3实体检测3.4 依赖层3.5 Stacking Sequence and Dependency Layers3.6关系分类3.7 训练4 实验总结本文:Miwa, M. and M. Bansal “End-to-End Relation Extraction using LSTMs on Sequences …

人工智能在基因组学市场增长机会以及整个基因组学领域的最新技术

来源:ScienceAI编译:萝卜皮人工智能等最新技术浪潮已经触及几乎所有行业和企业的海岸。基因组学领域也不例外。在 2020-2030 年的评估期内,最新技术在基因组学领域的日益普及将被证明是基因组学市场人工智能的主要增长贡献者。基因组学可以定…

论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)

文章目录abstract1 introduction2.方 法2.1实体关系表(Figure-2)2.2 The Table Filling Multi-Task RNN Model2.3 Context-aware TF-MTRNN model2.4 Piggybacking for Entity-Relation Label Dependencies2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)3.Mode…

【Brain】大脑里也有个Transformer!和「海马体」机制相同

来源: 墨玫人工智能【导读】Transformer模型性能强的原因是模拟了人脑?我不能创造的,我也不理解。——费曼想要创造人工智能,首先要理解人类的大脑因何有智能。随着神经网络的诞生及后续的辉煌发展,研究者们一直在为神…

CRF总结

文章目录计算下Z(矩阵)1.1 一般参数形式1.2 简化形式Z1.3 矩阵形式1.3.2 Z2.维特比算法3.前向算法4.后向算法5.使用前向后向的概率计算6.期望计算7.参数估计(学习)7.1 梯度上升参考文献CRF 是无向图模型code 它是一个判别式模型建…

CAAI名誉理事长李德毅院士谈机器的生命观

来源:图灵人工智能2022年9月28日上午,为促进人工智能产、学、研、经、用的发展,助力余杭区人民政府建设杭州市人工智能创新发展区,由中国人工智能学会主办的会士系列讲坛—第一期通过线上的形式在余杭区未来科技城成功举办。本次活…

论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)

文章目录abstract1. Introduction2. 相关工作3. Model3.1 Multi-layer Bi-directional Recurrent Network3.2实体检测3.3 attention model3.4 关系检测3.5双向编码4.训练5.实验5.2 evaluation metrics5.3 基线和以前的模型5.4 超参数6.结果Katiyar, A. and C. Cardie (2017). G…

困局中的英伟达:进一步是鲜花,退一步是悬崖

来源: AI前线整理:王强、冬梅看看最近几个月的股价,英伟达的投资者肯定不怎么开心:但如果把时间拉长到 5 年,我们看到的故事似乎又不一样了:2020 年底显然是是一个转折点。很多游戏玩家还清楚地记得&#x…

论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

文章目录abstract1.Introduction2.相关工作3.Model全局归一化层(使用线性链CRF)4.实验和分析4.3实验结果总结Adel, H. and H. Schtze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”abstract CNNCRF&g…

特斯拉AI日点不燃仿人机器人的市场热情

来源:科技智谷编辑:Light"仿人机器人的巨大市场蓝海能否兑现,核心还要看产品量产和成本控制。近期,沉寂已久的仿人机器人市场终于迎来了它的“春晚”——特斯拉AI日。根据外媒报道,在9月30日(北京时间…

LSTM(序列标注,自实现)

文章目录1.LSTM1.1 单独计算单层LSTM-cell单层LSTMBPTT2.序列标注使用pytorch实现序列标注自实现lstmimport torchimport torch.nn as nndef prepare_sequence(seq, to_ix):idxs [to_ix[w] for w in seq]return torch.tensor(idxs, dtypetorch.long)training_data [("Th…