论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)

文章目录

  • abstract
  • 1 introduction
  • 2.方 法
    • 2.1实体关系表(Figure-2)
    • 2.2 The Table Filling Multi-Task RNN Model
    • 2.3 Context-aware TF-MTRNN model
    • 2.4 Piggybacking for Entity-Relation Label Dependencies
    • 2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)
  • 3.Model training
    • 3.1 端到端关系抽取

Gupta, P., et al. (2016). Table filling multi-task recurrent neural network for joint entity and relation extraction. Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers.

abstract

摘要提出了一种新的基于词的语义组合的上下文感知联合实体和词级关系提取方法,提出了一种多任务递归神经网络(TF-MTRNN)模型,将实体识别和关系分类任务简化为表格填充问题,并对它们之间的相关性进行了建模。该神经网络结构能够在不知道句子中对应关系参数的情况下对多个关系实例进行建模。实验结果表明,一种利用候选实体对关联实体之间的标签依赖关系进行建模的简单方法可以提高性能。我们在CoNLL04数据集上展示了最新的结果,实体识别和关系分类分别提高了2.0%和2.7%。

  • 简化为表格填充问题
  • 多任务RNN
  • 对相关性建模
  • 多关系

1 introduction

关系分类的任务是预测带注释的名词对(也称为关系参数)之间的语义关系。这些注释,例如参与关系的命名实体对,通常很难获得。传统方法通常是基于两个独立的子任务的管道:实体识别(ER1)和关系分类(RC),首先检测命名实体,然后执行关系分类检测实体提到,因此忽略了潜在的相互依赖关系和传播错误分类实体识别的关系。这两个子任务一起称为端到端关系提取。
关系分类是一个句子层次的多类分类问题,它通常假定句子中只有一个关系实例。通常认为实体识别影响关系分类,但关系分类不影响实体识别。在这里,我们用实验证据来证明后者是不正确的。例如,在图1中,PER和ORG实体之间存在关系Work For, ORG和LOC之间存在ORGBased,而LOC和LOC实体之间存在ORGBased。相反,对于具有关联关系的给定单词,可以检测候选实体类型。例如,在图2中,对于给定的关系,假设位于,候选实体对是(LOC, LOC)。因此,这两个任务是相互依赖的,通过提出的子任务联合建模和简单的piggybacking方法,优化单一网络,ER和RC对候选实体对的相互依赖关系进行建模,并实现相应的关系。
联合学习方法(Roth和Yih, 2004;Kate和Mooney, 2010)在复杂的多个独立模型上为子任务建立联合模型。(Miwa和Sasaki, 2014)提出了一种联合实体和关系提取方法,使用基于历史的结构化学习和表表示;然而,它们明确地合并实体关系标签的相互依赖性,使用复杂的特性和搜索启发式来填充表。此外,其最先进的方法是结构化预测,而不是基于神经网络框架。然而,递归和卷积神经网络等深度学习方法(Zeng et al., 2014;张,王,2015;Nguyen和Grishman, 2015)对待关系分类是一个句子级的多类分类,依赖于句子中提供的关系参数。因此,它们不能在一个句子中处理多个关系实例,并且不能检测到参与检测到的关系的相应的实体提及对。

  • 以前NN的方法没有多关系
  • 本文贡献
    • 提出了一种新的表格填充多任务递归神经网络
      • 减少了搜索启发式和显式实体和关系标签依赖
      • 多关系
    • 使用一种简单的方法为单词(从每个单词的关联类型派生而来)附带候选命名实体,从而对标签依赖关系进行建模
      • 共享模型参数和表示
  1. 提出了一种新的表格填充多任务递归神经网络,通过统一的多任务递归神经网络对实体识别和关系分类任务进行联合建模。我们使用实体关系表表示来检测单个框架中的实体提及对和对应关系。它减少了联合实体和关系学习中对搜索启发式和显式实体和关系标签依赖的需要。据我们所知,这是首次尝试通过多任务递归神经网络来联合建模实体和关系提取任务之间的相互依赖关系。
    本文提出了一种基于上下文感知的RNN框架的词对合成的句子级关联学习方法。我们的方法相对于最先进的方法,如CNN和RNN,在关系分类上有显著的优势,因为我们不需要标记的名词性,并且可以在一个句子中建模多个关系实例
  2. 有命名实体标签对于发现它们之间的关系类型是非常有用的,反之亦然,有命名实体标签之间的关系类型可以减轻命名实体标签的问题。因此,使用一种简单的方法为单词(从每个单词的关联类型派生而来)附带候选命名实体,从而对标签依赖关系进行建模,从而改进了系统的性能。此外,该网络中的顺序学习方法通过共享模型参数和表示来学习实体和关系标签依赖关系,而不是显式地对它们建模。
  3. 在CoNLL04数据集上,我们的方法在实体识别和关系分类上分别比最先进的方法高出2.0%和2.7%。
    在这里插入图片描述

2.方 法

在这里插入图片描述

2.1实体关系表(Figure-2)

我们采用Miwa和Sasaki(2014)提出的表结构作为模型的主干,如表1所示。这种结构允许对联合实体和关系提取进行优雅的形式化处理,因为实体和关系标签都定义为句子中单词wi和wj之间的二元关系实例。实体标签是这样一个二元关系的i=j,即对角线上的单元格。对于i!=j来说,关系标签是这样一种二元关系,即,非对角单元格。为了消除冗余,我们规定对(wi, wj)的正确标签是关系标签r,当且仅当i !=j, wi=ei,wj=命名实体ej,r(ei, ej)为真。我们引入无关系的特殊符号⊥,即这两个词之间没有关系。
除了为实体和关系标签提供了一个通用的框架之外,表结构的另一个优点是每个句子都可以免费建模多个关系。它只是对应于几个(多个)用对应关系标记的非对角单元格。

2.2 The Table Filling Multi-Task RNN Model

在形式上,对于长度为n的句子,我们的任务是标记(n+1)n/2个空。挑战在于标签的决定是高度相互依赖的。我们采用深度学习方法,因为深度学习模型最近已经成功地在NLP中建模了复杂的依赖关系。更具体地说,我们应用递归神经网络(RNNs) (Elman, 1990;乔丹,1986;由于他们成功地完成了复杂的NLP任务,如机器翻译和推理。
为了应用RNNs,我们将表的单元格按图4所示的顺序排列,并使用(标记或填充)按顺序依次填充单元格。我们将这种方法称为表填充。
更具体地说,我们使用双向架构(Vu et al., 2016b),前向RNN和后向RNN来填充每个单元(i, j),如图3所示。前向RNN提供了历史的表示w1,…wi。反向网络提供了下文的表示wj,…w |s |。图中显示了如何计算关联的命名实体标记。正向RNN如下图所示。hfi是历史的表现,hbj是下文内容的表达。两者都被输入到hi j中,然后hi j预测标签L-ORG。在这种情况下,i =j。关系标签的预测是相似的,除了i!= j时刻。

  • i=j:实体标签
  • i!=j:关系标签
  • 方法:双向RNN
    • -> 前向,前文
    • <-后向,后文
      在这里插入图片描述

我们提出的基于RNN的框架通过共享模型参数和表示形式,将实体和关系提取任务联合建模,以学习它们之间的相关性。如图3所示,我们使用两个独立的输出节点和权重矩阵分别进行实体和关系分类。实体标签赋值给一个词,关系赋值给一个词对;因此,只有来自前向和后向网络的相同单词组成时才会执行EE。

  • 通过共享参数和表示–联合–》学习他们之间的相关性。
    在这里插入图片描述

2.3 Context-aware TF-MTRNN model

在图3中,我们观察到,当单词Association和Va的隐藏表示被组合在一起时,中间的上下文,即在单词对组合中出现的所有单词之间的序列被遗漏了。因此,我们在网络中引入了缺少的上下文的第三个方向(图5)(即在Alexandria中),将完整的上下文累积在组合的隐藏向量中(hi,j)。
在这里插入图片描述

  • 前面只有上文和下文,没有实体之间的context,这里加上。
  • 在这里插入图片描述
    在这里插入图片描述

2.4 Piggybacking for Entity-Relation Label Dependencies

  • 有命名实体标签对于发现它们之间的关系类型是非常有用的,反之亦然,有命名实体标签之间的关系类型可以减轻命名实体标签的问题。在图6的端到端关系提取过程中,我们对这些标签的相互依赖关系进行了建模,其中时间步长t的输入向量为
  • 在这里插入图片描述
    其中CRE是对实体依赖关系建模的计数向量,EER是预测实体对实体依赖关系建模的一个热点向量,Wemb是词嵌入向量。因此,在每个时间步长的输入向量t是这三个向量的串联。

为了将实体建模为关系依赖,TF-MTRNN模型(图6)首先计算实体类型,实体类型由实体-关系表的对角条目表示。将每个预测实体类型EER(填充的蓝色方框)与对应的词嵌入向量Wemb连接,然后输入相同的模型M进行关系分类。
为了对实体依赖关系进行建模,我们派生了一个候选实体标记列表,除了K个关系类型之外,每个词都参与了一个关系。与关系类型相关的每个单词都是由关系分类(RC)步骤确定的(图6)。图7展示了给定句子中每个单词的实体类型计数向量(图1)。例如,单词Alexandria参与了关系类型:ORGBased in和locate in。可能的实体类型是{U-ORG, L-ORG, U-LOC, L-LOC}用于ORGBased In,而{U-LOC, L-LOC}用于locate In。然后我们从这些可能的实体类型计算一个计数向量CRE。因此,U-LOC和L-LOC的出现次数分别为2,U-ORG和L-ORG的出现次数分别为1(图7)。将每个单词的count vector (filledyellow color box)作为候选实体类型,通过将其与对应的单词嵌入向量Wemb连接起来,作为实体学习的M。这种承载候选实体计数向量的简单方法允许从关系到实体学习标签依赖关系,以改进实体提取。此外,通过共享参数和在统一网络中调整共享嵌入实现多任务处理,可以实现学习标签的相互依赖性。

  • 计算实体类型(对角线上)EER
  • EER+Wemb
  • 关系分类
    • 候选实体标记列表
    • 共享参数
      在这里插入图片描述

2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)

排名损失被用于神经架构(多斯桑托斯et al ., 2015)和(Vu et al ., 2016 b)处理人工类。在我们的实验中,对于一个给定的句子x类标签y +,竞争类c-是选择得分最高的在所有竞争类在SGD步骤。基本原理是学习真正的标签之间的距离最大化y +最好的竞争力标签c-对于一个给定的数据点x。我们使用排名处理两个人工类即损失。O和⊥,分别在实体和关系类型。排名目标函数的定义是
在这里插入图片描述

  • set γ+=2,m+=2.5,m−=0.5\gamma^+=2,m^+=2.5,m^-=0.5γ+=2,m+=2.5,m=0.5

3.Model training

3.1 端到端关系抽取

在CoNLL04中,超过99%的单词对属于无关系类。因此,在关系学习中,要求命名实体考生选择候选词对。在图6和图9中,我们演示了用于端到端关系提取的联合和管道方法
在图6中,通过过滤掉非实体对来选择候选关系对。因此,在实体-关系表中,我们没有为非实体对插入任何关系标签,并且RC没有被执行。注意,RC选择了一个词对,其中至少有一个词是实体。它允许模型M通过携带候选命名实体(图7)在NER中纠正自身错误。然而,在图9中,两个独立的模型M1和M2分别为NER和RC进行了训练。在管道方法中,唯一的候选关系是具有(U-, U-)、(L-, L-)或(U-, L-)实体类型的单词对。因此,在RC子任务中,只有w1和w5是按照单词序列在M2中组成的。

  • 大多无关系

  • 生成候选词对

    • 过滤掉非实体对
  • word embedding

    • 50-d预训练词向量(7-gram)

多任务训练是通过在一组训练步骤中切换多个任务来执行的。然而,我们执行开关ER和RC子任务之间基于每一个任务的性能共同验证设置和更新学习速率只有当任务从RC转向ER(图8)。ER是多任务的任务开始和ER / RC切换在接下来的训练步骤,当他们ValidF1分数并不比BestValidF1分数的前面的步骤验证集。

  • (i)我们提出的所有模型元素(POS、CF、CTX、piggybacking、ensemble)都提高了性能,特别是CTX和piggybacking提供了很大的改进。
  • (ii)毫不奇怪,能够访问NER分类的管道RE模型比单独的RE模型表现得更好。
  • (iii)联合模型比单独和流水线模型的性能更好,表明联合训练和解码对联合NER和RE更有优势。
    在这里插入图片描述
  • Word pair Compositions (T-SNE):我们观察到,具有共同关系类型的实体提及对在语义实体关系空间中形成对应于每个关系的簇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Brain】大脑里也有个Transformer!和「海马体」机制相同

来源&#xff1a; 墨玫人工智能【导读】Transformer模型性能强的原因是模拟了人脑&#xff1f;我不能创造的&#xff0c;我也不理解。——费曼想要创造人工智能&#xff0c;首先要理解人类的大脑因何有智能。随着神经网络的诞生及后续的辉煌发展&#xff0c;研究者们一直在为神…

CRF总结

文章目录计算下Z&#xff08;矩阵&#xff09;1.1 一般参数形式1.2 简化形式Z1.3 矩阵形式1.3.2 Z2.维特比算法3.前向算法4.后向算法5.使用前向后向的概率计算6.期望计算7.参数估计&#xff08;学习&#xff09;7.1 梯度上升参考文献CRF 是无向图模型code 它是一个判别式模型建…

CAAI名誉理事长李德毅院士谈机器的生命观

来源&#xff1a;图灵人工智能2022年9月28日上午&#xff0c;为促进人工智能产、学、研、经、用的发展&#xff0c;助力余杭区人民政府建设杭州市人工智能创新发展区&#xff0c;由中国人工智能学会主办的会士系列讲坛—第一期通过线上的形式在余杭区未来科技城成功举办。本次活…

论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)

文章目录abstract1. Introduction2. 相关工作3. Model3.1 Multi-layer Bi-directional Recurrent Network3.2实体检测3.3 attention model3.4 关系检测3.5双向编码4.训练5.实验5.2 evaluation metrics5.3 基线和以前的模型5.4 超参数6.结果Katiyar, A. and C. Cardie (2017). G…

困局中的英伟达:进一步是鲜花,退一步是悬崖

来源&#xff1a; AI前线整理&#xff1a;王强、冬梅看看最近几个月的股价&#xff0c;英伟达的投资者肯定不怎么开心&#xff1a;但如果把时间拉长到 5 年&#xff0c;我们看到的故事似乎又不一样了&#xff1a;2020 年底显然是是一个转折点。很多游戏玩家还清楚地记得&#x…

论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

文章目录abstract1.Introduction2.相关工作3.Model全局归一化层&#xff08;使用线性链CRF)4.实验和分析4.3实验结果总结Adel, H. and H. Schtze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”abstract CNNCRF&g…

特斯拉AI日点不燃仿人机器人的市场热情

来源&#xff1a;科技智谷编辑&#xff1a;Light"仿人机器人的巨大市场蓝海能否兑现&#xff0c;核心还要看产品量产和成本控制。近期&#xff0c;沉寂已久的仿人机器人市场终于迎来了它的“春晚”——特斯拉AI日。根据外媒报道&#xff0c;在9月30日&#xff08;北京时间…

LSTM(序列标注,自实现)

文章目录1.LSTM1.1 单独计算单层LSTM-cell单层LSTMBPTT2.序列标注使用pytorch实现序列标注自实现lstmimport torchimport torch.nn as nndef prepare_sequence(seq, to_ix):idxs [to_ix[w] for w in seq]return torch.tensor(idxs, dtypetorch.long)training_data [("Th…

Science最新:Jeff Gore团队揭示复杂生态系统中涌现的相变

来源&#xff1a;集智俱乐部作者&#xff1a;胡脊梁编辑&#xff1a;邓一雪导语生态学致力于理解自然生态系统中的多样化的物种和复杂的动力学行为&#xff0c;然而科学家长期缺乏描述和预测生物多样性和生态动力学的统一框架。MIT物理系的胡脊梁和Jeff Gore等科学家结合理论和…

强化学习发现矩阵乘法算法,DeepMind再登Nature封面推出AlphaTensor

来源&#xff1a;机器之心 微信公众号DeepMind 的 Alpha 系列 AI 智能体家族又多了一个成员——AlphaTensor&#xff0c;这次是用来发现算法。数千年来&#xff0c;算法一直在帮助数学家们进行基本运算。早在很久之前&#xff0c;古埃及人就发明了一种不需要乘法表就能将两个数…

论文学习18-Relation extraction and the influence of automatic named-entity recognition(联合实体关系抽取模型,2007)

文章目录abstract1.introduction3.问题形式化4.系统架构5. 命名实体识别6.关系抽取&#xff08;核方法&#xff09;6.1global context kernel6.2 local context kernel6.3 shallow linguistic kernel7实验Giuliano, C., et al. “Relation extraction and the influence of aut…

Nature:进化新方式?线粒体DNA会插入我们的基因组

来源&#xff1a;生物通科学家们惊讶地发现&#xff0c;每4000个新生儿中就有一个会将线粒体中的一些遗传密码插入到我们的DNA中&#xff0c;这为人类的进化方式提供了新见解。剑桥大学和伦敦玛丽女王大学的研究人员表明&#xff0c;线粒体DNA也会出现在一些癌症DNA中&#xff…

论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

文章目录abstract1. Introduction2.相关工作3.方法3.1 Bi-LSTM (baseline)3.2BiLSTMCRF3.3 BiLSTM_CRF with pairwise modeling3.4 Approximate Skip-chain CRF5.实验Jagannatha, A. and H. Yu “Structured prediction models for RNN based sequence labeling in clinical te…

「深度学习表情动作单元识别」 最新2022研究综述

来源&#xff1a;专知基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作&#xff0c;其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此&#xff0c;本文将…

为什么物理诺奖颁给量子信息科学?——量子信息的过去、现在和未来

导语10月4日&#xff0c;2022年诺贝尔物理学奖授予 Alain Aspect, John F. Clauser 和 Anton Zeilinger&#xff0c;表彰他们“用纠缠光子实验&#xff0c;验证了量子力学违反贝尔不等式&#xff0c;开创了量子信息科学”。他们的研究为基于量子信息的新技术奠定了基础&#xf…

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL

文章目录abstract1.introduction2.Architecture2.1 CNN for Character-level Representation2.2 BiLSTM2.2.1 LSTM单元2.2.2BiLSTM2.3CRF2.4BiLSTM-CNNs-CRF3.训练Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”abstract 最先进的序列…

可溶解光开关利用光控制神经元

ISTOCK来源&#xff1a;IEEE电气电子工程师大约20年前&#xff0c;出现了一种称为光遗传学的策略&#xff0c;用激光控制大脑活动。它利用病毒将基因插入细胞&#xff0c;使其对光敏感。光遗传学给研究人员提供了一种精确的方法来刺激或抑制大脑回路&#xff0c;并阐明它们在大…

生成式AI无敌了: 大神微调Stable Diffusion,打造神奇宝贝新世界

来源&#xff1a;大数据文摘授权转载自AI科技评论作者&#xff1a;李梅、施方圆编辑&#xff1a;陈彩娴作为一个强大、公开且足够简单的模型&#xff0c;最近大火的 Stable Diffusion 在文本生成图像之外&#xff0c;给了大家无限的创作可能性。最近&#xff0c;来自 Lambda La…

论文学习21-Globally Normalized Transition-Based Neural Networks(2016,标签偏差问题

文章目录abstract1.introduction2.Model2.1 Transition System2.2 全局和局部归一化3.训练3.2标签偏差问题abstract 介绍了一种基于全局规范化转换的神经网络模型&#xff0c;该模型实现了最先进的词性标注、依存分析和句子压缩结果。我们的模型是一个简单的前馈神经网络&#…

推翻单一干细胞理论:哺乳动物大脑中发现了第二种干细胞

来源&#xff1a;生物通在成年哺乳动物的大脑中&#xff0c;神经干细胞保证了新的神经细胞&#xff0c;即神经元的不断形成。这个过程被称为成年神经发生&#xff0c;帮助鼠维持它们的嗅觉。一个研究小组最近在鼠大脑中发现了第二种干细胞群&#xff0c;它主要参与成年鼠嗅球中…