论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

文章目录

  • abstract
  • 1.Introduction
  • 2.相关工作
  • 3.Model
    • 全局归一化层(使用线性链CRF)
  • 4.实验和分析
    • 4.3实验结果
  • 总结

Adel, H. and H. Schütze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”

abstract

  • CNN+CRF>CNN+softmax

引入全局归一化卷积神经网络进行联合实体分类和关系提取。特别地,我们提出了一种利用线性链条件随机场输出层同时预测实体类型和实体之间关系的方法。实验结果表明,在基准数据集上,全局规格化的性能优于局部规格化的softmax层。

1.Introduction

  • 命名实体类型和关系通常是相互依赖的。如果实体的类型已知,则它们之间可能的关系的搜索空间可以减少,反之亦然。
  • 用CRF的损失函数训练我们的NN参数

在这里插入图片描述

与之前的工作不同,我们将联合实体和关系分类问题建模为CRF层长度为3的序列。特别地,我们识别给定句子的两个候选实体(单词或短语)的类型(我们称之为实体分类,以将其与标记任务NER区分开来)以及它们之间的关系。就我们所知,这种将实体分类和关系分类结合在一个神经网络中的结构是新颖的。图1显示了我们如何对任务建模的示例:对于每个句子,都标识了候选实体。然后,候选实体(查询实体对)的每个可能组合形成我们模型的输入,该模型预测两个查询实体的类以及它们之间的关系。

  • 句子->CRF层长度为3的序列
  • 我们:
    1. 对每个句子标示候选实体
    2. 候选实体排列组合形成模型输入
    3. 预测两个查询实体的类及其关系
  • 任务:实体分类+关系分类(联合进行)
  • 证明CNN+CRF > CNN+softmax
  • 输入:单词的嵌入
  • 首次使用NN的全局规格化
  • 使用线性链CRF

2.相关工作

一些关于联合实体和关系分类的工作使用远程监控来构建他们自己的数据集,例如,(Yao et al., 2010;Yaghoobzadeh等人,2016)。其他的研究,这些将在下面详细描述,使用来自(Roth和Yih, 2004, 2007)的实体和关系识别(ERR)数据集,正如我们在本文中所做的。
Roth和Yih(2004)开发了约束,并使用线性规划对实体类型和关系进行全局规范化。
Giuliano等人(2007)使用实体类型信息进行关系提取,但不同时训练两个任务。
Kate和Mooney(2010)训练特定于任务的支持向量机,并开发一个卡片金字塔解析算法来联合建模这两个任务。
Miwa和Sasaki(2014)使用相同的数据集,但将任务建模为表填充问题(参见4.2节)。他们的模型同时使用局部和全局评分函数。
最近,Gupta等人(2016)应用递归神经网络来填充表格。他们以多任务的方式训练他们。
以前的工作还使用了各种语言特性,如词性标记。
相反,我们使用卷积神经网络,只使用单词嵌入作为输入。在此基础上,我们首次采用神经网络的全局规格化方法。
一些研究提出了用于信息提取任务的非神经CRF模型的不同变体,但将它们建模为标记标记问题(Sutton和McCallum, 2006;Sarawagi等人,2004;Culotta等人,2006;朱等,2005;彭和麦卡勒姆,2006)。
**CRF:**相比之下,我们提出了一个更简单的线性链CRF模型,它直接连接实体和关系类,而不是为输入序列的每个标记分配一个标签。这与Yao等人(2010)的因素图更相似,但在计算上更简单。徐和Sarikaya(2013)也在CNN获得的连续表示法上应用了CRF层。然而,他们将其用于标记任务(语义槽填充),而我们将该模型应用于句子分类任务,其动机是CNN为整个短语或句子创建单个表示。

3.Model

在这里插入图片描述

输入。给定一个输入语句和两个查询实体,我们的模型识别实体的类型和它们之间的关系;参见图1。输入标记由word2vec在Wikipedia上训练的词嵌入表示(Mikolov等人,2013)。为了识别一个实体ek的类,模型使用它左边的上下文、组成ek的单词和它右边的上下文。为了区分两个实体ei和ej之间的关系,这个句子被分成六个部分:ei的左边,ei的右边,ei的右边,ej的左边,ej的右边,ej的右边。对于图1中的示例句子和实体对(Anderson, chief),上下文分割是:[][Anderson] [, 41, was the chief Middle…41岁的安德森是《纽约时报》驻中东记者。

  • 输入:划分为5部分:ei的左边,ei的右边,ei的右边,ej的左边,ej的右边,ej的右边。
  • 句子表示:CNN得到句子表示,2个CNN层(实体和上下文的)

句子表示。为了表示输入句子的不同部分,我们使用了卷积神经网络(CNNs)。CNNs适用于RE,因为关系通常由整个短语或句子的语义来表示。此外,它们在之前的工作中已经证明对RE有效(Vu et al., 2016)。我们训练一个CNN层用于卷积实体,另一个用于上下文。使用两个CNN层而不是一个,使我们的模型更加灵活。由于实体通常比上下文短,因此实体的筛选器宽度可以比上下文小。此外,该体系结构简化了将实体表示从单词转换为字符的工作。
在卷积之后,我们对实体和上下文应用k-max池,并将结果连接起来。拼接后的向量c_z∈R^{C_z}, z∈{EC, RE}转发给尺寸为Hz的任务特定隐含层,该隐含层跨不同输入部分学习模式:

在这里插入图片描述

全局归一化层(使用线性链CRF)

  • 一个线性层

对于全局归一化,我们采用Lample等(2016)的线性链CRF层。它期望不同的班级的分数作为输入。因此,我们首先应用一个线性层,将表示hz∈RHz映射到输出类N = N_{EC} +N_{RE}大小的向量vz:
在这里插入图片描述

  • 用这个来建模

对于句子分类任务,CRF层的输入序列不是很清楚。因此,我们建议使用以下分数序列来建模联合实体和关系分类问题(cf.,图2)
在这里插入图片描述

  • 联合概率
    • 我们的直觉是,关系与实体之间的依赖关系要强于实体与实体之间的依赖关系
      在这里插入图片描述
  • 分数
    • CRF层用开始和结束标记填充其长度为n = 3的输入,并为一系列预测y计算如下分数:
    • :Qk,l为k类到l类的过渡分数,dp为q类在序列p位置的分数
    • 因为CRF层的所有变量都在log空间中,所以对分数进行求和。
      在这里插入图片描述
  • 前向算法
    • 向前算法计算所有可能的标签序列Y的分数得到正确的标签序列的对数概率ˆY
      在这里插入图片描述
  • test:用维特比得到序列
    在这里插入图片描述

4.实验和分析

N-没关系

设置1:实体对关系。罗斯和Yih (2004,2007);Kate和Mooney(2010)在ERR数据集上分别训练EC和RE模型。对于RE,它们仅标识命名实体对之间的关系。在这个设置中,模型的查询实体只是命名实体对。注意,这有利于EC在我们的实验。
设置2:表填充。继Miwa和Sasaki(2014)之后;Gupta等人(2016)也将EC和RE的联合任务建模为填表任务。对于长度为m的句子,我们创建一个二次表。Cell (i, j)包含单词i和单词j之间的关系(没有关系的单词为N)。一个对角单元格(k, k)包含单词k的实体类型。根据前面的工作,我们只预测表的一半的类,即m(m + 1)/2个单元格。图3显示了图1中的示例句子的表。在这个设置中,i = j的每个单元格(i, j)都是模型的一个单独输入查询。我们的模型输出对单元格(i, j) (i和j之间的关系)的预测和对单元格(i, i)和(j, j) (i和j的类型)的预测。第4.4节表明,在几乎所有情况下,个人的预测都与多数票一致
设置3:没有实体边界的表填充。来自setup 2的表包含每个多令牌实体的一个行/列,利用ERR数据集的给定实体边界。为了研究实体边界对分类结果的影响,我们还考虑了另一个表填充设置,在这个设置中,我们忽略边界并为每个标记分配一个行/列。请注意,这种设置也用于以前的表格填充工作(Miwa和Sasaki, 2014;Gupta等人,2016)。对于评估,我们遵循Gupta等人(2016)的方法,如果一个多标记实体中至少有一个标记是正确的,我们就对其进行评分
比较。setup 1和setup 2之间最重要的区别是没有关系的实体对的数量(test set:≈3k for setup 1,≈121k for setup 2),这使得setup 2更具挑战性。同样适用于setup 3,它考虑与setup 2相同数量的没有关系的实体对。为了解决这个问题,我们在setup 2和setup 3的训练集中随机抽样了一些负面的实例。Setup 3考虑最多的查询由于多令牌实体被分割为包含它们的令牌,所以它们总共对实体进行了分组。但是,setup 3比setup 1或setup 2更符合实际,因为在大多数情况下,实体边界没有给出。为了将setup 1或setup 2应用到另一个没有实体边界的数据集,需要一个预处理步骤,例如实体边界识别或分块。

4.3实验结果

表1显示了全局规范化模型与局部规范化softmax输出层(一个用于EC,一个用于RE)的模型的比较结果。对于setup 1, CRF层的性能与softmax层相当或更好。对于setup 2和setup 3,改进更加明显。我们假设在表填充的情况下,模型可以从全局规范化中获得更多的好处,因为它是更具挑战性的设置。设置2和设置3之间的比较表明,该实体分类患有没有实体边界(在设置3)。一个原因可能是,该模型不能令牌卷积multi-token实体的映射进行了计算实体时表示如图2 B和D(上下文)。然而,分类性能相当的关系设置2和设置3。这表明该模型可以在内部解释由于缺少实体边界而可能出现的错误实体分类结果。
总的结果(Avg EC+RE)的CRF比结果的软max层所有三种设置。综上所述,线性链CRF的改进表明:(i)联合EC和RE受益于全局正规化;(ii)我们为关节EC和RE创建CRF输入序列的方法是有效的。

我们的结果是最好的可比(Gupta等人,2016),因为我们使用相同的设置和训练分割。然而,他们的模型更复杂,有许多手工制作的特性和实体和关系类之间的建模依赖的各种迭代。相反,我们只使用预先训练好的词嵌入,并且只对每个实体对进行一次迭代来训练我们的模型。当我们与没有附加特征的模型进行比较时(G et al. 2016(2)),我们的模型对EC表现较差,但对RE表现较好,对Avg EC+RE可比较。

总结

在这篇论文中,我们首次研究了一个句子分类任务的神经网络的全局规格化,而没有将其转化为一个标记标记问题。我们在联合实体和关系分类上训练了一个具有线性链条件随机场输出层的卷积神经网络,并证明了它在局部归一化softmax层上的性能。一个有趣的未来方向是对线性链CRF的扩展,以联合规范化单个模型遍历表填充的所有预测。此外,我们计划在未来的工作中在其他数据集上验证我们的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

特斯拉AI日点不燃仿人机器人的市场热情

来源:科技智谷编辑:Light"仿人机器人的巨大市场蓝海能否兑现,核心还要看产品量产和成本控制。近期,沉寂已久的仿人机器人市场终于迎来了它的“春晚”——特斯拉AI日。根据外媒报道,在9月30日(北京时间…

LSTM(序列标注,自实现)

文章目录1.LSTM1.1 单独计算单层LSTM-cell单层LSTMBPTT2.序列标注使用pytorch实现序列标注自实现lstmimport torchimport torch.nn as nndef prepare_sequence(seq, to_ix):idxs [to_ix[w] for w in seq]return torch.tensor(idxs, dtypetorch.long)training_data [("Th…

Science最新:Jeff Gore团队揭示复杂生态系统中涌现的相变

来源:集智俱乐部作者:胡脊梁编辑:邓一雪导语生态学致力于理解自然生态系统中的多样化的物种和复杂的动力学行为,然而科学家长期缺乏描述和预测生物多样性和生态动力学的统一框架。MIT物理系的胡脊梁和Jeff Gore等科学家结合理论和…

强化学习发现矩阵乘法算法,DeepMind再登Nature封面推出AlphaTensor

来源:机器之心 微信公众号DeepMind 的 Alpha 系列 AI 智能体家族又多了一个成员——AlphaTensor,这次是用来发现算法。数千年来,算法一直在帮助数学家们进行基本运算。早在很久之前,古埃及人就发明了一种不需要乘法表就能将两个数…

论文学习18-Relation extraction and the influence of automatic named-entity recognition(联合实体关系抽取模型,2007)

文章目录abstract1.introduction3.问题形式化4.系统架构5. 命名实体识别6.关系抽取(核方法)6.1global context kernel6.2 local context kernel6.3 shallow linguistic kernel7实验Giuliano, C., et al. “Relation extraction and the influence of aut…

Nature:进化新方式?线粒体DNA会插入我们的基因组

来源:生物通科学家们惊讶地发现,每4000个新生儿中就有一个会将线粒体中的一些遗传密码插入到我们的DNA中,这为人类的进化方式提供了新见解。剑桥大学和伦敦玛丽女王大学的研究人员表明,线粒体DNA也会出现在一些癌症DNA中&#xff…

论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

文章目录abstract1. Introduction2.相关工作3.方法3.1 Bi-LSTM (baseline)3.2BiLSTMCRF3.3 BiLSTM_CRF with pairwise modeling3.4 Approximate Skip-chain CRF5.实验Jagannatha, A. and H. Yu “Structured prediction models for RNN based sequence labeling in clinical te…

「深度学习表情动作单元识别」 最新2022研究综述

来源:专知基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作,其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此,本文将…

为什么物理诺奖颁给量子信息科学?——量子信息的过去、现在和未来

导语10月4日,2022年诺贝尔物理学奖授予 Alain Aspect, John F. Clauser 和 Anton Zeilinger,表彰他们“用纠缠光子实验,验证了量子力学违反贝尔不等式,开创了量子信息科学”。他们的研究为基于量子信息的新技术奠定了基础&#xf…

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL

文章目录abstract1.introduction2.Architecture2.1 CNN for Character-level Representation2.2 BiLSTM2.2.1 LSTM单元2.2.2BiLSTM2.3CRF2.4BiLSTM-CNNs-CRF3.训练Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”abstract 最先进的序列…

可溶解光开关利用光控制神经元

ISTOCK来源:IEEE电气电子工程师大约20年前,出现了一种称为光遗传学的策略,用激光控制大脑活动。它利用病毒将基因插入细胞,使其对光敏感。光遗传学给研究人员提供了一种精确的方法来刺激或抑制大脑回路,并阐明它们在大…

生成式AI无敌了: 大神微调Stable Diffusion,打造神奇宝贝新世界

来源:大数据文摘授权转载自AI科技评论作者:李梅、施方圆编辑:陈彩娴作为一个强大、公开且足够简单的模型,最近大火的 Stable Diffusion 在文本生成图像之外,给了大家无限的创作可能性。最近,来自 Lambda La…

论文学习21-Globally Normalized Transition-Based Neural Networks(2016,标签偏差问题

文章目录abstract1.introduction2.Model2.1 Transition System2.2 全局和局部归一化3.训练3.2标签偏差问题abstract 介绍了一种基于全局规范化转换的神经网络模型,该模型实现了最先进的词性标注、依存分析和句子压缩结果。我们的模型是一个简单的前馈神经网络&#…

推翻单一干细胞理论:哺乳动物大脑中发现了第二种干细胞

来源:生物通在成年哺乳动物的大脑中,神经干细胞保证了新的神经细胞,即神经元的不断形成。这个过程被称为成年神经发生,帮助鼠维持它们的嗅觉。一个研究小组最近在鼠大脑中发现了第二种干细胞群,它主要参与成年鼠嗅球中…

论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

文章目录abstract1.introduction1.1 dense connectionGCN1.2 效果突出1.3 contribution2.Attention Guided GCNs2.1 GCNs2.2 Attention Guided Layer2.3 Densely Connected Layer2.4 线性层2.5 AGGCN for RE3.实验3.1 数据集3.2 设置3.3 n-ary3.4 句子级4.ablation Study4.相关…

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

编译 | 沈祥振审稿 | 夏忻焱今天为大家介绍的是来自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇关于人工智能对于基因组学的可解释性的研究的综述。基于深度学习的人工智能(AI)模型现在代表了基因组学研究中进行功能预测…

复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

导语蛋白质相互作用网络、生态群落、全球气候系统……很多复杂系统都可以抽象为一个相互作用的网络和其上的动力学。传统的研究主要关注在如何构建网络动力学模型,从而产生和实验观测数据具有相似统计特征的结果。所谓的复杂系统逆向工程,就是反其道而行…

关系提取论文总结

文章目录1.模型总结1.1 基于序列的方法1.2 dependency-based(基于依赖的)(有图)1.2.2 句间关系抽取1.5 自动学习特征的方法1.4 联合抽取模型1.6 RNN/CNN/GCN用于关系提取1.7 远程监督1.8句子级关系提取1.9MCR(阅读理解&#xff09…

邬贺铨:“物超人”具有里程碑意义,五方面仍需发力

来源:人民邮电报作者:邬贺铨我国正式迈入“物超人”时代。据工业和信息化部最新数据显示,截至8月末,我国三家基础电信企业发展移动物联网终端用户16.98亿户,成为全球主要经济体中率先实现“物超人”的国家。“物超人”…

深度:计算机的本质到底是什么?

来源:图灵人工智能来源:www.cnblogs.com/jackyfei/p/13862607.html作者:张飞洪 01 抽象模型庄子说过吾生有崖,知无涯。以有限的生命去学习无尽的知识是很愚蠢的。所以,学习的终极目标一定不是知识本身,因为…