论文浅尝 | 多内容实体和关系联合抽取的对抗训练

640?wx_fmt=png

链接:https://arxiv.org/pdf/1808.06876.pdf


动机

Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好的神经网络做出错误的判断,并且可能以很高的置信度输出。很多人将这个性质的原因归结为深层神经网络的⾼度⾮线性以及过拟合。Goodfellow则给出了不同的看法。他认为即使是线性模型,也有这种现象。在高维空间中,即使是很小的扰动,也会对最终的输出值产生很大的影响。⽽对于神经⽹络⽽言,很多神经网络为了节省计算上的代价,都被设计成了线性的形式,这使得他们更容易优化,但是这样"廉价"的⽹络也导致了对于对抗扰动的脆弱性。除了生成对抗样本来攻击神经⽹络以外,对抗训练神经网络从⽽有效防⽌对抗样本的攻击也是⼀一个值得考虑的问题。之后大家开始尝试将对抗训练(AT)用于 NLP 领域,如文本分类问题。本文尝试将AT加入到实体识别和关系抽取的联合模型中,观察AT对联合模型的效果。


亮点

文章的亮点主要包括:

1)提出了命名实体识别和关系抽取的联合模型,可以同时识别实体和实体间的关系,并且对于实体间存在的多关系也可以一次性提取出来;

2)在训练过程中添加了对抗训练(AT),提升联合模型的鲁棒性和范性。


相关工作

一.实体和关系抽取的联合模型:

最初的联合模型是基于人工提取的特征,用于同时执行命名实体识别和关系提取子任务。这些方法依赖于NLP工具(例如POS标记器)的可用性,或者手工设计的特性,会导致额外的复杂性。之后神经网络的方法用来克服这一特征设计问题,通常涉及到RNNs和CNNs。特别是,Miwa和Bansal以及Li等人将双向树状结构的RNNs应用于不同的上下文以捕获语法信息(使用外部依赖分析器)。Gupta等人则使用各种手工提取的特性应用到RNNs中。Adel提出了解决简单问题的实体分类(EC,假设给出实体边界),与NER不同的是,他们复制实体周围的环境,将实体对喂给关系提取层。Katiyar和Cardie在研究带 attention 的RNNs时,没有考虑到关系标签并不是相互排斥的。最后,Bekoulis等人在联合模型中使用LSTMs一次只提取一个关系,但增加了NER部分的复杂性。

我们的基准模型支持从相同的输入同时提取多组关系。然后,我们使用对抗式训练进一步扩展了这个强大的基线。

 

二.对抗性训练(AT):

对抗训练(AT)是通过对训练数据产⽣生对抗噪声来规范分类算法的⼀一种⼿手段。它⿎鼓励神经⽹络对未经修改的例⼦子和扰动的例子进⾏正确的分类来实现深层模型,这实际上不仅增强了神经⽹络的鲁棒性,⽽且提高了它的普遍性。Szegedy的⽂章表明将对抗样本和普通样本一起训练模型训练,可使模型稍微正则化。训练对抗样本和平常的训练样本数增加不一样:通常我们通过对数据进⾏变形来增加数据,这样变形后的数据是可能出现在测试集⾥的。⽽对抗样本这种数据通常不可能⾃然地出现在测试集中,但是它们可以揭露出模型的缺陷。

NLP环境中,针对不同的任务,如文本分类、关系提取和词性标注,AT有几种不同的变体。AT被认为是一种正则化方法。与其他引入随机噪声的正则化方法(dropout,word - dropout)不同,AT产生的扰动是模型容易误分类的样本的变体。


模型

文中设计的联合抽取模型如下:

640?wx_fmt=png

基本模型从下往上依次为:

(1)输入层:输入是一个句子的序列 tokens。我们使用character embeddings来隐式捕获形态学特征(例如,前缀和后缀),通过一个vector(embedding)表示每个字符,将character embeddings 嵌入到BiLSTM中,以获得单词的基于字符的表示。另外也使用预训练过的word embeddings。

(2)BiLSTM层:word 和character embeddings 连接起来形成最终的token 表示,然后将其输入到BiLSTM层以提取顺序信息。

(3)实体识别层:对于NER任务,我们采用BIO (Beginning,Inside, Outside) 编码方案。对于实体标记的预测,我们使用:(i) softmax方法进行实体分类(EC)任务(假设给定的实体边界),或 (ii) CRF方法,这样我们同时识别每个实体的类型和边界。在解码过程中,在softmax设置中,我们贪婪地检测token的实体类型。虽然独立的类型分布对于EC任务来说是合理的,但是当相邻标签之间有很强的相关性时就不是这样了。例如,BIO编码方案在NER任务中强加了几个约束(例如,B-PER和I-LOC标记不能连续)。基于这种直觉,我们使用线性链CRF来完成NER任务。在CRF设置中,对于解码,我们使用Viterbi算法。在训练过程中,对于EC (softmax)和NER任务(CRF),我们将交叉熵损失L(NER)最小化。

(4)关系抽取层:实体标签作为label embeddings输入到关系提取层,与Bi提取的句子表示一起做关系抽取。其中假设实体类型的知识有助于预测相关实体之间的关系。

以上为完整的基本模型。若是在该联合模型的输入层中,针对embedding人为的添加小尺度的扰动η,就可以进行对抗训练(AT)。具体的η计算过程如下。

对于联合模型来说,有实体识别和关系抽取的联合损失函数 Ljoint

640?wx_fmt=png

接下来生成一个对抗的输入样本,通过添加最坏扰动ηadv加入到输入的embedding中,来最大化损失函数:

640?wx_fmt=png

对于ηadv直接在神经网络中求解是比较繁琐复杂,所以一般取其近似值为:

640?wx_fmt=png

其中ε为定义的超参数,和输入层的 word embedding 的维度相关。如 word embedding 100时,ε 可以近似取值为 0.01g 为联合损失函数在 w 方向的梯度,也正是为了说明添加的扰动对于神经网络来说是最坏的情况。

之后训练的输入为原始和对抗样本的混合,所以最终求得的损失函数为:

640?wx_fmt=png

实验

我们使用 github 代码基中的代码,在四个数据集中评估模型。特别地,我们遵循 Miwa Bansal ACE04 数据集定义的 5 倍交叉验证。对于CoNLL04EC任务(假设给定边界),我们使用与 Gupta 等人相同的分割。我们还使用10倍交叉验证对NER任务的模型进行评估,类似于MiwaSasaki在同一数据集中使用的模型。对于荷兰房地产分类信息DRECdataset,我们使用了Bekoulis等人的训练测试分割。对于不良药物事件ADE,我们进行了10倍的交叉验证,类似于Li等人。为了获得不受输入嵌入影响的类似结果,我们使用了之前作品的嵌入。我们在所有的实验中都采用了早停的方法。我们使用Adam优化器并修复超参数验证集。选择缩放参数α的范围为{ 5 e2,1e21 e31 e4 }。更大的α值在我们早期的实验导致一致的性能降低。这可以从一个事实来解释,添加更多的噪音可以改变句子的内容,改变的词向量的语义。

我们使用三种类型的评估,:1S(trict):如果实体边界和实体类型都是正确的,则我们将实体得分为正确(ACE04,ADE, CoNLL04, DREC);(2B(oundaries):如果只有实体边界是正确的,而不考虑实体类型,则我们将实体得分为正确(DREC);(3R(elaxed):如果将至少一种正确的类型分配给组成该实体的tokens(假设边界已知),则认为multi-token实体分类是正确的。在所有情况下,当关系类型和参数实体都正确时,关系被认为是正确的。实验结果表明我们的联合模型取得了当前最好的效果。

640?wx_fmt=png

另外当有AT加入到输入层时,可以让训练更快速度的达到收敛。

640?wx_fmt=png

总结                        

本文执行一个大规模的实验研究在这个联合模型任务上,使用了不同的语境和语言的数据集。建立了一个强大的基线,它的性能优于所有以前的模型;而且模型依赖于自动提取的特性,实现了最先进的性能。另外与基线模型相比,在训练过程中应用AT可以让联合抽取的效果持续增加。

 

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BAT面试进阶:最全Memcached面试30题含答案

【memcached面试题目】 Memcached服务在企业集群架构中应用场景? Memcached服务在不同企业业务应用场景中的工作流程? Memcached服务分布式集群如何实现? Memcached服务特点及工作原理是什么? Memcached内存管理机制原理? Memcached的…

一份从入门到精通NLP的完整指南 | NLPer

该小博主介绍本人:笔名zenRRan,方向自然语言处理,方法主要是深度学习。未来的目标:人工智能之自然语言处理博士。写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶的小牛找到…

论文浅尝 | 基于知识库的类型实体和关系的联合抽取

链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdfGitHub项目地址:https://github.com/INK-USC/DS-RelationExtraction动机现有的利用远程监督进行实体关系抽取的方法中存在以下三个问题:1、依赖事先训练的命名实体识别工具,而…

POJ 2255 Tree Recovery(已知前序中序,求后序)

1. 题目链接:http://poj.org/problem?id2255 2. 题目大意: 给定二叉树的前序和中序序列,输出其后序序列 3. 思考过程: 4. AC代码 /*** description: 给出前序和中序二叉树节点序列,求后序二叉树节点输出序列* auth…

美团内推:java高级开发(一面+二面+三面),面试58题实拍!

美团内推(一面二面三面)面试题目 美团一面(电话) 自我介绍 项目介绍 Redis介绍 了解redis源码么 了解redis集群么 Hashmap的原理,增删的情况后端数据结构如何位移 hashmap容量为什么是2的幂次 hashset的源码 …

ACL20 best paper荣誉提名 | DO NOT STOP Pre-training!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | JayLou娄杰(NLP算法工程师,信息抽取方向)编 | 可盐可甜兔子酱在昨晚23点的best paper典礼上我惊了,这篇论文竟然获得了今年ACL2020 best paper荣誉提名..…

论文浅尝 | 对于知识图谱嵌入表示的几何形状理解

论文链接:http://anthology.aclweb.org/attachments/P/P18/P18-1012.Presentation.pdf发表会议:ACL 2018摘要知识图谱的嵌入表示在近几年已经成为一个非常活跃的研究领域,众多相关方法相继被提出,这些嵌入方法是将知识图谱中的实体…

数据结构--堆 Heap

文章目录1. 概念2. 操作和存储2.1 插入一个元素2.2 删除堆顶元素3. 堆排序(不稳定排序)3.1 建堆3.2 排序3.3 思考:为什么快速排序要比堆排序性能好?两者都是O(nlogn)4. 堆应用4.1 优先级队列4.2 用堆求 Top K(前K大数据…

金融时报:人工智能在银行中的应用—对全球30家大型银行的调查

原文地址:https://cloud.tencent.com/developer/article/1144829 (微信公众号 点滴科技资讯)尽管银行业对新技术感到兴奋,但仍采取比较谨慎的方式。德意志银行首席执行官约翰•克莱恩(John Cryan)曾经提出将…

百度Java三面:现场面试39题目实拍含答案!

百度一面(现场) 自我介绍 Java中的多态 为什么要同时重写hashcode和equals Hashmap的原理 Hashmap如何变线程安全,每种方式的优缺点 垃圾回收机制 Jvm的参数你知道的说一下 设计模式了解的说一下啊 手撕一个单例模式 算法题目 手撕算…

CCKS2020事理图谱应用工作:刘焕勇等.面向开放文本的逻辑推理知识抽取与事件影响推理探索

一、背景介绍 第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议…

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 北大小才女小轶昨晚ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中&#xff…

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

链接&#xff1a;https://arxiv.org/pdf/1809.01341.pdf动机&#xff08;摘要&#xff09;当前的知识库补全的方法主要是将实体和关系嵌入到一个低维的向量空间&#xff0c;但是却只利用了知识库中的三元组结构 (<s,r,o>) 数据&#xff0c;而忽略了知识库中大量存在的文本…

智能投顾原理与主流产品分析

原作者 王希&#xff0c;CFA&#xff0c;中国光大银行。核心观点&#xff1a;1、智能投顾的模式是通过技术实现财富管理的流程自动化&#xff0c;为客户定制FOF产品来投资并赚取管理费。目前尚未看出大数据分析、人工智能等技术在其中发挥出关键作用。2、智能投顾在美国的快速…

POJ 1442 Black Box(大小堆,求第K小的元素)

文章目录1. 题目链接2. 题目解读3. 代码3.1 Runtime Error 代码1. 题目链接 http://poj.org/problem?id1442 2. 题目解读 可以利用大小堆&#xff0c;大堆长度从1开始&#xff0c;每次1 大堆元素都比小堆的小&#xff0c;那么大堆顶的元素就是第k小的元素 3. 代码 3.1 Run…

阿里java架构师面试128题含答案:分布式架构+Dubbo+多线程+Redis

一、Java基础和高级 1.String类为什么是final的。 2.HashMap的源码&#xff0c;实现原理&#xff0c;底层结构。 3.反射中&#xff0c;Class.forName和classloader的区别 4.session和cookie的区别和联系&#xff0c;session的生命周期&#xff0c;多个服务部署时session管理…

LightGBM——提升机器算法(图解+理论+安装方法+python代码)

原文地址&#xff1a;https://blog.csdn.net/huacha__/article/details/81057150 前言 LightGBM是个快速的&#xff0c;分布式的&#xff0c;高性能的基于决策树算法的梯度提升框架。可用于排序&#xff0c;分类&#xff0c;回归以及很多其他的机器学习任务中。 在竞赛题中&am…

这个NLP工具,玩得根本停不下来

今天推荐一个有趣的自然语言处理公众号AINLP&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定位是…

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

来源&#xff1a;ACL 2017链接&#xff1a;http://aclweb.org/anthology/P17-2057本文提出将 Universal schema 用于自然语言问答中&#xff0c;通过引入记忆网络&#xff0c;将知识库与文本中大量的事实信息结合起来&#xff0c;构建出一个由问答对&#xff08;question-answe…

数据结构--图 Graph

文章目录1. 概念2. 存储方法2.1 邻接矩阵 Adjacency Matrix2.2 邻接表 Adjacency List3. 图的遍历3.1 广度优先搜索BFS&#xff08;Breadth First Search&#xff09;3.2 BFS代码&#xff08;基于邻接表&#xff09;3.3 深度优先搜索DFS&#xff08;Depth First Search&#xf…