论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

本文转载自公众号:PaperWeekly


                                                      


作者丨罗凌

学校丨大连理工大学博士生

研究方向丨深度学习,文本分类,实体识别

联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint model)来对一些有些密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习等等。

最近,研究者们在基于神经网络方法上进行实体识别和关系抽取联合学习,我阅读了一些相关工作,在此和大家一起分享学习(本文中引用了一些论文作者 Suncong Zheng 的 PPT 报告)。


引言


本文关注的任务是从无结构的文本中抽取实体以及实体之间的关系(实体 1-关系-实体 2,三元组),这里的关系是我们预定义好的关系类型,例如下图:


目前有两大类方法,一种是使用流水线的方法(Pipelined Method)进行抽取:输入一个句子,首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在实体关系的三元组作为输入。

流水线的方法存在的缺点有:

1. 错误传播,实体识别模块的错误会影响到下面的关系分类性能;

2. 忽视了两个子任务之间存在的关系,例如图中的例子,如果存在 Country-President 关系,那么我们可以知道前一个实体必然属于 Location 类型,后一个实体属于 Person 类型,流水线的方法没法利用这样的信息;

3. 产生了没必要的冗余信息,由于对识别出来的实体进行两两配对,然后再进行关系分类,那些没有关系的实体对就会带来多余信息,提升错误率。

理想的联合学习应该如下图:输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组。这种可以克服上面流水线方法的缺点,但是可能会有更复杂的结构。


联合学习


这里我主要关注的基于神经网络方法的联合学习,我把目前的工作主要分为两大类:1. 参数共享(Parameter Sharing)和 2. 标注策略(Tagging Scheme)。主要涉及到下面一些相关工作。



参数共享


论文《Joint Entity and Relation Extraction Based on A Hybrid Neural Network》,Zheng 等人利用共享神经网络底层表达来进行联合学习。

具体的,对于输入句子通过共用的 word embedding 层,然后接双向的 LSTM 层来对输入进行编码。然后分别使用一个 LSTM 来进行命名实体识别(NER)和一个 CNN 来进行关系分类(RC)。

相比现在主流的 NER 模型 BiLSTM-CRF 模型,这里将前一个预测标签进行了 embedding 再传入到当前解码中来代替 CRF 层解决 NER 中的标签依赖问题。

在进行关系分类的时候,需要先根据 NER 预测的结果对实体进行配对,然后将实体之间的文本使用一个 CNN 进行关系分类。所以该模型主要是通过底层的模型参数共享,在训练时两个任务都会通过后向传播算法来更新共享参数来实现两个子任务之间的依赖。

论文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》也是类似的思想,通过参数共享来联合学习。只是他们在 NER 和 RC 的解码模型上有所区别。

这篇论文 Miwa 等人同样是通过参数共享,NER 使用的是一个 NN 进行解码,在 RC 上加入了依存信息,根据依存树最短路径使用一个 BiLSTM 来进行关系分类。


根据这两篇论文的实验,使用参数共享来进行联合学习比流水线的方法获得了更好的结果在他们的任务上 F 值约提升了 1%,是一种简单通用的方法。论文《A Neural Joint Model for Entity and Relation Extraction from Biomedical Text》将同样的思想用到了生物医学文本中的实体关系抽取任务上。


标注策略


但是我们可以看到,参数共享的方法其实还是有两个子任务,只是这两个子任务之间通过参数共享有了交互。而且在训练的时候还是需要先进行 NER,再根据 NER 的预测信息进行两两匹配来进行关系分类。仍然会产生没有关系的实体对这种冗余信息。

出于这样的动机,Zheng 等人在论文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》中提出了一种新的标注策略来进行关系抽取,该论文发表在 2017 ACL 上,并入选了 Outstanding Paper。

他们通过提出了一种新的标注策略把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体三元组。

他们提出的这种新的标注策略主要由下图中三部分组成:1)实体中词的位置信息{B(实体开始),I(实体内部),E(实体结尾),S(单个实体)};2)关系类型信息{根据预先定义的关系类型进行编码};3)实体角色信息{1(实体1),2(实体2)}。注意,这里只要不是实体关系三元组内的词全部标签都为“O”。

根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,如果一个句子包含一个以上同一类型的关系,那么就采用就近原则来进行配对。目前这套标签并不支持实体关系重叠的情况。

然后该任务就变成了一个序列标注问题,整体模型如下图。首先使用了一个 BiLSTM 来进行编码,然后使用了在参数共享中提到的 LSTM 来进行解码。

和经典模型不同的地方在于他们使用了一个带偏置的目标函数。当标签为“O”时,就是正常的目标函数,当标签不是“O”时,即涉及到了关系实体标签,则通过 α 来增大标签的影响。实验结果表明,这个带偏置的目标函数能够更准确的预测实体关系对。


总结


基于神经网络的实体识别和关系抽取联合学习主要由两类方法。其中参数共享的方法简单易实现,在多任务学习中有着广泛的应用。

Zheng 等人提出的新的标注策略,虽然目前还存在一些问题(例如无法识别重叠实体关系),但是给出了一种新的思路,真正的做到了两个子任务合并成了一个序列标注问题,在这套标注策略上也可以进行更多的改进和发展来进一步完善端到端的关系抽取任务。


参考文献


[1] S. Zheng, Y. Hao, D. Lu, H. Bao, J. Xu, H. Hao, et al., Joint Entity and Relation Extraction Based on A Hybrid Neural Network, Neurocomputing. (2017) 1–8. 

[2] M. Miwa, M. Bansal, End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures, ACL, (2016). 

[3] F. Li, M. Zhang, G. Fu, D. Ji, A Neural Joint Model for Entity and Relation Extraction from Biomedical Text, BMC Bioinformatics. 18 (2017). 

[4] S. Zheng, F. Wang, H. Bao, Y. Hao, P. Zhou, B. Xu, Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, Acl. (2017).


相关链接


[1] 论文作者 Suncong Zheng 报告:http://t.cn/RXmunzm


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一篇文章搞懂架构师的核心技能

“ 这是架构师系列的第一篇:核心技能,希望这个系列能完全揭示架构师这个职位:我先从核心技能开始,后续还有架构师之路,架构实战等架构师系列文章。 本文作者 陈睿 优知学院创始人,前携程定制旅游CTO,在互联…

史上最全的分词算法与工具介绍

分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。…

论文解读:Attention is All you need

论文解读:Attention is All you need习翔宇​北京大学 软件工程博士在读​关注他192 人赞同了该文章Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这篇论文采…

论文浅尝 | 基于神经网络的知识推理

本文转载自公众号:PaperWeekly。论文笔记来自 PaperWeekly 社区用户 britin。本文对基于 RNN 的从大规模知识库中进行推理进行了精度和可操作性的改善,提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。如果你对本文工作感兴趣&#x…

手把手教你成为年薪60万的架构师

“ 这篇文章是帮助你成为架构师系列文章其中一篇,偏向0-5年工作的IT程序员员、架构师同学。 如果你能掌握这个系列提到的内容的70%左右,去阿里拿个P7问题不大,阿里的P7基本能拿到60W左右的年薪。 提醒一点,不要小看和不重视基础&a…

图解强化学习

小夕寄语 最近五年,是强化学习(Reinforcement Learning, RL)爆发的时期。RL是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试…

领域应用 | 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

本文转载自公众号:阿里技术。 阿里妹导读:搜索“西红柿”,你不但能知道它的营养功效、热量,还能顺带学会煲个牛腩、炒个鸡蛋!搜索引擎何时变成“暖男”了?原来背后…

阿里P8架构师谈:开源搜索引擎Lucene、Solr、Sphinx等优劣势比较

开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr Elasticsearch Katta、Compass等都是基于Lucene封装。 你可以想象Lucene系有多强大。 2.Sphinx搜素引擎,c开发,简单高性能。 以下重点介绍最常用的开源搜素引擎&#…

知识图谱(KG)中的同义词挖掘

前言 在语义搜索推荐、智能问答等场景中,随着通过各类方法挖掘得到知识数据越来越多,我们需要考虑一个新问题——新老知识合并加以整合?比如 “拉肚子” 与 “腹泻” 实则同一意义,但是因为在字面上差距较大,在各抽取任…

注册第一次练习

注册 使用微信注册练习使用Markdown编辑器 Markdown编辑器功能与语法支持 全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能&…

SQL 菜鸟教程

第一节:SQL 语法 数据库表 一个数据库通常包含一个或多个表。每个表有一个名字标识(例如:"Websites"),表包含带有数据的记录(行)。 在本教程中,我们在 MySQL 的 RUNOOB 数据库中创建了 Websit…

领域应用 | 深度学习在知识图谱构建中的应用

本文转载自公众号:阿里技术。深度学习模型介绍DeepDive系统在数据处理阶段很大程度上依赖于NLP工具,如果NLP的过程中存在错误,这些错误将会在后续的标注和学习步骤中被不断传播放大,影响最终的关系抽取效果。为了避免这种传播和影…

阿里P8架构师谈:Quartz调度框架详解、运用场景、与集群部署实践

以下将分别从Quartz架构简介、集群部署实践、Quartz监控、集群原理分析详解Quartz任务调度框架。 Quartz简介 Quartz是Java领域最著名的开源任务调度工具,是一个任务调度框架,通过触发器设置作业的定时运行规则,来执行定时任务。其中quartz集…

Bert在CV领域的应用

一只小狐狸带你解锁NLP/ML/DL秘籍老板老板,听说BERT是个瞎子此话怎讲?它能理解语言,但是理解不了小夕的自拍!video-BERT了解一下喵喵喵?AI的三大核心板块(CV/Speech/NLP)近几年都相继取得了非常…

CRISP-DM:数据挖掘标准流程

CRISP-DM:数据挖掘标准流程 框架 相关信息 https://blog.csdn.net/qq_36387683/article/details/82932680 https://blog.csdn.net/hadoopdevelop/article/details/79282832

训练大型神经网络方法总结

一只小狐狸带你解锁 炼丹术&NLP 秘籍前阵子微软开源了DeepSpeed训练框架,从测试效果来看有10倍的速度提升,而且对内存进行了各种优化,最大可以训练100B(illion)参数的模型。同时发布了这个框架训练出的17B模型 Turing-NLG,处于…

从Java程序员进阶架构师,必看的书单推荐!

算法与数据结构: 数据结构(严蔚敏) java数据结构和算法(美:拉佛) 算法导论 大话数据结构 剑指Offer 程序员面试金典 编程珠玑 编程之美 程序员笔试面试最优解 数据结构与算法经典问题解析&#xf…

论文浅尝 | 基于Freebase的问答研究

本文转载自公众号:PaperWeekly。 本期的论文笔记来自 PaperWeekly 社区用户 britin。本文给出了一种 end-to-end 的系统来自动将 NL 问题转换成 SPARQL 查询语言。作者综合了实体识别以及距离监督和 learning-to-rank 技术,使得 QA 系统的精度提高了不少…

机器学习中的特征建模(特征工程)和算法选型建模 - 以暴力破解识别为例

catalogue 1. 特征工程是什么?有什么作用? 2. 特征获取方案 - 如何获取这些特征? 3. 特征观察 - 运用各种统计工具、图标等工具帮助我们从直观和精确层面认识特征中的概率分布 4. 特征处理 - 特征清洗 5. 特征护理 - 特征预处理 6. 特征处理 …