技术动态 | 跨句多元关系抽取

本文转载自公众号:知识工场。


第一部分 概述

关系抽取简介

关系抽取是从自由文本中获取实体间所具有的语义关系。这种语义关系常以三元组 <E1,R,E2> 的形式表达,其中,EE表示实体,表示实体间所具有的语义关系。如图1所示。关系抽取既是文本处理任务的基础,又是构建知识图谱的核心任务。抽取实例不仅能提升文本分析的层面,还可为诸如问答系统、聊天机器人及语义搜索等下游任务提供背景知识。

640?wx_fmt=png

图1 关系抽取案例

关系抽取中的难点问题

1.同一关系可由不同的词语表达。

2.同一短语或词具有歧义性,不能很好的表征同一关系。

3.实体对间可能具有多种关系。

4.跨句多元关系不能很好解决。

5.隐含关系不能很好解决。

6.对nlp处理工具依赖较大。

关系抽取方法分类

关系抽取方法的概括图如图2所示,简述其中部分方法。

640?wx_fmt=png

图2 关系抽取方法概括图

特定领域关系抽取是指从特定领域的语料中抽取实体间所具有的语义关系,这种语义关系通常是预定义的。基于模式的关系抽取方法通过人工设计或从文本中学到的语言模式与文本进行匹配,以抽取关系实例。该类方法需要依靠nlp处理工具包,如,首先通过分句对文本进行句子分割,然后利用pos对词语进行词性标注、ner识别句子中实体,最后构建基于字符、语法和语义的关系抽取模式。该方法的抽取精度高但泛化能力弱,适用于结构性的文本。基于机器学习的关系抽取方法克服了上述方法的弊端。依据标注数据,可分为监督的关系抽取、弱监督关系抽取及无监督关系抽取。有监督的关系抽取旨在从大规模标注语料中获取表达实体间语义关系的有效特征。主要方法有基于特征工程的关系抽取方法、基于核函数的方法及深度模型的方法。基于特征工程的关系抽取方法通过nlp工具包对语料执行分句、词性标注、依存分析等操作以获取有效特征。基于核函数的关系抽取方法通过构建结构树,计算关系距离以抽取关系实例,该方法缓解了特性稀疏性问题。虽然上述方法在关系抽取上取得了不错的性能,但扩展性较差。基于深度模型的方法克服了模型扩展性的问题,通过从标注语料中自动构建特征,并抽取关系实例。近年来,对该方法的研究层出不迭,该方法常规过程是通过词向量技术对词、字、位置进行向量化表示,或通过pre-trained embedding初始化向量表示。拼接向量以构成句子的表示。通过深度模型抽取词汇级别特征和句子级别特征,最终依据任务类型选用相应的输出函数以获取预测结果。迁移学习的思想是从相关领域迁移标注数据或知识已完成特定领域的任务。

远程监督简介

远程监督的基本假设:如果实体对间存在关系,则任何含有该实体对的句子都表达了该实体对间的关系。远程监督的假设过于绝对,会引入大量噪声。针对引入噪声这一问题,现有方法主要有:

  • 利用先验知识约束数据集的构建;

  • 利用关系图模型对样本打分,过滤信任分数较低的句子;

  • 利用多实例对句子集打标签;

  • 利用注意力机制对句子赋权;

远程监督虽能缓解数据标注问题,但对知识库的质量和覆盖率要求较大。

第二部分 论文介绍

介绍几篇论文,主要解决跨句多元关系抽取这一问题。

首先举例说明什么是跨句多元关系。

“The deletionmutation on exon-19 of EGFR gene was present in 16 patients, while the L858E point mutation on exon-21was noted in 10. All patients were treated with gefitinib and showed a partial response.”.

上面的两个句子表达了这样一个事实,即三个实体之间存在着一个关系三元组,但这在任一单独的句子中都没有体现。此类现象在中文语料中也是屡见不鲜。

《DistantSupervision for Relation Extraction beyond the Sentence Boundary》- EACL 2017

该文章首次利用远程监督实现跨句关系抽取。文章的方法核心是一种图表示,它可以将依存关系和语篇关系结合,从而提供了一种统一的方法来模拟句子内部和句子之间的关系。在面对语言变异和分析错误时,该方法从多条路径中提取特征,提高了特征提取的准确性和鲁棒性。通过远程监督,该方法从大约100万篇PubMed Central 全文中抽取了大约64000个不同的实例,与原来的kb相比,达到了两个数量级的增长。

该文章既是开创性文章,无法与其他方法对比,又是一篇工程性文章。因此,作者阐述了工程中的主要难点及所抽取的结果。详细如下:

Distant Supervision:从知识库中选择具有明确关系的实体对作为正样本。并随机从知识库中选择不具有明确关系的实体对作为负样本。使正样本的数量与负样本的数量相同以保证训练集平衡。

Minimal-SpanCandidates:在跨句三元组抽取中,直接将具有明确关系的实体对划分到正训练样本中会产生很多噪声。针对这一问题,作者定义了共现实体对间最小跨距。作者通过实验证明,这种方式可提高抽取的准确率。

DocumentGraph:引入了一个document graph,其节点表示词,边表示依存关系、邻接关系和语篇关系等句内和句间关系。每个节点都用词本身、论点和词性标记。句间的边由斯坦福句法解析器赋予类别。同时,为了降低解析误差,通过在邻词间加边及多路径融合的方式缓解。

Features:通过在document graph中的路径上定义特征模板来泛化关系抽取的特征,这些特征模板包含各种类型的交错边(依赖关系、词和句子邻接、语篇关系)。

Multiplepaths:大多数以前的工作只研究了两个实体之间的单一最短路径。当作者使用词法和句法结构时,且解析器正确解析时,这种方法工作得很好。然而,真实的数据是相当嘈杂的。于是,作者采用多条可能路径解决误差并保持噪声的鲁棒性。

 

《Cross-Sentence N-ary Relation Extraction with Graph LSTMs》-ACL2017

本文针对跨句n元关系抽取这一问题,提出了一种graph long short-term memory networks(graph LSTMs)的框架。图提供了一种探索不同形式LSTM的方法,并可集成句间和句内的各种依赖关系,如序列、句法和语篇关系。它可为实体学习了一个鲁棒的上下文表示,作为关系分类器的输入。它简化了对任意关系的处理,并使与关系相关的多任务学习成为可能.通过在两个重要的精确医学数据集上对该框架进行了评价,证明了该框架在传统监督学习和远程监督下的有效性。跨句抽取产生了更大的知识库。多任务学习显著提高了抽取精度。通过对各种LSTM方法的深入分析,可以发现语言分析对提取精度的影响。

跨句n元关系抽取架构如下图所示。输入层是输入文本的word embedding。Graph LSTM学习每个单词的上下文表示。将文中所提及及的实体与它们的上下文表示连接起来,并成为关系分类器的输入。对于多词实体,利用其词向量的平均值表示。该框架采用反向传播进行训练。文中并未提及分类器的选择。

640?wx_fmt=png

Graph LSTM的核心是一个document graph,它捕捉输入单词之间的各种依赖关系。通过选择document graph中包含的依存项,Graph LSTMs很自然地过渡到线性链或tree lstms。接下来,简要介绍document graph和如何利用Graph LSTM执行多任务学习。

documentgraph是由表示词的节点和表示各种依存的边组成,如下图所示。如果它只包含邻词的边,则变成线性链表。类似地,其他以前的LSTM方法也可以通过约束边在最短依赖路径或解析树中来获取。

640?wx_fmt=png

多任务学习可直接由Graph LSTM实现,唯一需要改变是为每个相关的辅助关系添加一个单独的分类器。所有的分类器共享相同的Graph LSTM表示的学习器和词嵌入,并可相互监督。

论文在数据集上评测结果如下:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

《N-ary Relation Extraction using Graph State LSTM》-emnlp2018

   跨句n元关系抽取是检测句间的n个实体之间的关系。典型的方法将输入描述为document graph,集成了句内和句间的不同依赖关系.目前最先进的方法是将输入图分成两个DAGs,每个都是DAG-structured lstm。尽管能够利用图的边对丰富的语言知识进行建模,但在拆分过程中可能会丢失重要的信息。本文提出了graph-state LSTM模型,它使用一个并行状态对每个字进行建模,通过消息传递递归地更新状态值。与DAGlstms相比,graph-state LSTM保留了原有的图结构,并允许更多的并行化,从而加快了计算速度。在一个标准benchmark,该模型取得了最佳效果。

   任务定义

   跨句多元关系抽取的输入可表示为640?wx_fmt=png,其中,640?wx_fmt=png表示实体指称集,640?wx_fmt=png表示由多个句子组成的文本。每一个实体指称640?wx_fmt=png,属于中的一个句子。预定义关系集640?wx_fmt=png,其中None表示实体间没有关系。该任务既可表述为确定640?wx_fmt=png是否共同构成关系的二分类问题,也可表述成用于检测实体对属于哪一种关系的多分类问题。

   Graph State LSTM

   给定输入图G=(V,E),为每一个词640?wx_fmt=png定义一个状态向量640?wx_fmt=png。图的状态是由所有词状态组成,可表示成:

640?wx_fmt=png

为了捕获非局部信息,模型通过一个递归的状态转换过程在单词之间执行信息交换,从而得到一系列的图状态640?wx_fmt=png640?wx_fmt=png.初始图态640?wx_fmt=png由初始词态640?wx_fmt=png组成.
其中,640?wx_fmt=png是一个零向量。
该模型利用循环神经网络对状态转移过程建模。特别是640?wx_fmt=png640?wx_fmt=png的转移过程。在每个步骤t,都允许词和直接连接到这个词的所有词之间进行信息交换。为避免梯度消失或爆炸,采用gate lstm单元,其中,640?wx_fmt=png记录640?wx_fmt=png的存储。模型利用输入门640?wx_fmt=png、输出门640?wx_fmt=png和遗忘门640?wx_fmt=png来控制输入到640?wx_fmt=png的信息流。
640?wx_fmt=png的输入通过输入方与输出方来区分,

640?wx_fmt=png

640?wx_fmt=png分别表示640?wx_fmt=png的输入边集合和输出边集合。

除了边缘输入,cell还在状态转换期间接收其输入和输出词的隐藏状态。特别是,对所有输入词和输出词的状态分别进行了累加。

640?wx_fmt=png

因此,640?wx_fmt=png640?wx_fmt=png的循环状态转移可由640?wx_fmt=png表示。

640?wx_fmt=png

其中,640?wx_fmt=png,640?wx_fmt=png,640?wx_fmt=png分别是输入、输出和遗忘门。640?wx_fmt=png是模型参数。
在医疗领域数据集上实验结果如下:

640?wx_fmt=png

640?wx_fmt=png



OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479496.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络解析(一):LeNet-5详解

原文链接&#xff1a;https://cuijiahua.com/blog/2018/01/dl_3.html 2018年1月9日21:03:313994,282 C摘要LeNet-5出自论文Gradient-Based Learning Applied to Document Recognition&#xff0c;是一种用于手写体字符识别的非常高效的卷积神经网络。一、前言LeNet-5出自论文Gr…

LeetCode 69. x 的平方根(二分查找)

文章目录1. 题目2.解题2.1 二分查找2.2 牛顿迭代1. 题目 实现 int sqrt(int x) 函数。 计算并返回 x 的平方根&#xff0c;其中 x 是非负整数。 由于返回类型是整数&#xff0c;结果只保留整数的部分&#xff0c;小数部分将被舍去。 示例 1:输入: 4 输出: 2 示例 2:输入: 8…

Google综述:细数Transformer模型的17大高效变种

文 | 黄浴来源 | 知乎在NLP领域transformer已经是成功地取代了RNN&#xff08;LSTM/GRU&#xff09;&#xff0c;在CV领域也出现了应用&#xff0c;比如目标检测和图像加注&#xff0c;还有RL领域。这是一篇谷歌2020年9月份在arXiv发表的综述论文 “Efficient Transformers: A …

从ReentrantLock的实现看AQS的原理及应用

前言 Java中的大部分同步类&#xff08;Lock、Semaphore、ReentrantLock等&#xff09;都是基于AbstractQueuedSynchronizer&#xff08;简称为AQS&#xff09;实现的。AQS是一种提供了原子式管理同步状态、阻塞和唤醒线程功能以及队列模型的简单框架。本文会从应用层逐渐深入到…

论文浅尝 | 利用知识-意识阅读器改进的不完整知识图谱问答方法

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为知识库问答。来源&#xff1a;ACL2019链接&#xff1a;https://www.aclweb.org/anthology/P19-1417/本文提出了一种融合不完整知识图谱与文档集信息的end2end问答模型&#xff0c;旨在利用结构…

MVP模式在Android中的应用(附UML高清大图,使用RecyclerView举例)

传了一张图&#xff0c;图比较大&#xff0c;请移步下载&#xff1a;http://download.csdn.net/detail/u011064099/9266245 在看代码之前&#xff0c;首先简单看一下什么是MVP模式&#xff1a;http://www.cnblogs.com/end/archive/2011/06/02/2068512.html MVP最核心就是将界面…

Facebook大公开:解决NLG模型落地难题!工业界的新一波春天?

文 | 小喂老师编 | 小轶作为NLP领域的“三高”用户&#xff08;高产、高能、高钞&#xff09;&#xff0c;FaceBook最近&#xff08;2020年11月&#xff09;又发表了一篇高水准文章&#xff0c;目前已被COLING-2020接收&#xff0c;号称解决了自然语言生成&#xff08;NLG&…

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文笔记整理&#xff1a;吴桐桐&#xff0c;东南大学博士生&#xff0c;研究方向为自然语言处理。链接&#xff1a;https://www.aclweb.org/anthology/P19-1226/近年来&#xff0c;机器阅读理解已经逐渐发展为自然语言理解方向的主流任务之一。最近&#xff0c;预训练模型尤其…

美团外卖前端容器化演进实践

背景 提单页的位置 提单页是美团外卖交易链路中非常关键的一个页面。外卖下单的所有入口&#xff0c;包括首页商家列表、订单列表页再来一单、二级频道页的今日推荐等&#xff0c;最终都会进入提单页&#xff0c;在确认各项信息之后&#xff0c;点击提交订单按钮&#xff0c;完…

LeetCode 807. 保持城市天际线

文章目录1. 题目2. 解题1. 题目 在二维数组grid中&#xff0c;grid[i][j]代表位于某处的建筑物的高度。 我们被允许增加任何数量&#xff08;不同建筑物的数量可能不同&#xff09;的建筑物的高度。 高度 0 也被认为是建筑物。 最后&#xff0c;从新数组的所有四个方向&#…

提供一个Android原生的Progress——SwipeToRefreshLayout下拉刷新时的等待动画

先来上个图看看效果&#xff1a; 这里我为什么要单独把这个拿出来呢&#xff0c;因为最近才开始接触Android最新的东西&#xff0c;也就是5.0以上的东西&#xff0c;发现Android提供的SwipeToRefreshLayout是没有上拉加载更多的&#xff0c;在网上找了不少第三方提供加载更多的…

导师实验室对学生影响有多大?

读博士导师非常重要&#xff0c;比你们想象得还要更重要。一个优秀的导师不仅在科研帮上很多忙&#xff0c;而且让你懂得怎么做科研&#xff0c;更重要的他教会你怎么做一个合格的学者。 跟这种导师工作&#xff0c;你会发现科研其实是一件非常有趣的事情&#xff0c;它带来的乐…

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

论文笔记整理&#xff1a;吴杨&#xff0c;浙江大学计算机学院&#xff0c;知识图谱、NLP方向。https://www.ctolib.com/https://arxiv.org/abs/1908.10084动机谷歌的 BERT 预训练模型&#xff0c;已经能够在两个句子的语义相似度匹配等需要输入一对句子的任务上取得了非常好的…

美团点评效果广告实验配置平台的设计与实现

一. 背景 效果广告的主要特点之一是可量化&#xff0c;即广告系统的所有业务指标都是可以计算并通过数字进行展示的。因此&#xff0c;可以通过业务指标来表示广告系统的迭代效果。那如何在全量上线前确认迭代的结果呢&#xff1f;通用的方法是采用AB实验&#xff08;如图1&…

LeetCode 832. 翻转图像(异或^)

文章目录1. 题目2. 解题1. 题目 给定一个二进制矩阵 A&#xff0c;我们想先水平翻转图像&#xff0c;然后反转图像并返回结果。 水平翻转图片就是将图片的每一行都进行翻转&#xff0c;即逆序。例如&#xff0c;水平翻转 [1, 1, 0] 的结果是 [0, 1, 1]。 反转图片的意思是图…

MVP模式在Android中的应用之图片展示选择功能的框架设计

前言&#xff1a;虽然安卓出现的时间比其它平台软件比较晚&#xff0c;但是在我们的安卓开发中&#xff0c;一样可以使用我们所熟知的设计模式来给它一个合理、完善的结构&#xff0c;这样&#xff0c;才可以使我们在平常开发的时候减少冗余代码的发生&#xff0c;真正的提高效…

抑制过拟合之正则化与Dropout

避免过拟合&#xff1a; 1、增大数据集合 – 使用更多的数据&#xff0c;噪声点比减少&#xff08;减少数据扰动所造成的影响&#xff09; 2、减少数据特征 – 减少数据维度&#xff0c;高维空间密度小&#xff08;减少模型复杂度&#xff09; 3、正则化 / dropout / 数据增强…

谈谈神经网络的大规模训练优化

文 | 立交桥跳水冠军源 | 知乎大规模神经网络训练一般会涉及到几百个分布式节点同时工作&#xff0c;模型的参数量以及运算量往往很大&#xff0c;作者认为在这个task下当前的工作主要归结为以下三种&#xff1a;对通信本身的优化&#xff0c;神经网络训练通信的优化&#xff0…

LeetCode 1108. IP 地址无效化

文章目录1. 题目2. 解题1. 题目 给你一个有效的 IPv4 地址 address&#xff0c;返回这个 IP 地址的无效化版本。 所谓无效化 IP 地址&#xff0c;其实就是用 “[.]” 代替了每个 “.”。 示例 1&#xff1a;输入&#xff1a;address "1.1.1.1" 输出&#xff1a;&…

Android NDK开发入门学习笔记(图文教程,极其详尽)

以前也简单用过JNI&#xff0c;但是只是简单用一下&#xff0c;好多都不明白。最近在看源码部分&#xff0c;有涉及到JNI调用的&#xff0c;所以这次打算彻底把它搞定。 先普及一下JNI的调用关系&#xff1a;JAVA------------------------>JNI----------------------------…