论文浅尝 | 基于知识库的类型实体和关系的联合抽取

640?wx_fmt=png

链接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf

GitHub项目地址:https://github.com/INK-USC/DS-RelationExtraction

动机

现有的利用远程监督进行实体关系抽取的方法中存在以下三个问题:

1、依赖事先训练的命名实体识别工具,而这些工具往往只能识别出少量特定类型的实体,从而限制了领域的扩展;

2、现有方法通常将实体识别和关系抽取分开进行,从而容易造成错误的累积。

3、在通过远程监督方式生成的训练数据中,含有大量的噪音数据,因为其在实体和关系的链接过程中均没有考虑到上下文关系。

贡献

该篇论文的主要贡献分为以下四点:

1、提出了一个新的利用远程监督进行实体关系抽取的框架CoType。

2、提出了一种领域无关的文本分割算法,用来进行文本中 entity mentions 的识别。

3、提出了一个联合嵌入目标函数,用来形式化建模mention-type之间的关联、mention-feature之间的共现关系、entity-relation之间的交叉约束关系。

4、在三个公开数据集上取得了state-of-the-art的效果。

问题定义

给定一个POS标注的语料库D,一个知识库Ψ,一个目标实体类型集合,一个目标关系类型集合,联合抽取的目标就是(1)从语料库D中识别出entity mentions M;(2)利用知识库Ψ生成训练数据;(3)利用和上下文,预测每一个relation mentions的关系类型,以及 entity mentions的实体类型。

方法

模型框架图如下图所示,其方法主要分为四个部分:

1、使用文章中提出的 POS 约束的文本分割算法对POS标注的语料库D进行实体识别,识别出 entity mentions M。

2、从M中生成候选 relation mentions Z,并对每一个 relation mention 进行文本特征抽取,抽取的文本特征见下文。

3、通过联合嵌入,将 entity mentions、relation mentions、文本特征、实体关系类型嵌入到两个空间中去(实体空间以及关系空间),使得在每一个空间中,距离比较近的object拥有比较近的类型。

4、通过学习好之后的嵌入空间,评估测试集中每一个 relation mention 的关系类型以及每一个entity mention m 的实体类型。

640?wx_fmt=png

640?wx_fmt=png

1、    Entity Mention 抽取

文章提出了一种领域无关的文本分割算法,他的方法是通过计算切片质量函数来衡量这个片段是一个entity mention的概率,该切片质量函数由短语质量和POSpattern质量组成,并利用 D_L 数据来训练该模型的参数。

其工作流程主要分为以下四步:

  1. 从语料库 D 中挖掘频繁共同模板,包括短语模板和词性模板,并通过设置阈值的方式,进行模板的初步筛选。

  2. 从语料级别的一致性和句子级别的词性特征抽取特征训练两个随机森林分类模型,用于评估候选的短语模板和词性模板的分值。

  3. 根据目前的特征权重参数,找到切片质量函数得分最高的片段切割方式。

  4. 计算修正特征,更正参数,不断迭代2-4步,直到收敛。

切片评估函数如下:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

2、    Relation Mention 抽取

方法如下,对于来自一个句子s的实体对 (m_a,m_b),构建两个候选relation mentions z_1=(m_a,m_b,s) 和 z_2=(m_b,m_a,s)。在抽取30%无法链接到KB的relation mentions作为反例(None relationlabel),抽取30%无法链接的entitymentions建模None entity label。然后对relationmention 进行文本特征抽取,文本特征如下。

640?wx_fmt=png

3、    实体和关系的联合嵌入

该部分方法主要包含三个部分:

  1. 通过一个margin-base的loss函数来建模由噪音的mention-type之间的关系。

  2. 通过一个second-order proximity idea来建模mention-feature之间的贡献。

  3. 通过translation based embedding loss思想来建模实体-关系之间的约束关系。

3.1建模Relation Mentions

假设1:对于两个relation mentions,如果他们共享的文本特征越多,那么他们则更可能具有相似的类别,即在低维空间中比较接近,反之亦然。

形式化的说,文章应用second-orderproximity来建模该假设。

640?wx_fmt=png

640?wx_fmt=png

z_i 表示relation mention向量,c_j 表示文本特征向量。p(f_j |z_i) 表示由 z_i 生成 c_j 的概率。w_ij 表示语料库 D 中 (z_i,c_j) 的共现频率。

在基于远程监督生成的训练数据中,一个 relation mention 对应多个候选关系类型,基于假设1,可能会产生不同类型的mention具有相似的低维向量表示。因此需要将relation mention和它候选的标签之间关系是否是真的加入到模型之中,从而提出了假设2。

假设2:一个relation mention在低维空间中应该同它最可能的候选类型比较接近。

形式化定义如下,

640?wx_fmt=png

Φ(z_i,r' )表示relation 和关系 r' 之间的点积。

640?wx_fmt=png

最终,建模relation mentions的目标函数如下所示:

640?wx_fmt=png

3.2 建模Entity Mentions

Entity Mentions 建模过程如 Relation Mentions 几乎相同,其目标函数如下。

640?wx_fmt=png

640?wx_fmt=png

3.3 建模Entity和Relation之间的交互

假设3:对于一个relation mention z={m1,m2,s},m1的嵌入向量应该近似于m2的嵌入向量加上z的词嵌入向量。

形式化如下所示,

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

4、    联合优化问题

将上诉三个损失函相加,求他们的最小值。

640?wx_fmt=png

文章中使用了次梯度方法来求解该联合优化问题,算法如下图所示。

640?wx_fmt=png


5、    模型推断

在进行推断的过程中,对于关系类别,采用最近邻的方式查找,对于实体的类别,采用自顶向下的方式查找。在查找的过程中,利用特征来表示mention,计算mention的嵌入向量同实体类别和关系类别的相似度即可。

实验

作者在NYT、Wiki-KBP、BioInfer三个数据集上,对实体类型识别、关系分类、关系抽取三个任务进行了实验,取得了比较好的结果。

 

(1)数据集

640?wx_fmt=png

(2)实验结果

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

总结

文本提出了一种领域无关的利用知识库通过远程监督方式进行关系抽取的模型框架,包括了一种领域无关的文本分割算法用于识别实体,一个联合嵌入目标函数用来形式化建模 mention-type之间的关联、mention-feature之间的共现关系、entity-relation 之间的交叉约束关系。

 

论文笔记整理:王狄烽,南京大学硕士,研究方向为知识图谱、知识获取。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480271.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

POJ 2255 Tree Recovery(已知前序中序,求后序)

1. 题目链接:http://poj.org/problem?id2255 2. 题目大意: 给定二叉树的前序和中序序列,输出其后序序列 3. 思考过程: 4. AC代码 /*** description: 给出前序和中序二叉树节点序列,求后序二叉树节点输出序列* auth…

美团内推:java高级开发(一面+二面+三面),面试58题实拍!

美团内推(一面二面三面)面试题目 美团一面(电话) 自我介绍 项目介绍 Redis介绍 了解redis源码么 了解redis集群么 Hashmap的原理,增删的情况后端数据结构如何位移 hashmap容量为什么是2的幂次 hashset的源码 …

ACL20 best paper荣誉提名 | DO NOT STOP Pre-training!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | JayLou娄杰(NLP算法工程师,信息抽取方向)编 | 可盐可甜兔子酱在昨晚23点的best paper典礼上我惊了,这篇论文竟然获得了今年ACL2020 best paper荣誉提名..…

论文浅尝 | 对于知识图谱嵌入表示的几何形状理解

论文链接:http://anthology.aclweb.org/attachments/P/P18/P18-1012.Presentation.pdf发表会议:ACL 2018摘要知识图谱的嵌入表示在近几年已经成为一个非常活跃的研究领域,众多相关方法相继被提出,这些嵌入方法是将知识图谱中的实体…

数据结构--堆 Heap

文章目录1. 概念2. 操作和存储2.1 插入一个元素2.2 删除堆顶元素3. 堆排序(不稳定排序)3.1 建堆3.2 排序3.3 思考:为什么快速排序要比堆排序性能好?两者都是O(nlogn)4. 堆应用4.1 优先级队列4.2 用堆求 Top K(前K大数据…

金融时报:人工智能在银行中的应用—对全球30家大型银行的调查

原文地址:https://cloud.tencent.com/developer/article/1144829 (微信公众号 点滴科技资讯)尽管银行业对新技术感到兴奋,但仍采取比较谨慎的方式。德意志银行首席执行官约翰•克莱恩(John Cryan)曾经提出将…

百度Java三面:现场面试39题目实拍含答案!

百度一面(现场) 自我介绍 Java中的多态 为什么要同时重写hashcode和equals Hashmap的原理 Hashmap如何变线程安全,每种方式的优缺点 垃圾回收机制 Jvm的参数你知道的说一下 设计模式了解的说一下啊 手撕一个单例模式 算法题目 手撕算…

CCKS2020事理图谱应用工作:刘焕勇等.面向开放文本的逻辑推理知识抽取与事件影响推理探索

一、背景介绍 第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议…

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 北大小才女小轶昨晚ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中&#xff…

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

链接&#xff1a;https://arxiv.org/pdf/1809.01341.pdf动机&#xff08;摘要&#xff09;当前的知识库补全的方法主要是将实体和关系嵌入到一个低维的向量空间&#xff0c;但是却只利用了知识库中的三元组结构 (<s,r,o>) 数据&#xff0c;而忽略了知识库中大量存在的文本…

智能投顾原理与主流产品分析

原作者 王希&#xff0c;CFA&#xff0c;中国光大银行。核心观点&#xff1a;1、智能投顾的模式是通过技术实现财富管理的流程自动化&#xff0c;为客户定制FOF产品来投资并赚取管理费。目前尚未看出大数据分析、人工智能等技术在其中发挥出关键作用。2、智能投顾在美国的快速…

POJ 1442 Black Box(大小堆,求第K小的元素)

文章目录1. 题目链接2. 题目解读3. 代码3.1 Runtime Error 代码1. 题目链接 http://poj.org/problem?id1442 2. 题目解读 可以利用大小堆&#xff0c;大堆长度从1开始&#xff0c;每次1 大堆元素都比小堆的小&#xff0c;那么大堆顶的元素就是第k小的元素 3. 代码 3.1 Run…

阿里java架构师面试128题含答案:分布式架构+Dubbo+多线程+Redis

一、Java基础和高级 1.String类为什么是final的。 2.HashMap的源码&#xff0c;实现原理&#xff0c;底层结构。 3.反射中&#xff0c;Class.forName和classloader的区别 4.session和cookie的区别和联系&#xff0c;session的生命周期&#xff0c;多个服务部署时session管理…

LightGBM——提升机器算法(图解+理论+安装方法+python代码)

原文地址&#xff1a;https://blog.csdn.net/huacha__/article/details/81057150 前言 LightGBM是个快速的&#xff0c;分布式的&#xff0c;高性能的基于决策树算法的梯度提升框架。可用于排序&#xff0c;分类&#xff0c;回归以及很多其他的机器学习任务中。 在竞赛题中&am…

这个NLP工具,玩得根本停不下来

今天推荐一个有趣的自然语言处理公众号AINLP&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定位是…

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

来源&#xff1a;ACL 2017链接&#xff1a;http://aclweb.org/anthology/P17-2057本文提出将 Universal schema 用于自然语言问答中&#xff0c;通过引入记忆网络&#xff0c;将知识库与文本中大量的事实信息结合起来&#xff0c;构建出一个由问答对&#xff08;question-answe…

数据结构--图 Graph

文章目录1. 概念2. 存储方法2.1 邻接矩阵 Adjacency Matrix2.2 邻接表 Adjacency List3. 图的遍历3.1 广度优先搜索BFS&#xff08;Breadth First Search&#xff09;3.2 BFS代码&#xff08;基于邻接表&#xff09;3.3 深度优先搜索DFS&#xff08;Depth First Search&#xf…

2019最新拼多多Java面试题:幻影读+分段锁+死锁+Spring Cloud+秒杀

拼多多Java一面 简短自我介绍 事务的ACID&#xff0c;其中把事务的隔离性详细解释一遍 脏读、幻影读、不可重复读 红黑树、二叉树的算法 平常用到哪些集合类&#xff1f;ArrayList和LinkedList区别&#xff1f;HashMap内部数据结构&#xff1f;ConcurrentHashMap分段锁&…

视频问答兴起,多跳问答热度衰退,92篇论文看智能问答的发展趋势

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;编 | 北大小才女小轶2019年的时候&#xff0c;舒意恒Y.Shu整理了一份《2019年&#xff0c;智能问答有哪些研究方向&#xff1f;…

论文浅尝 | 知识图谱相关实体搜索

本文转载自公众号&#xff1a;南大Websoft。相关搜索&#xff08;Relevance Search&#xff09;是信息检索中的一个经典问题&#xff0c;相关搜索是指给定一个查询实体&#xff0c;返回与其相关度最高的实体&#xff08;一个类似的问题Similarity Search&#xff0c;一般来说指…