论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文笔记整理:王狄烽,南京大学硕士,研究方向为关系抽取、知识库补全。


640?wx_fmt=png

链接:https://arxiv.org/pdf/1903.01306.pdf

发表会议:NAACL2019


动机

现有的利用远程监督进行实体关系抽取的方法大多关注于如何对训练数据进行降噪,从而提升模型效果,而忽略了长尾关系的抽取,使得长尾关系抽取效果极差。但是长尾关系的存在是不可忽略的,在NYT数据集中,大约70%的关系属于长尾关系(即该关系训练实例数量较少,少于1000)。如何提高模型对长尾关系抽取效果是该篇论文主要出发点。


贡献

该篇论文的主要贡献如下:

1、提出了一种长尾关系远程监督抽取的模型;

2、联合使用KG embeddings 和 GCNs 来学习关系丰富的语义信息;

3、利用coarse-to-fine knowledge-aware mechanism 来利用关系语义信息;

4、在NYT数据集上的结果表明当前模型在长尾关系的抽取上取得了state-of-the-art的效果。


方法

在方法整体思路上,遵从前人工作,利用语义相近的head关系,辅助训练长尾关系,从而缩小关系抽取时潜在的搜索空间、减少关系之间的不确定性。该思路的两个要点在于:1、如何学习得到关系语义信息;2、如何利用学习得到的关系语义信息。

对于如何学习得到关系语义信息,该论文首先利用现有的KG embeddings方法(如TransE等)学习得到关系的隐式语义信息,但是因为TransE等模型无法有效建模关系的一对多、多对多情况,从而仅仅通过KG embedding方法无法有效获取关系的语义信息。因此,论文中使用图卷积网络(GCNs)从关系的层次结构中获取关系的显式语义信息。最后将关系的隐式语义信息和显式语义信息进行结合从而得到最终的关系语义信息表示。

对于如何利用学习得到的关系语义信息,该论文首先利用CNN将句子编码为低维向量,然后使用 coarse-to-fine knowledge-aware mechanism 从多个同实体对句子(多实例学习)加权得到最终的句子向量表示。

模型的框架图如下所示:

640?wx_fmt=png


从模型框架图中可以看出,其方法主要包含三个部分:

1、实例编码模块:利用CNNs对句子进行编码;

2、关系知识学习模块:利用KG embedding和GCNs得到关系的语义表示;

3、Knowledge-aware注意力模块:利用关系语义信息对同实体对的多个句子进行加权得到最终句子的语义表示。


1、实例编码模块

 给定一个句子640?wx_fmt=png及其包含的两个entity mentions,利用CNN或PCNN模型,将原始的句子 s 映射到一个低维连续空间中,得到向量x,该论文使用的特征包括1、预训练Skip-Gram word embedding640?wx_fmt=png;2、position embeddings640?wx_fmt=png

 

2、关系知识学习模块

在关系知识学习中,综合利用 KG embedding 和 GCNs 得到关系的语义表示。对于KG embedding 使用 TransE 对知识进行预训练从而得到关系的隐式表示640?wx_fmt=png

对于如何使用GCNs得到关系的显示表示640?wx_fmt=png?论文中首先构建了关系的层次结构图,关系的层次结构图可以使用hierarchy clustering (Johnson, 1967) or K-means算法结构构建,也可以使用现有知识图谱中关系的层次结构。关系的层次结构图如下所示。

640?wx_fmt=png

对于构建的关系层次结构图,底部的节点用TransE预训练的关系向量进行初始化,父节点初始化为子节点平均值。

使用两层GCN,对构建的关系层次图进行迭代训练,GCN 输出层公式如下:

640?wx_fmt=png

最终关系的语义表示为:

640?wx_fmt=png

3、Knowledge-aware注意力模块

依从多实例学习,对于给定的实体对640?wx_fmt=png,以及相关的多个句子640?wx_fmt=png,对于一个关系r,我们可以得到其关系的层次链640?wx_fmt=png,其中640?wx_fmt=png640?wx_fmt=png的子关系。

我们计算 Attention 操作在关系层次链的每一层,从而得到每一层文本相关的关系表示,具体公式如下:

640?wx_fmt=png

640?wx_fmt=png


考虑到不同层次的关系对最终实例表示的贡献的不同,对每一层关系表示使用Attention操作,其中使用640?wx_fmt=png作为score-function,表示输入关系r和该层预测关系r之间的匹配层度,计算公式如下:


640?wx_fmt=png

最后使用640?wx_fmt=png来计算640?wx_fmt=png,计算公式如下:

640?wx_fmt=png

640?wx_fmt=png

实验

1、数据集

NYT dataset

Relations number

53

Training set

522611 sentences


281270 entity pair


18252 relation facts

Test set

172448 sentences


96678 entity pairs


1950 relation facts

2、实验结果

640?wx_fmt=png

640?wx_fmt=png

3、长尾关系实验结果

说明:为了体现模型在长尾关系的有效性,作者选择了实例数少于100/200的长尾关系,以长尾关系构建测试子集进行实验,实验结果如下。

640?wx_fmt=png


总结

本文针对长尾关系抽取提出了一种利用KG embedding和GCNs学习关系知识以及使用注意力机制利用学习得到的关系语义信息的模型。

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人脑是怎么防止梯度消失和梯度爆炸的?

文 | 极市平台源 | 知乎问答导读梯度消失和梯度爆炸一直是深度学习的难点,而人脑有接近900亿个神经元,可以说是一个非常规模庞大的网络。那么人脑是如何防止梯度消失和梯度爆炸的?观点一作者丨冒蓝火的加特林感觉这个问题跟我的科研方向有一点…

史上最全java架构师技能图谱(下)

“java架构史上最全技能图谱分为上下两篇,这是java架构史上最全图谱下篇,包含: 大数据以及性能、设计模式、UML、中间件、分布式集群、负载均衡、通讯协议、架构设计等技术图谱等章节。 如果需要上篇内容:数结构算法、java进阶、…

Git基本指令

一、创建本地仓库进行版本控制 在工作区 local_repository 新建readme.txt文件: git init :初始化一个空的本地仓库,并在本地仓库生成了.git 文件git add readme.txt :将文件放到暂存区,表示这个文件受git管理git co…

LeetCode 21. 合并两个有序链表(单链表)

文章目录1. 题目信息2. 解题1. 题目信息 将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例:输入:1->2->4, 1->3->4 输出:1->1->2->3->4->4来源&#xff1a…

一文读懂最强中文NLP预训练模型ERNIE

基于飞桨开源的持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。本文带你进一步深入了解ERNIE的技术细节。 一:ERNIE 简介 1.1 简介 Google 最近提出的 BER…

BERT原理、代码、相关模型、精调技巧,看这个就够了

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术2018 年 10 月,由 Google 推出的 BERT 模型一鸣惊人,刷爆了各路榜单,甚至超越了人类基线分数,实现了 NLP 领域里程碑式的突破。 如今,对于 NLP 算法…

论文浅尝 | 利用 KG Embedding 进行问题回答

论文笔记整理:吴杨,浙江大学计算机学院,知识图谱、NLP方向。http://research.baidu.com/Public/uploads/5c1c9a58317b3.pdf动机本文主要针对基于知识库的问题回答中的简单问题,也就是问题的答案只涉及KG中的一跳,此类问…

想成为阿里160万年薪的P8架构师?你必须掌握如下6大技能体系!

程序设计和开发 数据结构和算法:常用数据结构,排序,检索等 面向对象编程、设计模式,掌握建模语言和建模工具:UML、MVC编程思想 高质量编码能力:重用性,低耦合,可扩展性&#xff0c…

技术动态 | 知识图谱的策展

作者:Jiaoyan Chen, Senior Researcher, Department of Computer Science, University of Oxford, Research interests: Knowledge Base, Knowledge-based Learning, Machine Learning Explanation.知识图谱在众多的领域中发挥了重要作用,比如聊天机器人…

21届校招薪资曝光:严重倒挂老员工!

源 | 量子位一开始,还以为是科技互联网公司招聘的新把式。因为就在最近,一张美团应届生薪资的截图,在各大社区和校招群里火了。仅仅算法岗、开发岗的薪资白菜价,就有27k15.5,算下来,年薪就有41万。虽然这两…

从Java程序员进阶到架构师,6大核心技能要领详解

“ java架构师技能将分为如下6大环节:数据结构和算法,Java高级特性,Java web核心,数据库,Java框架与必备工具,系统架构设计。 希望能真正帮助到从程序员进阶到架构师之路的朋友。 数据结构和算法 算法分…

领域应用 | ​英文抗生素药物医学知识图谱 IASO1.0 版发布 线上试用正式启动

本文转载自公众号:PKU自然语言处理前沿。近日,由北京大学互联网信息工程研发中心(CIRE)开发的英语医学知识图谱英文抗生素药物医学知识图谱IASO1.0发布,面向公众正式开放试用。IASO是利用自然语言处理与文本挖掘技术&a…

谷歌大改Transformer注意力,速度大涨,显存大降!

源 | 机器之心导读考虑到 Transformer 对于机器学习最近一段时间的影响,这样一个研究就显得异常引人注目了。Transformer 有着巨大的内存和算力需求,因为它构造了一个注意力矩阵,需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最…

阿里P7架构师要求:Web核心+开源框架+大型网站架构!含面试题目!

阿里P7技能(一):数据结构和算法: 常用数据结构:链表、堆与栈、哈希表等,常用的排序等。 掌握:精通 阿里P7技能(二):java高级 java相关的高级特性&#xff1…

LeetCode 986. 区间列表的交集

文章目录1. 题目信息2. 解题1. 题目信息 给定两个由一些闭区间组成的列表&#xff0c;每个区间列表都是成对不相交的&#xff0c;并且已经排序。 返回这两个区间列表的交集。 &#xff08;形式上&#xff0c;闭区间 [a, b]&#xff08;其中 a < b&#xff09;表示实数 x …

论文浅尝 | 学习开发知识图谱中的长期关系依赖 - ICML 2019 ​

本文转载自公众号&#xff1a;南大Websoft。 论文&#xff1a;https://arxiv.org/abs/1905.04914代码&#xff1a;https://github.com/nju-websoft/RSN背景知识图谱结构化地存储着大量现实世界中的事实。其中&#xff0c;每个事实都以三元组 (s, r, o) 的方式进行描述&#xf…

一张图看懂小米千亿美金生态链产品

小米上市近在眼前&#xff0c;最快5月初提交IPO申请&#xff0c;再到小米IPO股指不断攀升&#xff0c;估值直奔1000亿美金以上&#xff0c;小米用了7年时间&#xff0c;这在整个互联网的发展史上&#xff0c;也算是火箭般的发展速度。 今天我们一起复盘看看小米的千亿美金生态…

Pycharm使用远程服务器运行代码

pycharm下载专业版&#xff0c;然后用学生邮箱申请个激活码&#xff08;我这里申请了个账号&#xff0c;更方便&#xff09;。 连上厦大VPN&#xff0c;再用pycharm高级版可以直接连到学校的GPU服务器&#xff0c;这样平时不在学校也能调试服务器了。 厦大VPN设置 pycharm下载…

吐槽贴:用ELECTRA、ALBERT之前,你真的了解它们吗?

文 | 苏剑林单位 | 追一科技编 | 兔子酱在预训练语言模型中&#xff0c;ALBERT和ELECTRA算是继BERT之后的两个“后起之秀”。它们从不同的角度入手对BERT进行了改进&#xff0c;最终提升了效果&#xff08;至少在不少公开评测数据集上是这样&#xff09;&#xff0c;因此也赢得…