论文浅尝 | 学习开发知识图谱中的长期关系依赖 - ICML 2019 ​

本文转载自公众号:南大Websoft。  


640?wx_fmt=png

论文:https://arxiv.org/abs/1905.04914

代码:https://github.com/nju-websoft/RSN



背景


知识图谱结构化地存储着大量现实世界中的事实。其中,每个事实都以三元组 (sro) 的方式进行描述,其中 s, o 分别表示头实体和尾实体,r 表示它们之间的关系。例如,三元组 (Tim Berners-Lee, country, United Kingdom) 描述了 Tim Berners-Lee 的国籍为 United Kingdom 这一事实。

 

通常情况下,单个知识图谱很难满足各类应用所需的全部知识。因此,知识图谱领域的学者们提出了两类相关任务:

  • 实体对齐 (entity alignment),其通过发现不同知识图谱中指称真实世界相同对象的实体的方式,将两个知识图谱链接起来,从而得到一个规模更大、信息更丰富的联合知识图谱。

  • 知识图谱补全 (knowledge graph completion),其主要目的在于利用单个知识图谱中的已知信息,通过推理和预测的方式补全该知识图谱所缺失的三元组,譬如预测 (Tim Berners-Lee, employer, ?) 或 (?, employer, W3C) 中的 ?。

 

目前大多数知识图谱嵌入方法都假设相似的实体会拥有相近的关系,因此这些方法更关注知识图谱中的三元组,即一阶邻居关系。但是,基于三元组的学习方式存在两个局限性:一是表达能力低,这是因为这种方式只能从一阶邻居的视角来学习实体的嵌入表示,而知识图谱中存在着大量拥有类似一阶关系的实体,比如有相同的国籍、出生地等。二是语义信息传递效率低,这是因为这些方法只能依靠周围的一阶邻居传递语义信息,而一个实体嵌入所能包含的信息是有限的,这意味着并不能将所有的邻居信息完整地传递到周围。

 

相较于三元组,路径能够提供更长、更具区分性的实体间依赖关系,一条知识图谱路径可以用如下方式表示:


United Kingdom, country−, Tim Berners-Lee, employer, W3C

 

值得注意的是,目前已有的基于路径的知识图谱嵌入方法大多只采用由关系元素组成的路径,而不考虑路径中的实体。并且,由于它们是利用路径辅助三元组训练,因此往往需要穷解路径空间来寻找符合条件的路径,因此大多只考虑由两个三元组组成的路径。

 


模型


循环神经网络 (recurrent neural networks, RNNs) 只使用少量的参数就能处理任意长度的序列,而知识图谱路径恰好是有序的,因此可以利用 RNNs 来建模知识图谱路径:

640?wx_fmt=png               

其中,Wh, Wx 均为 d × d 的权重矩阵,b 为偏置向量。显然,该循环神经网络中的参数只有 WhWx, b 三项,但能够建模任意长度的知识图谱路径。

 

值得注意的是,RNNs 无法识别出知识图谱路径中的三元组结构,包括:

  • 路径中“实体-关系-实体-关系”交错的链式结构;

  • 当预测一个关系的尾实体时,其头实体更加重要,比如推测 employer -> W3C 时,Tim Berners-Lee 是相对更重要的元素。


而循环跳跃网络 (recurrent skipping networks, RSNs) 通过利用一种跳跃机制建立一条捷径,在当前输入为实体嵌入时,利用该捷径跳过多个连接层,直接参与到预测对应的尾实体的过程中:

640?wx_fmt=png

其中,h't 为循环跳跃网络在时刻 t 的输出隐态,ht 为对应的传统循环神经网络的输出隐态。S1, S2 为权重矩阵,它们的参数在不同时刻是共享的。本文采用了带权相加的方式进行跳跃操作,但其他方法,例如拼接等,也能够使用。下图展示了循环跳跃网络处理一个长度为 5 的知识图谱路径的例子。


640?wx_fmt=png

 


理论分析


实际上,循环跳跃网络中的跳跃机制引入了一种全新的三元残差学习。

 

F(x) 表示原始的网络映射函数,其中 x 代表网络的输入,并用 H(x) 表示理想的网络映射。传统残差网络认为,相比于直接优化网络使 F(x) 去拟合 H(x),以一种差残的方法去优化 F(x),使其学习 H(x) − x 更为容易。例如,当理想的网络映射为 H(x) = x 时,通过多层复杂的神经网络来学习这个恒等映射将十分困难。相反,学习残差部分 (即 0 函数) 则十分简单。

 

循环跳跃网络更关注于“浅层”网络的拟合,而非训练层数很深的网络。这是因为,循环跳跃网络中的跳跃机制并非将位置靠前的输入尽可能地传递到深层网络中,而是关注如何建模知识图谱路径中的每个三元组。具体来讲,给定一条知识图谱路径 (..., xt−1xt, xt+1, ...),其中 (xt−1xtxt+1) 构成一个三元组。该跳跃机制直接引入了三元组中对应的头实体作为减数,因此循环跳跃网络所采用的残差学习是三元的。具体如下:

640?wx_fmt=png


以下表为例,当预测目标为 employer -> W3C 时,令 F([·], employer) := W3C 可能很难,因为上下文 [·] 包含了所有之前元素的信息。而令 F([·], employer) := W3CTim Berners-Lee 却让网络的优化变得简单,因为对于推测一个关系的尾实体来讲,头实体起着更加重要的作用。


640?wx_fmt=png



基于 RSNs 的知识图谱嵌入框架


本文还提出了一个端到端的知识图谱嵌入框架。目前大多数方法都只关注于单个知识图谱嵌入任务,比如知识图谱补全或实体对齐。ConvE、RotatE 在知识图谱补全任务上有着领先水平的性能,但在实体对齐任务上却失去了优势。本文所提出的框架能够同时在两种不同的任务上取得优秀的表现。

 

如下图所示,该框架首先使用有偏随机游走方法采样出一组具有深度和跨知识图谱偏好的路径,接着利用 RSNs 进行建模。根据每一步预测目标的不同,采用基于类型的噪音对比估计方法评估模型损失。


640?wx_fmt=png



实验与分析

 

实体对齐

实验结果如表中所示,RSNs 在所有数据集上均有明显的优势,尤其是在两个跨知识图谱数据集 DBP-WD 和 DBP-YG。通过对比框架中采用有偏 / 无偏随机游走采样方法,可以看出使用有偏随机采样的方法具有更好的性能,尤其是在 Hits@10 上。


640?wx_fmt=png


知识图谱补全

通过将三元组视为长度为 3 的路径,可以将 RSNs 应用于知识图谱补全任务中。但值得注意的是,两者的目标不完全一致,RSNs 学习的是更长的路径而非三元组,但仍取得具有竞争力的结果。


640?wx_fmt=png


与其他替代网络的对比

本文还验证了 RSNs 中跳跃机制的有效性,其中 RRNs 为直接结合 RNNs 与残差学习的一种方法。从结果可以看出 RSNs 显著提升了模型的收敛速度与性能,而仅仅加入残差网络到 RNNs 并不能有效提升性能。


640?wx_fmt=png


预对齐实体对比例对结果的影响

还研究了预对齐实体对比例对结果的影响。从结果可以看出,随着比例的下降,两种方法性能都有所降低。但 RSNs 下降的曲线更平缓,这意味着其对预对齐实体对的依赖更低。


640?wx_fmt=png

 

路径长度对结果的影响

还验证了路径长度对结果的影响。可以看出,在一定范围内,随着路径长度的增加,RSNs 的性能逐步提升。在长度为 15 左右时,增速开始放缓,直至收敛。该实验验证了更长的路径对于知识图谱嵌入学习的作用。


640?wx_fmt=png



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479783.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一张图看懂小米千亿美金生态链产品

小米上市近在眼前,最快5月初提交IPO申请,再到小米IPO股指不断攀升,估值直奔1000亿美金以上,小米用了7年时间,这在整个互联网的发展史上,也算是火箭般的发展速度。 今天我们一起复盘看看小米的千亿美金生态…

Pycharm使用远程服务器运行代码

pycharm下载专业版,然后用学生邮箱申请个激活码(我这里申请了个账号,更方便)。 连上厦大VPN,再用pycharm高级版可以直接连到学校的GPU服务器,这样平时不在学校也能调试服务器了。 厦大VPN设置 pycharm下载…

吐槽贴:用ELECTRA、ALBERT之前,你真的了解它们吗?

文 | 苏剑林单位 | 追一科技编 | 兔子酱在预训练语言模型中,ALBERT和ELECTRA算是继BERT之后的两个“后起之秀”。它们从不同的角度入手对BERT进行了改进,最终提升了效果(至少在不少公开评测数据集上是这样),因此也赢得…

LeetCode 56. 合并区间(优先队列)

文章目录1. 题目信息2. 解题2.1 报错的答案2.2 优先队列解题1. 题目信息 给出一个区间的集合,请合并所有重叠的区间。 示例 1:输入: [[1,3],[2,6],[8,10],[15,18]] 输出: [[1,6],[8,10],[15,18]] 解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6]. 示例 2:输入…

论文浅尝 | 基于复杂查询图编码的知识库问答

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。来源:EMNLP 2018链接:https://www.aclweb.org/anthology/D18-1242文章表示,复杂问答所面对的问题往往包含多种实体和关系(来自知识库…

阿里Java架构师精通资料:性能优化+亿级并发架构汇总+架构选型

分布式并发架构 微服务、Docker容器的基本原理、架构设计,以及应用场景。 缓存:Redis、Memcached、CDN、本地缓存 搜索引擎的选型:Lucene、Solr等选型与比较 应用服务器雪崩:长事务、SQL超时、同步接口引起的雪崩场景&#xff…

Google Cloud TPUs支持Pytorch框架啦!

文 | Sherry在2019年PyTorch开发者大会上,Facebook,Google和Salesforce Research联合宣布启动PyTorch-TPU项目。项目的目标是在保持PyTorch的灵活性的同时让社区尽可能容易地利用云TPU提供的高性能计算。团队创建了PyTorch/XLA这个repo,它可以…

LeetCode 231. 2的幂 LeetCode 338. 比特位计数(2进制1的个数)

文章目录1. 题目信息2. 解题拓展:求一个数n的2进制有多少个1?LeetCode 3381. 题目信息 给定一个整数,编写一个函数来判断它是否是 2 的幂次方。 示例 1:输入: 1 输出: true 解释: 20 1 示例 2:输入: 16 输出: true 解释: 24 16 示例 3:输…

最全阿里架构师P系列解读:P5-P8的技能要求和薪资结构

2018年持续一整年的架构设计分享,2019年我希望持续分享的同时,能真正意义上帮助到部分读者成为一名架构师。 学习的同时请千万别:只见树木,不见森林。 所以我会让大家先俯瞰完整的森林,我们再从树木开始,…

NeurIPS’20 | 长尾问题太严重?半监督和自监督就可以有效缓解!

文 | Yuzhe Yang源 | 知乎来给大家介绍一下我们的最新工作,目前已被NeurIPS 2020接收:Rethinking the Value of Labels for Improving Class-Imbalanced Learning。这项工作主要研究一个经典而又非常实际且常见的问题:数据类别不平衡&#xf…

论文浅尝 | 知识图谱中的链接预测:一种基于层次约束的方法

论文笔记整理:张良,东南大学博士生,研究方向为知识图谱,自然语言处理。链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber8450054本文主要关注KG上的 Link prediction 问题,以往的方法在…

阿里P8架构师谈:架构设计经验汇总

架构设计更多的是实践经验总结,以下架构设计经验,我会陆续补充完整。 一:数据库拆分原则 阿里P8架构师谈:架构设计之数据库拆分六大原则 二:缓存选择原则 阿里P8架构师谈:分布式缓存的应用场景、选型比较…

陈丹琦“简单到令人沮丧”的屠榜之作:关系抽取新SOTA!

文 | JayLou娄杰大家好,我是卖萌屋的JayJay,好久不见啦~最近在「夕小瑶知识图谱与信息抽取」群里和群友交流时,JayJay发现了来自陈丹琦大佬(女神)的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach…

肖仰华 | 知识图谱落地的基本原则与最佳实践

本文转载在公众号:知识工场。肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。此文内容取自肖仰华教授在华为、CCF等场合所做报告,完整内容见书籍《知识图谱:概念与技术》的…

预训练模型应用工具 PaddleHub情感分析、对话情绪识别文本相似度

文章目录1. 预训练模型的应用背景1.1 多任务学习与迁移学习1.2 自监督学习2. 快速使用PaddleHub2.1 通过Python代码调用方式 使用PaddleHub2.1.1 CV任务原图展示人像扣图人体部位分割人脸检测关键点检测2.1.2 NLP 任务2.2 通过命令行调用方式 使用PaddleHub3. PaddleHub提供的预…

NIPS’20 Spotlight | 精准建模用户兴趣,广告CTR预估准确率大幅提升!

源 | 京东零售技术在以人工智能技术为支持的推荐、搜索、广告等业务中,点击率预估(CTR)一直是技术攻坚的核心,同时也是人工智能技术在业务落地中最难实现的技术方向之一。第一期介绍了视觉信息使用帮助提高点击率预估的准确度&…

史上最强大型分布式架构详解:高并发+数据库+缓存+分布式+微服务+秒杀

分布式架构设计是成长为架构师的必备技能,涵盖的内容很广,今天一次打包分享,文末有:最全分布式架构设计资料获取方式~ 负载均衡 负载均衡的原理和分类 负载均衡架构和应用场景 分布式缓存 常见分布式缓存比较:memcac…

论文浅尝 | 面向多语言语义解析的神经网络框架

论文笔记整理:杜昕昱,东南大学本科生。来源:ACL2017链接:https://aclweb.org/anthology/P17-2007论文训练了一个多语言模型,将现有的Seq2Tree模型扩展到一个多任务学习框架,该框架共享用于生成语义表示的解…

LeetCode 46. 全排列(回溯)

文章目录1. 题目信息2. 解题2.1 利用hash map解决2.2 改用bool数组判断是否出现过1. 题目信息 给定一个没有重复数字的序列,返回其所有可能的全排列。 示例:输入: [1,2,3] 输出: [[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1] ]来源:力扣&#xf…

谷歌师兄的刷题笔记分享!

高畅现在是谷歌无人车部门(Waymo)的工程师,从事计算机视觉和机器学习方向。他在美国卡内基梅隆大学攻读硕士学位时,为了准备实习秋招,他从夏天开始整理某 code 上的题目,几个月的时间,刷了几百道…