论文浅尝 | 知识图谱中的链接预测:一种基于层次约束的方法

论文笔记整理:张良,东南大学博士生,研究方向为知识图谱,自然语言处理。


640?wx_fmt=png

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8450054

 

本文主要关注KG上的 Link prediction 问题,以往的方法在处理KG的时候只利用了 KG 里最一般的结构,例如将关系向量r作为头实体向量h和尾实体向量t之间的一个翻译,这种结构在KG中是最直接最普遍的。然而还有许多其它特殊的 KG Structure 可以被利用从而提升链接预测等任务的效果。一个典型的结构就是知识图谱中的层次结构(hierarchical structure),这种结构包含了丰富的推理模式,可进一步提高链接预测的效果。在文本中,作者提出了一种基于翻译模型的层次约束链接预测方法,称为hTransM。它可以通过检测单步或多步的层次结构来适应性地决定最优间隔。


背景

在一个知识图谱中,节点表示实体,边表示节点之间的关系。知识图谱上的链接预测目的是为了能够预测出一个三元组(hrt)缺失的头实体h,尾实体t或者关系r。为了处理这一问题,已经出现了许多相关方法,大致可以分为两类。第一类是基于规则和路径的方法,也就是关系通过比较明确的规则和关系路径的学习预测得来。第二类就是基于知识图谱嵌入的方法,实体之间的关系通过嵌入向量被隐式地预测出来。这些方法中比较有代表性的有基于翻译模型的TransETransA,还有利用图谱结构的PTransE等。


动机

虽然已经出现了一些利用图谱自身结构的模型,如PTransE,但仍有许多图谱自身的特殊结构没有被有效利用,一个典型的结构就是知识图谱中的层次结构(hierarchical structure)。在这种结构中,实体组织成树状结构,它们的关系也为层次关系。这种层次结构类似关系路径,能够提供丰富的模式,从而提高链接预测效果。这种层次结构其实在知识图谱中普遍存在,例如数据集WN18,有将近50%的层次关系。这种层次结构会导致实体的嵌入向量呈一个比较特殊的分布,相比于没有层次结构的方法多了一些限制,从而可以提升链接预测等任务的效果。基于以上动机,作者提出了hTransM,一种基于层次约束的链接预测方法。文中的主要贡献有如下四点:

1)本文将层次结构分为两类,一类是单步层次结构(single-step hierarchical structures),另一类是多步层次结构(multi-step hierarchical structures)。另外,文中还提供了一种通过利用层次关系的属性来检测层次结构的方法。

2)提出了一种基于层次约束的链接预测方法(hTransM),该方法在知识图谱嵌入的方法上实现。

3)通过对提供模型的均匀稳定性以及误差的上界的证明,进一步证明了了hTransM方法的收敛性。

4)通过实体预测以及关系预测等实验证明了该方法的有效性。

主要方法

首先需要对一些概念进行定义,

层次结构(Hierarchical Structure):一个层次结构是通过一个关系将若干实体组合成层级的形式。不同的层级在垂直方向上区分出来,对于某一个层级,相对于其它层级的位置有上位,下位以及相同层级等关系。例如通过关系“孩子”(child)组成的层级结构,不同的层次表示不同代的人。

一个层次结构(Ahierarchical structure):通过关系 r* 构成,定义为640?wx_fmt=png,其子图是一个有向无环图。其中l是节点到层次索引的映射。

640?wx_fmt=png

1

在上图中,实体 Barack Obama SrBarack Obama 以及 Malia Sasha 通过关系 child 组成了一个三级层次结构。

层次关系(hierarchical relation):层次关系r用来使各层的实体属于同一层次。

关系路径(relation path):一条关系路径是由某个头实体出发到达某个尾实体之间所经过的所有关系组合而成。

640?wx_fmt=png

2

上图为从图1中抽取出的多种关系路径。

层次关系路径(hierarchical relation path):一个层次关系路径是一种多步关系路径,可以定义为640?wx_fmt=png640?wx_fmt=png。也就是说至少有一种关系出现在不同的层次中。

有两种推理类型的层次结构可以被用到链接预测任务中,分别是单步层次结构和多步层次结构。

单步层次结构(Single-stephierarchical structure):一个单步层次结构是一个层次结构的子图,可以定义为 640?wx_fmt=png,单步层次结构中的实体分布在两个不同的层次上,并通过单步关系(single-steprelation)进行链接,其尾实体有着共同的父节点。图3a)表示一个单步层次结构。

多步层次结构(Multi-step hierarchicalstructure):与单步层次结构对应,多步层次结构中的实体分布在不同的层次上,通过关系路径链接,这些路径有着相同的头实体和尾实体,可以定义为 640?wx_fmt=png,图3b)表示一个单步层次结构。

640?wx_fmt=png

3

 

和一般的关系相比较,通过层次关系组合在一起的实体在其嵌入空间中的分布会有着比较明显的区分,这种限制可以很好地被用到链接预测任务中。首先,在单步层次结构中,兄弟节点所对应的实体所对应的向量会在向量空间中比较相近,因为它们有共同的父节点,语义相似。在传统的学习方法中,大多只对头实体和尾实体进行约束,使它们尽可能靠近,而忽略了兄弟尾实体之间的语义相似。而这些相似性可以很好地作为推理信息被用到链接预测中。另外,这种层次结构已经大量地出现在知识图谱中,例如FB15KWN18K,都有将近50%的层次关系。

虽然知识图谱中已有许多层次结构,但还需要将其抽取出来。

层次结构的发现(Hierarchical Structure Discovery):以往的文献表明,DAG(有向无环图)有着独特的层次结构,从而可以利用许多算法进行发掘。由于许多DAG的子图并非具有层次结构,所以问题的关键在于检测其子图是否进一步具有层次结构,进而将问题聚焦到层次关系的发现(discoveryof hierarchical relations)。层次关系由于层次结构的原因是不能形成环状的,所以文中采用拓扑排序算法(topological sorting algorithm)来检测环状结构:

640?wx_fmt=png

除了不能形成环状,层次关系也应该是不自反的(irreflexive),例如BarackObama Sasha 之间的关系child。另外,层次关系与不平衡映射性质密切相关(一对一,一对多等映射)。

 

预测方法hTransM的提出:有文献表明,适当值(appropriate value)对于链接预测的提升非常重要。所以hTransM通过检测知识图谱中的层次结构和一般结构定义了一个层次约束的margin 640?wx_fmt=png,其中 640?wx_fmt=png被用来区分正确三元组和错误三元组。实体和关系的嵌入过程通过最小化带有640?wx_fmt=png的损失函数实现:

640?wx_fmt=png

这里的评分函数采用TransE里的形式。

由于层次结构是通过单步层次结构和多步层次结构组成的,所以也会有两方面组成。这里很自然地用线性组合的方式将两部分进行组合:

640?wx_fmt=png

其中α,β都是参数,640?wx_fmt=png用来发现单步结构所对应的最佳间隔,640?wx_fmt=png 则用来发现多步结构所对应的最佳间隔。

单步特定间隔640?wx_fmt=pngSingle-step Specific Margin):单步特定间隔是由对应的单步特定结构而产生的。对于一个给定的实体h和对应的关系r,正确实体的集合 Pr 由表示,集合中包含的实体都与h有关系r。错误实体的集合由 Nr 表示,集合中的实体与h有其它关系 r'。假如单步结构(single-step structure)具有层次性,那么正确实体就会分布地比较紧凑,即图4中的扇形区域。

640?wx_fmt=png

4

在这种情况下,把一个正例和一个负例区分开来不仅需要考虑与实体h的虽短距离d,还需要考虑与扇形区域的相近程度。对于一个给定的三元组(hrt),640?wx_fmt=png可以表示为: 640?wx_fmt=png。其中 640?wx_fmt=png为 Pr 和 Nr 之间的间隔, 通过来 640?wx_fmt=png给出。 640?wx_fmt=png

多步特定间隔640?wx_fmt=pngMulti-step Specific Margin):与单步特定间隔类似,多步特定间隔640?wx_fmt=png可以表示为640?wx_fmt=png。参数640?wx_fmt=png 640?wx_fmt=png给出。m_p 定义了 Pp 和 Np 之间的间隔。Pp 包含了正确的关系,Np 包含了错误的关系。其中 m_p 可以由图5进行表示。

640?wx_fmt=png

5

5中的环状代表正确关系,周围的长方体代表错误的关系。

 

论文还对hTransM方法的收敛性进行了证明。

 

实验结果

实验在FB15KWN18K以及FAMILY三个数据集上进行。FAMILY是一个人工构建的包含五个家庭总共六代人的层次知识图谱。三个数据集所包含的数据分布如下:

640?wx_fmt=png

实体预测实验结果:

640?wx_fmt=png

关系预测实验结果:

640?wx_fmt=png

实验结果表明 hTransM 在链接预测任务上的效果相比其它传统方法有一定的提升。

总结与展望

本文比较细致地从 KG embedding 模型损失函数中的间隔入手,充分考虑层次结构信息,对损失函数中的间隔项进行优化,并在此基础上提出了比较有效的链接预测方法。以往的 KG Embedding 方法在一定程度上忽视了知识图谱本身的结构化信息,最近一段时间相继出现了一些加入KG结构信息的论文,比如加路径,加节点的邻居信息,加三元组等等,但知识图谱中所包含的结构可能远不止于此,实现Link prediction的方法也不是必须要通过 KG embedding,在网络科学里(复杂网络)也有许多关于Link prediction的研究,大多都是从图论的角度,充分利用图谱自身结构(当然很少考虑语义),本文也是一种初步尝试,所以结合网络学科里的一些方法,可能会找到新的研究途径。

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里P8架构师谈:架构设计经验汇总

架构设计更多的是实践经验总结,以下架构设计经验,我会陆续补充完整。 一:数据库拆分原则 阿里P8架构师谈:架构设计之数据库拆分六大原则 二:缓存选择原则 阿里P8架构师谈:分布式缓存的应用场景、选型比较…

陈丹琦“简单到令人沮丧”的屠榜之作:关系抽取新SOTA!

文 | JayLou娄杰大家好,我是卖萌屋的JayJay,好久不见啦~最近在「夕小瑶知识图谱与信息抽取」群里和群友交流时,JayJay发现了来自陈丹琦大佬(女神)的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach…

肖仰华 | 知识图谱落地的基本原则与最佳实践

本文转载在公众号:知识工场。肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。此文内容取自肖仰华教授在华为、CCF等场合所做报告,完整内容见书籍《知识图谱:概念与技术》的…

预训练模型应用工具 PaddleHub情感分析、对话情绪识别文本相似度

文章目录1. 预训练模型的应用背景1.1 多任务学习与迁移学习1.2 自监督学习2. 快速使用PaddleHub2.1 通过Python代码调用方式 使用PaddleHub2.1.1 CV任务原图展示人像扣图人体部位分割人脸检测关键点检测2.1.2 NLP 任务2.2 通过命令行调用方式 使用PaddleHub3. PaddleHub提供的预…

NIPS’20 Spotlight | 精准建模用户兴趣,广告CTR预估准确率大幅提升!

源 | 京东零售技术在以人工智能技术为支持的推荐、搜索、广告等业务中,点击率预估(CTR)一直是技术攻坚的核心,同时也是人工智能技术在业务落地中最难实现的技术方向之一。第一期介绍了视觉信息使用帮助提高点击率预估的准确度&…

史上最强大型分布式架构详解:高并发+数据库+缓存+分布式+微服务+秒杀

分布式架构设计是成长为架构师的必备技能,涵盖的内容很广,今天一次打包分享,文末有:最全分布式架构设计资料获取方式~ 负载均衡 负载均衡的原理和分类 负载均衡架构和应用场景 分布式缓存 常见分布式缓存比较:memcac…

论文浅尝 | 面向多语言语义解析的神经网络框架

论文笔记整理:杜昕昱,东南大学本科生。来源:ACL2017链接:https://aclweb.org/anthology/P17-2007论文训练了一个多语言模型,将现有的Seq2Tree模型扩展到一个多任务学习框架,该框架共享用于生成语义表示的解…

LeetCode 46. 全排列(回溯)

文章目录1. 题目信息2. 解题2.1 利用hash map解决2.2 改用bool数组判断是否出现过1. 题目信息 给定一个没有重复数字的序列,返回其所有可能的全排列。 示例:输入: [1,2,3] 输出: [[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1] ]来源:力扣&#xf…

谷歌师兄的刷题笔记分享!

高畅现在是谷歌无人车部门(Waymo)的工程师,从事计算机视觉和机器学习方向。他在美国卡内基梅隆大学攻读硕士学位时,为了准备实习秋招,他从夏天开始整理某 code 上的题目,几个月的时间,刷了几百道…

【深度揭秘】百度、阿里、腾讯内部岗位级别和薪资结构,附带求职建议!

“ 最近很忙,文章没有及时更新。。 最近被问得最多就是想进入BAT等一线互联网公司,应该怎么办? 我先从BAT等这样的公司看看他们的招聘需求谈起,再结合这样的公司需要对技术的要求是什么,最后结合我的建议&#xff0…

LeetCode 47. 全排列 II(回溯+搜索剪枝)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个可包含重复数字的序列,返回所有不重复的全排列。 示例:输入: [1,1,2] 输出: [[1,1,2],[1,2,1],[2,1,1] ]来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problem…

会议 | 2019 全国知识图谱与语义大会 (CCKS 2019)

会议注册:http://www.ccks2019.cn/?page_id53会议地址与住宿:http://www.ccks2019.cn/?page_id366OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。点击阅读原文…

jieba分词太慢,怎么办?找jieba_fast

原文链接:https://www.rtnzero.com/archives/272.html 有时候感觉处理一个几十M的文本,要一分钟才能好,然后调试时各种心焦! 下面举个例子: 归零有一个11.9M的文本文件,是一些抓取到的Python长尾关键词&am…

DGL_图的打印

首先要安装 networkx import matplotlib.pyplot as plt import networkx as nx import dgl import numpy as np def build_karate_club_graph():src np.array([1, 2, 2, 3, 3])dst np.array([0, 0, 1, 0, 1])u np.concatenate([src, dst])v np.concatenate([dst, src])ret…

闲鱼账号被封怎么办?解封看这里!

怎样避免宝贝被屏蔽、限流解封账号?首先我们要学会规避封号的风险 不要频繁的更改账号,不要多账号单手机操作,一机一号才是正确。 不要连续给人商品点赞或是我想要,连续的操作容易被封 不要发布违禁品,违禁品具体可…

推荐系统顶会RecSys’20亮点赏析

文 | banana源 | 知乎RecSys 2020原计划是在南美洲巴西举办,因为疫情的原因不得不改到线上。虽说线上举办会议,参会效果会打折扣,但也为远在北京的我提供了参会便利。得益于各方的努力和软件的应用,整体来看此次参会的效果高于我对…

技术研讨会 | 2019 恒生技术开放日产业链知识图谱专场开始报名

知识图谱旨在采用图结构 (Graph Structure) 来建模和记录世界万物之间的关联关系和知识,是互联网时代的知识工程方法,能够对纷繁复杂、多源异构的金融资讯大数据进行加工整合,提升决策分析的效率,已经得到金融行业从业人士的普遍认…

01.神经网络和深度学习 W1.深度学习概论

文章目录1. 什么是神经网络2. 使用神经网络进行监督学习3. 神经网络的兴起4. 练习题1. 什么是神经网络 它是一个强大的学习算法,类似于人脑的工作方式。 例子1. 单个神经网络 给定房地产市场上房屋大小的数据,预测其价格。这是一个线性回归问题。 …

中文任务型对话系统中的领域分类

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ:项目地址:https://gitee.com/yh14232988/CrossWOZ?_fromgitee_search 具体介绍:https://cloud.tencent.com/developer/article/1617197 北邮张庆恒:如何基于 rasa 搭建一…

互联网热门职位薪酬报告

“ 很多同学毕业后想进入互联网领域,当前有什么热门的互联网工作机会,薪资结构怎么样?看图说话,我简短给 大家做一个回报。 互联网职位需求最热的TOP20 mikechen:我个人比较看好旅游、金融板块、医疗健康板块&#x…