论文浅尝 | 采用成对编码的图卷积网络用于知识图谱补全

f8ba58716a37d19dca8bcc4d93addbf9.png

笔记整理:姚祯,浙江大学在读硕士,研究方向为知识图谱表示学习,图神经网络。

论文引用:Liu S, Grau B, Horrocks I, et al. INDIGO: GNN-based inductive knowledge graph completion using pair-wise encoding[J]. Advances in Neural Information Processing Systems, 2021, 34.

Motivation

6a94813de06306e6190e82c71e49a64c.png

基于嵌入的方法通常是在向量空间中表示KG,然后对于结果向量应用预先定义的评分函数来进行知识图谱补全。但是这种方法的弊端就是对于训练过程中存在的实体,可以有很好的训练效果,但是对于在训练过程中没有出现的实体,这种方法的效果就会变得很差。

而在实际应用中,KG通常是在变化的,因此很容易出现在训练过程中并未见过的实体,会使得效果很差。例如在图中,实线部分是训练集,虚线部分是测试集。对于(Plato, lives, Greece)这一三元组,因为Plato,lives,Greece这三个向量都在训练过程中进行了反向传播得到了合理的向量表示,因此在链路预测的过程中很容易预测成功。但是对于(Aristotle, student, Plato), (R.Feynman, student, J.Wheeler),(J.Wheeler, lives, USA)这三个三元组,因为在训练过程中并未出现,因此它们的向量仅仅是随机初始化的向量表示,此时采用基于嵌入的方法,几乎不可能找到正确的预测结果。因此文中将这种基于嵌入的方法称为transductive mothed。例如TransE,RotatE。

基于图神经网络的方法可以捕获模型的结构特征,GCN本身基于图像的对称性,即有相同邻居的节点会有相同的值。在相同的结构下是不变的,可以捕获结构的一般形式。因此文中将这种基于图神经网络的方法成为inductive mothed。例如RGCN。但是这种基于卷积的方法仍然没有拜托对向量定义打分函数的方式来进行评估,作者提出了一种新的方法,通过将KG以透明的方式(transparent)编码到GCN中,并在GCN的最后一层直接解码得到向量表示而不需要额外的评分函数。

Mothed

4df1865f7ea8094e1a4fabeef8de103f.png

•Encoding

作者首先定义了节点表示图,节点表示图是由KG编码而来,KG中的节点表示实体,边表示关系。而在节点表示图中,每个节点表示一个实体对,在原图中,如果存在一个节点或者两个节点之间存在一条边,那么在节点表示图中会有一个节点,如(Plato,lives,Greece)会有三个节点,并且每个节点会生成一个向量表示,向量的维度为关系数量的2倍。用来表示两个节点之间存在何种关系,同样以(Plato,lives,Greece)为例,编码在图中的节点为(G,S),(G,G),(S,S)。作者规定节点对的编码是以两个单词的字典序作为前后顺序,也就是说一个节点对仅存在唯一的节点表示。对于(G,S)节点来说,其向量表示为(0,1,0,0)。因为图中有两个关系lives和student,因此表示向量的维度为4。第一个零表示不存在(Greece,lives,Plato)这样的关系,因此编码为0;同理存在(Plato,lives,Greece)这样的关系,因此编码为1。后面两个依次表示不存在(Greece,student,Plato),(Plato,student,Greece)这样的关系。

定义完节点,作者对图中的边进行了定义,对于每一个节点中出现的实体,如果在另一个节点中出现,那么这两个节点之间就会存在一条边。同样以(G,S)为例,因为出现了G节点,因此首先和存在G实体的所有节点相连,之后再和存在S实体所有节点相连。这样就完成了作者提出的节点表示图。在这种方式下编码的特征向量和KG之间的三元组建立了一对一的对应关系。并且使得GCN可以更加容易地学习到图中的结构模式。例如,这样的结构模式更容易捕获到具有师生关系的三个人大概率生活在同一个国家这样的逻辑。实质上作者是用一种比较巧妙的方式,更好地聚合了一个知识图谱中实体的多条邻居信息。对于节点表示图的复杂性,作者进行了理论分析,INDIGO编码图的边的数量是随着KG中实体数量呈幂级增长,不过考虑到现实中的知识图谱大都是稀疏图,因此可以将节点的最大出度视为一个常数,此时INDIGO编码图的边的数量是随着实体数量线性增长的。

•GCN

模型的GCN模块采用了最为简单的图卷积神经网络的形式,用于聚合相邻节点的embedding更新自身的节点表示。损失函数也采用了最常见的交叉熵损失函数,进行反向传播。

2613fc4ceab0ef2dcc0a006477a00574.png

其中  为节点的度矩阵,  为加入自环的邻接矩阵,  为第l层的特征矩阵,  参数矩阵。

•Decoding 解码过程可以看作编码过程的镜像,作者提到在GNN的最后一层中会输出每个节点的向量表示,由于最后是经过了Sigmod函数输出的,因此向量的范围在(0,1)之间被定义为预测的可信度。所以在解码过程中,作者规定了一个判别值,即当值大于0.5时为1,值小于0.5时为0。

Experiment

数据集、基线、评估指标

•数据集

4e3663a5449ec022b1a302732900c3ce.png

GraIL-BM共有12个数据集,分别由FB15K-237,NELL-995和WN18RR随机采样一些实体作为种子,然后取周围的k-hop邻域的并集得来。

Hamaguchi-BM共有9个数据集,由WN11数据集中随机采样1k,3k,5k个三元组的头实体、尾实体或头尾实体对作为不可见实体集划分而来。

INDIGO-BM作为该论文提出的数据集是由FB15K-237数据集而来,首先通过Freebase语义网对FB15K237进行扩充,随后采样得到1000个三元组将其所包含的所有实体设置为不可见实体集。将不存在不可见实体集的三元组集合按9:1的比例分成训练集和验证集。剩下的部分作为测试集,整体的步骤和Ham-BenchMark数据集生成方法类似。

•Baseline

作者选用R-GCN作为最基础的Baseline,Grail和Ham同样是针对inductive推理提出的模型,它们对于不可见实体在预测过程也具有推理能力,同样作为实验的baseline。

•评价指标

评估指标包含:precision,recall,ACC,AUC,e-Hits和r-Hits。定义如下:

beb0329a0d535220277ffb7f21927f81.png

AUC表示精度找回曲线积分,定义精度召回图以精准率precision为y轴,以召回率recall为x轴,对于给定阈值θ,都会有坐标轴上的点(r(θ),p(θ)),其中r(θ)为召回率,p(θ)为准确率。

e-Hits@3表示实体预测中正样本置信度排名前三的比例。

r-Hits@3表示关系预测中正样本置信度排名前三的比例。

•实验结果

c03d0bbd8cd77f3d7ebd8f3ee4c8a957.png

GraiL模型提出了12个benchmark,Ham模型提出了9个benchmark。再加上作者提出的一个benchmark,一共有22个数据集。可以看到在ACC上模型在19个数据集上达到了SOTA,在AUC上模型在18个数据集上达到了SOTA,对于实体命中率,模型效果比较差,仅5个数据集上达到了SOTA。关系命中率模型效果很好在所有的数据集上都达到了SOTA。作者认为传统的的GCN模型在负采样的过程中随机替换了实体,这会被认为是对于正确实体的“偏见”。INDIGO的抽样策略中不存在这种“偏见”,因此导致了训练性能的降低。

Summery

本文提出了一种新的图编码方式,可以将KG中的实体对和关系编码到图卷积网络中,可以用于链接预测任务,并且不依赖打分函数评估预测的准确性。大量实验证明这种方法是有价值的,通过inductive推理可以对于训练集中没有见过的实体保持一定的准确率。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

69a48049004571ca6cdcd81c3196ef16.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477803.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

调研了下 AI 作曲,顺便做了期视频...快进来听歌!

文 | 白鹡鸰编 | 小轶视频 | 白鹡鸰嗨,大家好!这里是卖萌屋,我是白鹡鸰。今天和大家聊聊人工智能作曲。人工智能在音乐领域的应用已经非常常见了,像听歌识曲、曲风分类、自动扒谱等等,而 利用机器来替代人类作曲 &…

LeetCode 1275. 找出井字棋的获胜者(位运算)

1. 题目 A 和 B 在一个 3 x 3 的网格上玩井字棋。 井字棋游戏的规则如下: 玩家轮流将棋子放在空方格 (" ") 上。第一个玩家 A 总是用 “X” 作为棋子,而第二个玩家 B 总是用 “O” 作为棋子。“X” 和 “O” 只能放在空方格中,而…

论文浅尝 | DSKReG:基于关系GNN的推荐知识图谱可微抽样

笔记整理:李爽,天津大学硕士链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482092动机在信息爆炸的时代,推荐系统被广泛研究和应用,以发现用户的偏好信息。RS在冷启动时性能较差,如果将知识图谱(Knowl…

数据开放平台的配置管理

背景 美团是数据驱动的技术公司, 非常重视使用数据的效率。为了达到这个目标,我们将数据以开放平台的形式开放给需求方。例如,帮助需求方开发报表的报表开放平台,帮助需求方获取数据的自助查询平台,让需求方参与数据建…

LeetCode 1271. 十六进制魔术数字(进制转换)

1. 题目 你有一个十进制数字,请按照此规则将它变成「十六进制魔术数字」:首先将它变成字母大写的十六进制字符串,然后将所有的数字 0 变成字母 O ,将数字 1 变成字母 I 。 如果一个数字在转换后只包含 {“A”, “B”, “C”, “…

评测任务征集 | 全国知识图谱与语义计算大会(CCKS 2022)

评测任务征集全国知识图谱与语义计算大会(CCKS 2022)2022年8月25-28日,秦皇岛http://sigkg.cn/ccks2022/全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and SemanticComputing)由中国中文信息…

SegmentFault 美团云采访实录

约半年前,美团悄然上线了美团云(Meituan Open Services,简称MOS),这是美团网根据自身虚拟化平台开发和运维经验开放的云计算服务,类似AWS。 美团 CEO 王兴可能是中国最知名的连续创业者,曾创办校…

开局一段扯,数据全靠编?真被一篇“神论文”气到了

文 | 苏剑林(追一科技)编 | 智商掉了一地看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错,否则真的是“无奇不有”!!这篇文章谈一下笔者被…

LeetCode 147. 对链表进行插入排序(链表)

1. 题目 对链表进行插入排序。 插入排序的动画演示如上。从第一个元素开始,该链表可以被认为已经部分排序(用黑色表示)。 每次迭代时,从输入数据中移除一个元素(用红色表示),并原地将其插入到…

征稿 | 软件学报专刊征文:知识赋能的信息系统

伴随着人工智能的浪潮,智慧信息系统的发展方兴未艾,正处于由感知智能到认知智能转变的关键时期。要实现认知智能的系统跃升,离不开知识的赋能。在数字化转型背景下,数据对象和交互方式的日益丰富和变化,对以知识图谱为…

基于Flume的美团日志收集系统(二)改进和优化

在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。 …

LeetCode 462. 最少移动次数使数组元素相等 II(数学)

1. 题目 给定一个非空整数数组,找到使所有数组元素相等所需的最小移动数,其中每次移动可将选定的一个元素加1或减1。 您可以假设数组的长度最多为10000。 例如: 输入: [1,2,3] 输出: 2说明: 只有两个动作是必要的(记得每一步仅可…

embedding亦福亦祸?XGBoost与LightGBM的新机遇

文 | 水哥源 | 知乎Saying1. 小的性能差异在容易实现面前一文不值,这一点是XGBoost和LightGBM的最大优势2. 没能与embedding很好地结合无疑是树模型的灾难,吃不下巨量的新数据,也打不过DNN,除了一些规模比较小的公司,树…

论文浅尝 - ACL2022 | 面向推理阅读理解的神经符号方法

转载公众号 | 南大Websoft概述近两年来NLP领域出现了一些富有挑战性的机器阅读理解数据集,如ReClor和LogiQA。这两个数据集中的问题需要对文本进行逻辑推理,然而传统的神经模型不足以进行逻辑推理,传统的符号推理器不能直接应用于文本。为了应…

LeetCode 1026. 节点与其祖先之间的最大差值(二叉树DFS)

1. 题目 给定二叉树的根节点 root,找出存在于不同节点 A 和 B 之间的最大值 V,其中 V |A.val - B.val|,且 A 是 B 的祖先。 (如果 A 的任何子节点之一为 B,或者 A 的任何子节点是 B 的祖先,那么我们认为…

凭“难听”上热搜的 idol 们,不如考虑下让 Transformer 帮您作曲?

视频制作 | 白鹡鸰编 | 小轶考虑到 “AI 音乐”这一主题的特殊性,唯有多媒体的视频形式才能更好地给大家带来视听上的多重感受。于是,小屋的白鸟鸟同学在科研间隙连续肝了好几个晚上,才得以完成这次视频。然而在上周的推送中,不知…

YUI3在美团的实践

美团网在2010年引爆了团购行业,并在2012年销售额超过55亿,实现了全面盈利。在业务规模不断增长的背后,作为研发队伍中和用户最接近的前端团队承担着非常大的压力,比如用户量急剧上升带来的产品多样化,业务运营系统的界…

论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练

论文题目:OntoProtein: Protein Pretraining With Gene Ontology Embedding本文作者:张宁豫(浙江大学)、毕祯(浙江大学)、梁孝转(浙江大学)、程思源(浙江大学&#xff09…

LeetCode 540. 有序数组中的单一元素(位运算二分查找)

1. 题目 给定一个只包含整数的有序数组,每个元素都会出现两次,唯有一个数只会出现一次,找出这个数。 示例 1: 输入: [1,1,2,3,3,4,4,8,8] 输出: 2示例 2: 输入: [3,3,7,7,10,11,11] 输出: 10注意: 您的方案应该在 O(log n) 时间复杂度 和 O…

迁移Prompt–解决Prompt Tuning三大问题!

文 | Harris刘鹏飞博士将近代NLP的研究划归为四种范式 [1] 并把预训练语言模型加持下的Prompt Learning看作是近代自然语言处理技术发展的“第四范式”。当我们使用新范式的方法的时候,能够意识到它带来的优异性可能是以某种“人力”牺牲为代价的。而如何让这种人力…