论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入

dbbcf8b91e0105774856cae3c9e2bd2b.png

笔记整理:黎洲波,浙江大学硕士,研究方向为自然语言处理、知识图谱。

研究背景

知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注,而大部分知识图谱都存在不全和缺失实体链接的问题,所以需要进行链接预测(Link Prediction)和知识图谱补全(Knowledge Graph Completion)。知识图谱嵌入(Knowledge Graph Embedding)方法被提出来解决该问题。知识图谱嵌入是将知识图谱中所有的实体和关系嵌入到低维空间的方法,从基于距离的方法TransE到目前的效果最好的RotatE,在知识图谱补全任务上效果持续提升。

在知识图谱嵌入中,有两个主要问题受到广泛关注:

1.如何解决1对N,N对1和N对N的复杂关系表示问题。比如1对N的关系:基于距离的方法中,三元组(StevenSpielberg, DirectorOf, ?)的补全要求在经过关系变换DirectorOf后,Jaws和JurassicPark等实体能够距离StevenSpielberg更接近,但是使所有这类实体具有不同的表示是很困难的。2.如何通过已有的三元组学习和推断关系模式。关系模式例如对称(Symmetry)关系IsSimilarT,非对称(Antisymmetry)关系FatherOf,逆向(Inverse)关系PeopleBornHere和PlaceOfBirth以及组合(Composition)关系mother’s father is grandpa等等。

研究动机

之前的TransH、TransD和TransR等方法致力于解决复杂关系表示问题,却只能编码对称/非对称关系,最新的RotatE在编码对称/非对称关系,逆向关系和组合关系上取得了优异的效果,但是复杂关系的预测依然具有挑战性。由此,论文提出了一种新的知识图谱嵌入方法PairRE,它能够同时编码复杂的关系和多种关系模式。

研究方法

模型中使用的两个用于关系表示的向量将头尾实体分别投影到欧式空间,再最小化投影向量的距离。其形式化描述如下:

6fc5268fcfce8cd70222668dd4b9b934.png

PairRE和前面提到的几种方法的比较如下,可以看出相比于RotatE,论文提出的PairRE方法在复杂关系表示上表现更优,同时在关系模式的编码上能够编码子(Sub)关系。

4f909b5b1110261d7d9422f1caf8c261.png

直观来说,PairRE中所有的实体表示都在一个超球上。

baacf4393141bd67e16da74c27042df5.png

相比于其他方法,PairRE允许一个实体在不同的关系中有分布式表示,并且成对的关系向量能够对损失函数中的边际进行自适应调整,从而缓解复杂关系的表示问题。例如在1对N的关系补全(h, r, ?)中,由正确的尾实体集合S = {t_1,t_2,…,t_N},论文基于固定边际参数γ的设计了t_i的取值范围:

6cf429c75de2bd0ca18d6fd6c18250f5.png

在TransE和RotatE中也有类似的固定边际参数来控制复杂关系表示,当|S|足够大时,PairRE能够通过减小|r^T|来拟合t_i,而前两种方法效果不佳。

对于各种关系模式,证明PairRE编码的形式化描述如下:

190790afb8d2b9184a3db3a54d5ed148.png

对称/非对称关系模式

4886a3f2400bd0cf8a29c6fa753d2af3.png

逆向关系模式

7b5fd22e62ebc189c96f3e693637b975.png

组合关系模式

对于子关系编码,PairRE满足了以下条件:

fd8d638529714be87eeaae9992a46f2c.png

91c74a5e553d2bec1bb7d3adfdbef07a.png

子关系模式

PairRE的模型优化中使用了自对抗(Self-adversarial)的负采样损失函数:

3aa53f600afb4bd1fb005dee8d7934aa.png

其中,γ是固定边界参数,σ是sigmoid函数,(h_i^',r,t_i^')是第i个负样本,补充定义如下

97627f12a8d17ba14a3ac4d885d7b54e.png

实验验证

实验中用于做链接预测任务的数据集信息如下图

4f265441c98e8b0fb30a5c236283e7b2.png

PairRE和其他方法的结果比较如下

79c114503e887b3e0f92d1da48c8ba79.png

上图是本文的主实验结果,可以看到Pair相比于RotatE在各个设定下都取得了更好的效果,如果嵌入向量的维度能够升高到500,效果可能会进一步提升。

20aeb6dec44de09adc9216931c2f455f.png

文中提到,由于PairRE和RotatE共享超参数和实现方法,所以客观来说与RotatE比较更公平。

论文还针对子关系模式做了补充实验,将PairRE同ComplEx-NNE-AER和SimplE^+进行对比,这两种方法通过设计子关系规则进行语义匹配。论文同时借鉴了ComplEx-NNE-AER中的规则,对本来的损失函数进行改变如下:

3f65c9b43ef0a60dc0375316d7c6c619.png

对数据集Sports添加以下规则并获得结果

1a61b7f00ff6cedbca2f372655fa9721.png

6ef6d1c3adf15860f5dafc34862ebfcf.png

将子关系模式中的两个关系看作同等之后,在数据集DB100k上获得的结果如下

3752b04e9306524a6c574d65db0cdec5.png

模型分析

fab9e0343d59e24939bc24eb1c04a802.png

对于复杂关系的表示问题,论文对关系的种类进行分别实验,结果表明PairE在N对1和N对N的关系表示在数据集FB15k和ogbl-wikikg2上表现明显超过了其他模型,但是在1对1和1对N的关系表示上结果不佳。论文为了证明成对的关系向量有优越性,单独将成对关系向量机制加在RotatE上,在ogbl-wikikg2数据集上取得了良好的效果。

ee76334670139523bdafa3506cb69d8c.png

对于关系模式问题,论文在嵌入向量维度为500下取DB100k中的对称关系r_1:spouse和非对称关系r_2:tv_station/owner,对称关系编码满足r^(H^2 )=r^(T^2 ),编码效果如下:

aab60f703eb15d8a2e4ead43d3c37c74.png

验证逆向关系r_2和r_3: tv_station_owner/tv_stations,编码满足r_3^H∘r_2^H=r_3^T∘r_2^T,编码效果如下:

f8941545f1a4244f9e428f4129fe4d82.png

验证组合关系r_4: /location/administrative_division/capital/location/administrative_division_capital_relationship/capital,r_5: /location/hud_county_place/place和r_6: base/areas/schema/administrative_area/capital.,编码满足r_4^H∘r_5^H∘r_6^T-r_4^H∘r_5^T∘r_6^H,效果如下:

240c24fcf91cc007199cb490cb65e3f7.png

总结

论文提出的PairRE方法用成对的向量表示每个关系,使损失函数中的余量能够自适应调整,以适应不同的复杂关系,在复杂度略有增加的情况下有效地解决了知识图谱嵌入中的问题。除了对称/不对称、逆向和组合关系之外,PairRE还可以通过对关系表示的简单约束编码子关系。在大规模数据集ogbl-wikikg2上,PairRE取得了最优效果。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

7811c0e2c3b6563cc175339684f164ad.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java内存访问重排序的研究

什么是重排序 请先看这样一段代码1: public class PossibleReordering { static int x 0, y 0; static int a 0, b 0;public static void main(String[] args) throws InterruptedException {Thread one new Thread(new Runnable() {public void run() {a 1;x…

LeetCode 1261. 在受污染的二叉树中查找元素(树哈希)

1. 题目 给出一个满足下述规则的二叉树: root.val 0如果 treeNode.val x 且 treeNode.left ! null,那么 treeNode.left.val 2 * x 1如果 treeNode.val x 且 treeNode.right ! null,那么 treeNode.right.val 2 * x 2 现在这个二叉树受…

东南大学王萌 | “神经+符号”学习与多模态知识发现

转载公众号 | DataFunTalk分享嘉宾 |王萌博士 东南大学 助理教授编辑整理 |盛泳潘 重庆大学 助理研究员导读:近年来,多模态一词在知识图谱、计算机视觉、机器学习等领域逐渐引起越来越多的关注。从认知科学角度看,…

Child-Tuning:简单有效的微调涨点方法

文 | 罗福莉源 | 罗福莉自BERT火了以后,基本上现在所有NLP领域都all in Pre-training & Fine-tuning了吧?但当“大”规模预训练模型遇上“小”规模标注数据时,往往直接Fine-tuning会存在过拟合现象,进一步会影响Fine-tune完后…

LeetCode 890. 查找和替换模式(哈希表)

1. 题目 你有一个单词列表 words 和一个模式 pattern,你想知道 words 中的哪些单词与模式匹配。 如果存在字母的排列 p ,使得将模式中的每个字母 x 替换为 p(x) 之后,我们就得到了所需的单词,那么单词与模式是匹配的。 &#x…

Solr空间搜索原理分析与实践

前言 在美团CRM系统中,搜索商家的效率与公司的销售额息息相关,为了让BD们更便捷又直观地去搜索商家,美团CRM技术团队基于Solr提供了空间搜索功能,其中移动端周边商家搜索和PC端的地图模式搜索功能为BD们的日常工作带来了很大的便利…

专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验

文 | 快手搜索短视频和直播,越来越成为重要的内容供给形式,而内容供给侧的改变,也在潜移默化地推动着用户搜索习惯的变化。据报道,截止今年4月,超过50%的用户都在使用快手搜索功能,每天搜索达到2.5亿次&…

开源开放 | 一个融合多元关系和事件表示的金融领域本体模型FTHO(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/ftho开放许可协议:GPL 3.0贡献者:武汉科技大学(高峰、郑丽丽、顾进广)摘要在此开放资源中,面对金融领域多元关系表示的困境和时序事件表示需求,我们以OWL语…

LeetCode 114. 二叉树展开为链表(递归)

1. 题目 给定一个二叉树,原地将它展开为链表(右侧路径)。 例如,给定二叉树1/ \2 5/ \ \ 3 4 6 将其展开为:1\2\3\4\5\6来源:力扣(LeetCode) 链接:https://leet…

论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...

论文作者:申雨鑫,天津大学硕士发表会议:CIKM 2021链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421动机知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组…

NLP太难学了!?吃透NLP的方法来拿走

最近有粉丝私信我,NLP很难学,这条路能坚持走吗?有相同困惑的朋友可以一起探讨一下:大佬你好,我目前从事ERP运维工作,想转行NLP,开始是学数据结构和c刷了些leetcode题,然后把cs224n和…

LeetCode 1161. 最大层内元素和(层序遍历)

1. 题目 给你一个二叉树的根节点 root。设根节点位于二叉树的第 1 层,而根节点的子节点位于第 2 层,依此类推。 请你找出层内元素之和 最大 的那几层(可能只有一层)的层号,并返回其中 最小 的那个。 示例&#xff1…

图谱实战 | 京东商品图谱构建与实体对齐

转载公众号 | DataFunTalk 分享嘉宾:赵学敏博士 京东科技编辑整理:蔡丽萍 TRS出品平台:DataFunTalk导读:在电商企业采购和运营过程中,如果要想掌握商品的实时价格等行情信息,就需要对齐各个电商网站的商品…

Quartz应用与集群原理分析

一、问题背景 美团CRM系统中每天有大量的后台任务需要调度执行,如构建索引、统计报表、周期同步数据等等,要求任务调度系统具备高可用性、负载均衡特性,可以管理并监控任务的执行流程,以保证任务的正确执行。 二、历史方案 美团CR…

卖萌屋新闻联播栏目,倾情上线~

编 | 小轶感谢提供本期内容的 iven、ZenMoore、 jxyxiangyu、付瑶今天这篇推文是卖萌屋全新的原创系列———暂且取名为“卖萌屋新闻联播”节目。卖萌屋的作者、小编日常都会在团队群里分享各种最新发现的实用资源、有意思的学术工作。小伙伴们在互相分享的过程中都受益匪浅。我…

LeetCode 386. 字典序排数(DFS循环)

1. 题目 给定一个整数 n, 返回从 1 到 n 的字典顺序。 例如, 给定 n 1 3,返回 [1,10,11,12,13,2,3,4,5,6,7,8,9] 。 请尽可能的优化算法的时间复杂度和空间复杂度。 输入的数据 n 小于等于 5,000,000。来源:力扣(LeetCode&#…

论文浅尝 | 基于多模态特征的视觉实体链接

转载公众号 | 数据智能英文刊文章题目:Visual Entity Linking via Multi-modal Learning作者:郑秋硕,闻浩,王萌,漆桂林引用:Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data I…

一训练就显存爆炸?Facebook 推出 8 比特优化器,两行代码拯救你的显存!

文 | jxyxiangyu编 | 小轶“小夕,小夕!又出来了个 SOTA 模型!赶紧 follow !”小夕看了看新模型的参数量, 然后看了看实验室服务器的几张小破卡。小夕,陷入了沉默。自从人们发现越大的模型性能越好后&#x…

论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。1.Motivation知识图谱是许多NLP任务和下游应用的核心,如问答、对话代理、搜索引擎和推荐系统。知识图中存储的事实总是以元组的形…

LeetCode 979. 在二叉树中分配硬币(DFS)

文章目录1. 题目2. DFS 解题1. 题目 给定一个有 N 个结点的二叉树的根结点 root,树中的每个结点上都对应有 node.val 枚硬币,并且总共有 N 枚硬币。 在一次移动中,我们可以选择两个相邻的结点,然后将一枚硬币从其中一个结点移动…