论文浅尝 | TuckER:基于张量分解的知识图谱补全

 

笔记整理:孙泽群,南京大学计算机科学与技术系,博士研究生。



640?wx_fmt=png

论文链接:https://arxiv.org/abs/1901.09590

 

背景

知识图谱是图结构的数据库,以三元组(es, r, eo)的形式存储事实,其中eseo分别表示主语和宾语实体,r表示它们之间的关系。然而,知识图谱中的事实是不完备的,人工补全费时费力,这就需要开发自动化补全知识图谱的算法。知识图谱可以表示为一个三阶二值张量,其中每一个元素表示一个三元组,1表示真实三元组,0表示未知三元组(或错误或丢失)。因此,很多基于张量分解的补全模型被提出。本文基于Tucker decomposition, 它可以将一个三阶张量分解为一个核心张量每一维度乘上一个矩阵。令640?wx_fmt=png是一个三阶张量,Tucker decomposition 会产生一个核心张量640?wx_fmt=png和三个矩阵640?wx_fmt=png640?wx_fmt=png。其计算公式如下:

640?wx_fmt=png


其中,640?wx_fmt=png表示沿着第n维的张量乘法,640?wx_fmt=png表示向量内积。

 

模型

根据 Tucker decomposition 的计算方式,TuckER模型可以表示如下:

640?wx_fmt=png



其中,es eo 表示实体向量,wr 表示关系向量,dedr 分别表示实体和关系的向量维数,WTucker decomposition得到的核心张量。则TuckER的得分函数定义如下:

640?wx_fmt=png



为了得到概率分布,作者又在该得分函数外面套了一个 sigmoid 函数。关于训练,作者没有使用传统的 margin-based 损失函数,而是使用了 log 似然损失函数:

640?wx_fmt=png



其中,p 表示预测三元组真假的概率,y 是标签。

 

理论分析

            本文的亮点在于它的理论分析证明了 TuckER 有完全表现力:给定任意在实体集E和关系集R上的真实三元组(ground truth),TuckERde=ne, dr=nr 的时候(ne 表示实体数量,nr 表示关系数量),可以完全表示这些ground truth三元组。证明过程很简单,作者给了一个启发式的解:让实体和关系向量取one-hot形式,然后让核心张量W的维数是 ne* nr* ne 和原始的三阶张量相等,并且,如果其中一个元素对应的三元组是 ground truth,则置其为 1,否则置为 0。根据得分函数的定义,这种情况下计算得到的预测概率,正好可以准确表示真实概率。这个达到完全表现力的维度下界是远小于ComplExSimplE的,体现了 TuckER 的优越性。此外作者还分析了TuckER和之前一些张量分解模型的关系,证明了 RESCALDistMultComplEx SimplE 都是 TuckER 的一种变体。

 

实验结果

本文的主要实验任务是 link prediction。数据集采用了当前流行的 FB15K-237 WN18RR,同时也测试了传统的 FB15K WN18。作者开源了基于 PyTorch 的代码https://github.com/ibalazevic/TuckER。实验结果如下表所示。可以看见,在目前主流的FB15K-237 WN18RR 数据集上,TuckER 取得了 SOTA 的效果,并且比第二名领先较多。而在传统的 FB15K WN18 上面,TuckER 在主要指标上,也取得了最优结果。基本可以认为,TuckER 是当前 link predictionSOTA 模型。


640?wx_fmt=png



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480051.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里Java P系列技术要求(P5-P7)

阿里p系列薪资(最新数据比这个高1倍左右) 阿里P5(高级研发工程师) 工作要求: 能独立完成日常工作,并能够对一些方案提出自己的建议。 基本考核就是能上手独立完成工作,熟练掌握。 技能要求…

如何配置一台深度学习工作站?

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术这篇文章主要介绍的是家用的深度学习工作站,典型的配置有两种,分别是一个 GPU 的机器和四个 GPU的机器。如果需要更多的 GPU 可以考虑配置两台四个 GPU 的机器。如果希望一台机器同时具…

LeetCode 2. 两数相加(单链表反转)

题目链接:https://leetcode-cn.com/problems/add-two-numbers/ 给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。 如果,我们将这两个数相加起…

报名 | 全国知识图谱与语义计算大会(CCKS 2019)评测任务发布

全国知识图谱与语义计算大会是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS 2018吸引了来自学术界和工业界的超800人参加。2019 年全国知识图谱和语义计算大会(www.ccks2019.cn) 将于2019年8月24日至8月27日在杭州召开,CCKS 2019的主题…

UML是什么?UML常用图以及建模工具有哪些?

“ 在做项目设计方案的时候,理解为需求后,我们都会做技术设计方案,这个时候就需要用到UML建模,涉及到UML常用图形以及工具画图,以下我会详细介绍UML图形和我个人推荐的UML建模工具。 UML即Unified Model Language&am…

炼丹必备!推荐一个超级好用的机器学习云平台

矩池云是一个专业的国内深度学习云平台,拥有着良好的深度学习云端训练体验,和高性价比的自建GPU集群资源。高性价比矩池云拥有很高的性价比,其的计费方式主要分为按时租与按周/月租。按时租用采用的是分钟级的实时计费模式,满足了…

直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置

JVM基本是BAT面试必考的内容,今天我们先从JVM内存模型开启详解整个JVM系列,希望看完整个系列后,可以轻松通过BAT关于JVM的考核。 BAT必考JVM系列专题 1.JVM内存模型 2.JVM垃圾回收算法 3.JVM垃圾回收器 4.JVM参数详解 5.JVM性能调优 JV…

论文浅尝 | 基于平行新闻的Bootstrapping关系抽取

笔记整理:吴锐,东南大学大四本科生,研究方向为自然语言处理。Citation:Michael Glass, K. B. . (2012). Bootstrapping relation extraction using parallel news articles. Retrieved from https://pdfs.semanticscholar.org/bfa…

动态规划应用--最长递增子序列 LeetCode 300

文章目录1. 问题描述2. 解题思路2.1 动态规划2.2 二分查找1. 问题描述 有一个数字序列包含n个不同的数字,如何求出这个序列中的最长递增子序列长度?比如2,9,3,6,5,1,7这样一组数字序…

论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展

本文转载自公众号:PaperWeekly。精选 5 篇来自 ICLR 2019、WSDM 2019、EMNLP 2018、CIKM 2018和IJCAI 2018 的知识图谱相关工作,带你快速了解知识图谱领域最新研究进展。WSDM 2019■ 论文解读 | 张文,浙江大学在读博士,研究方向为…

LeetCode 53. 最大子序和(动态规划)

文章目录1. 题目描述2. 解题2.1 暴力求解2.2 动态规划1. 题目描述 题目链接:https://leetcode-cn.com/problems/maximum-subarray/ 《剑指Offer》同题:面试题42. 连续子数组的最大和 给定一个整数数组 nums ,找到一个具有最大和的连续子数组…

java程序员的发展之路和职业规划

在互联网做技术的朋友,往往没有足够的重视,职业规划其实一点都不虚,而是一件非常实在的事情,如果你不是每次碰墙再反思职业规划,而是提前3年左右作出下一步的规划,你早已经走出了一条属于自己的路。 以下是…

图Graph--拓扑排序(Topological Sorting)

文章目录1. 拓扑排序2. 算法实现2.1 Kahn算法2.2 DFS算法2.3 时间复杂度3. 应用4. 类似题目练习一个项目往往会包含很多代码源文件。编译器在编译整个项目时,需按照依赖关系,依次编译每个源文件。比如,A.cpp依赖B.cpp,那在编译时&…

SIGIR20最佳论文:通往公平、公正的Learning to Rank!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 机智的叉烧编 | 兔子酱大家好,我是叉烧。感谢卖萌屋再次给我机会在这里分享~SIGIR2020 的 best paper 终于出炉,这次获奖论文是 Controlling Fairness and Bias in Dynamic Learn…

论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

笔记整理:张清恒,南京大学计算机科学与技术系,硕士研究生。论文链接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_EntityAlignment.pdf发表会议:AAAI 2019摘要近来,针对跨知识图谱&…

一篇文章了解架构师能力模型

每一个技术人都有着一个架构师的梦,希望自己有朝一日能登上技术之巅,以下结合我自己13年的从业经验,分别从架构师进阶之路、架构师能力模型(这里是亮点)、架构师技能树、架构师业务技能树谈起,完整的剖析一…

首篇严肃的“BERT学”研究,40+论文对比,解读 BERT 工作原理

BERT解读(论文 TensorFlow源码):https://blog.csdn.net/Magical_Bubble/article/details/89514057?depth_1- 解读ALBERT: https://blog.csdn.net/weixin_37947156/article/details/101529943 一文揭开ALBERT的神秘面纱&#…

图Graph--最短路径算法(Shortest Path Algorithm)

文章目录1. 算法解析BFS,DFS 这两种算法主要是针对无权图的搜索算法。针对有权图,图中的每条边都有权重,如何计算两点之间的最短路径(经过的边的权重和最小)呢?像Google地图、百度地图、高德地图这样的地图软件&#x…

BAT架构师进阶:大型网站架构书籍推荐

“ 书籍推荐分为如下: 大型网站架构系列 分布式系统系列 BAT技术系列 架构设计系列 一:大型网站架构系列 第一本:《大型网站技术架构:核心原理与案例分析》 这本书主要从大型网站架构的特点,架构目标&#xff08…

FLAT:中文NER屠榜之作

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…