论文浅尝 - ACL2020 | Segmented Embedding of Knowledge Graphs

来源:ACL2020

链接:https://arxiv.org/pdf/2005.00856.pdf

摘要

知识图谱的嵌入愈发变成AI的热点之一,对许多下游任务至关重要(如个性化推荐、问答等)


同时,此模型强调两个关键特性:

利用足够多的特征进行交叉计算(分块)

同时在计算时,区别对称关系、非对称关系特征

本文的贡献有两个:
1.提出了轻量级框架SEEK,同时满足模型低复杂性、高表达力
2.提出了新的打分函数,同时完成特征整合、关系留存

1 引言

知识图谱 knowledge graph (KG)含有大量的实体和关系,表示为三元组(h, r, t),即(头实体 , 关系, 尾实体)

知识图谱嵌入(KGE)是为了,把大量相关的三元组映射到低维空间(保留潜在的语义信息)现有的KGE模型存在的问题:不能很好地平衡模型复杂性(模型参数的数量)和模型表达力(获取语义信息的能力),如下分为两类:

1)模型简单、表达有限
如:TransE、DistMult (简单易用,获取语义信息的能力欠佳)

2)模型复杂、表达力强
如:TransH、TransR、Single DistMult、ConvE、InteractE (模型复杂,需要大量向量计算,扩展性差)

本文的轻量级KGE框架SEEK有如下特性:特征有交互保留关系特性高效的打分函数

特征交互:把嵌入空间分为多块,让各块之间有关联(而不用增加模型参数)

关系特性:同时保留对称的、非对称的关系(对称关系:双向关系;非对称关系:单向关系)

打分函数:结合上述两种特征,计算得分(来自于3个模型的打分函数:DistMult、HoIE、ComplEx)

2 SEEK的框架

各种打分函数是KGE(knowledge graph embedding )的基础,基于此我们建立了SEEK本文提出的SEEK模型的参数和TransE、DistMult一样少,却能更好地表达图谱。

2.1 得分函数的Design

SEEK在得分函数的设计中,迭代了四个版本,逐一看下。

f1: Multi-linear Dot Product:

下图是公式,具体是计算头实体h,尾实体 t,关系 r 之间的点乘。这个是以下公式的基础。

             

f2: Multi-linear Dot Product Among Segments:

将嵌入维度划分为多段,考虑段与段之间的信息交互。其中 k 是段的个数,d是维度,x 代表关系向量 r 切分后的第 x 段,y 代表头实体向量 h 切分后的第 y 段,w 代表尾实体向量 t 切分后的第 w 段。

例如,我们可以将关系向量嵌入表示为:

          

         

f3: Modeling both Symmetric and Antisymmetric Relations:

我们需要考虑关系的对称性和反对称性。

对于f2模型来说,当给一个具有对称性的关系 r 和一个三元组 (h, r, t),存在f2(h, r, t) = f2(t, r, h),但是对于给定一个反对称关系 r ,仍然存在f2(h, r, t) = f2(t, r, h),这就是不对的,因为此时的 f2(t, r, h)是一个错的三元组。

为了考虑关系的对称性和反对称性,将关系向量 r的切割分为奇数和偶数两部分,并引入变量 Sx,y,偶数部分能够捕捉对称性,并且奇数部分能够捕捉反对称性。

           

          

其中Sx,y控制了关系向量的切割点为奇数与偶数时三元组的正负关系。下面是分成 2 段的一个例子

     

f4: Reducing Computing Overheads

优化计算复杂度。

f3 算法的时间复杂度是O(n2)级别的,还是较高,f4优化了其复杂度,降至O(n2)。

对尾实体 t 引入变量Wx,y,具体的计算公式如下,也是分为奇数偶数部分, k 为分割段数,Sx,y计算和f3一样。

       

          

    其中由于Wx,y的计算只与x和y存在关系,因此时间复杂度降为了O(n2),下面是分成 4 段的一个例子

r 的下标为偶数的情况下,考虑了对称性,Sx,y计算和f3一样,都是正(+),偶数的情况下 t 也没有变化。

r 的下标为奇数的情况下,考虑了反对称性,Sxy 计算和 f3 一样,x + y 大于等于 4 的时候为负,其余为正,t 的计算是 (x + y) % k 取余,替换尾实体,段之间的特征交互随着k的增大而增多。

        

2.2 模型训练

损失函数为-log函数,L2正则化,激活函数sigmoid



    Θ:向量嵌入时的参数
    Ω:图谱中本来的三元组、生成的负样本三元组
梯度的计算公式:



    L目标函数,Θ参数,对f4求导时:


3 实验效果

验证效果采用的数据集是 FB15K,DB100K 和 YAGO37,FB15K 是 Freebase 的子集,DB100K来自DBpedia,YAGO37 来自 YAGO3,具体数据如下:

       

采用的评测任务是链接预测,在三个数据集上面的效果如下图,其中k和d 的设置在三个数据集上面都不一致,是采用网格搜索找到的最优超参数。

评测指标,MRR:所有正确实例排名的倒数的平均值;Hits@N:正确实例的排名中不大于 N 的比例。

4 总结

本文提出一个轻量级框架SEEK,利用打分函数,在不增加模型参数的情况下,提高了模型对知识图谱的嵌入表示效果。主要原理是:1.分块并利用不同块之间的特征交叉计算 2.区分并保留多种关系 。同时SEEK是一个普适性更强的模型,DistMult, ComplEx, HolE可作为SEEK的特例。本文从效率、效果、鲁棒性方面阐述了SEEK的性能。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文翻译】HeteSim:异构网络中相关性度量的通用框架

原文链接:https://blog.csdn.net/Mrong1013967/article/details/115330139 HeteSim:异构网络中相关性度量的通用框架 摘要 相似性搜索是许多应用中的一个重要功能,它通常侧重于度量同一类型对象之间的相似性。然而,在许多场景中&a…

LeetCode 234. 回文链表(快慢指针+链表反转)

1. 题目 请判断一个链表是否为回文链表。 示例 1: 输入: 1->2 输出: false示例 2: 输入: 1->2->2->1 输出: true进阶: 你能否用 O(n) 时间复杂度和 O(1) 空间复杂度解决此题?来源:力扣(LeetCode) 链接&a…

随机/线性颜色生成器(RandomColorGenerator)

最近在实现https://javascript30.com/的课程,其中有一门课程要求利用Canvas实现一个效果,我发现这个效果其中的颜色是线性生成的。结合我之前已经写过一个随机颜色生成器,就想将这个随机颜色生成器写出来,作为一个工具使用&#x…

美团点评运营数据产品化应用与实践

背景 美团点评作为全球最大的生活服务平台,承接超过千万的POI,服务于数量庞大的活跃用户。在海量数据的前提下,定位运营业务、准确找到需要数据的位置,并快速提供正确、一致、易读的数据就变得异常困难,这些困难主要体…

NAACL’21 | 来看如何让模型学会因为所以但是如果

文 | Eleanor 编 | 戏有一些标准考试那是真的难,难到能分分钟教你做人。对于留学党来说,申请法学博士需要 LSAT 考试成绩、申请商学院需要 GMAT 考试成绩。这些标准考试到底有多难,大概考过的都懂8(嘤嘤嘤_(:з」∠)_)…

领域应用 | 知识计算,华为云赋能企业知识化转型

本文转载自公众号:华为云AI。从计算智能,到感知智能,再到认知智能,是业界普遍认同的人工智能技术发展路径。随着技术的演进,人工智能已经在"听、说、看"等感知智能领域达到或超越了人类水准,但是…

我在小程序工程化方面的一些实践

我在小程序工程化方面的一些实践 早期做小程序时,还是原始时代,项目结构混乱,各种冗余代码,每次迭代时由于高昂的维护成本,极为头疼。遂在一次次的更迭中完成了基础组件的初版,极为酸爽。从此之后在当时的…

LeetCode 430. 扁平化多级双向链表(DFS)

1. 题目 您将获得一个双向链表,除了下一个和前一个指针之外,它还有一个子指针,可能指向单独的双向链表。这些子列表可能有一个或多个自己的子项,依此类推,生成多级数据结构,如下面的示例所示。 扁平化列表…

详解:多模态知识图谱种类及其应用

详解:多模态知识图谱种类及其应用 本文系统的讲述了一些关于多模态知识图谱的相关知识,作者介绍了一些重要的开源多模态知识图谱,基于百科多模态知识图谱Richpedia以及相关使用网站和多模态知识图谱的应用。>>加入极市CV技术交流群&am…

Android Hook技术防范漫谈

背景 当下,数据就像水、电、空气一样无处不在,说它是“21世纪的生产资料”一点都不夸张,由此带来的是,各行业对于数据的争夺热火朝天。随着互联网和数据的思维深入人心,一些灰色产业悄然兴起,数据贩子、爬虫…

论文浅尝 - ICML2020 | 跨域对齐的图最优运输算法

陈卓,浙江大学在读博士,主要研究方向为图神经网络和知识图谱表示学习。论文链接:https://arxiv.org/pdf/2006.14744代码:https://github.com/LiqunChen0606/Graph-Optimal-Transport发表会议:ICML 2020动机该论文的出发…

张俊林:对比学习研究进展精要

文 | 张俊林知乎对比学习(Contrastive Learning)最近一年比较火,各路大神比如Hinton、Yann LeCun、Kaiming He及一流研究机构比如Facebook、Google、DeepMind,都投入其中并快速提出各种改进模型:Moco系列、SimCLR系列、BYOL、SwAV…..&#x…

前端开发者的福音!通过拖拽就可生成Vue代码的平台来了!

Vue组件代码生成平台 Vue组件代码生成平台是一款面向Vue开发者的拖拽式组件代码生成工具。通过它可以快速搭建Vue组件的代码骨架结构。开发者可在此基础上进行二次开发。 目前该平台非常适合快速搭建一个常见的数据查询组件,仅需要拖三个组件进来即可完成&#xf…

LeetCode 523. 连续的子数组和(求余 哈希)

1. 题目 给定一个包含非负数的数组和一个目标整数 k,编写一个函数来判断该数组是否含有连续的子数组,其大小至少为 2,总和为 k 的倍数,即总和为 n*k,其中 n 也是一个整数。 示例 1: 输入: [23,2,4,6,7], k 6 输出: …

知识图谱简介

01 什么是知识图谱 我们可以从不同的视角去审视知识图谱的概念。 在Web视角下,知识图谱如同简单文本之间的超链接一样,通过建立数据之间的语义链接,支持语义搜索。 在自然语言处理视角下,知识图谱就是从文本中抽取语义和结构化的…

流量运营数据产品最佳实践——美团旅行流量罗盘

背景 互联网进入“下半场”后,美团点评作为全球最大的生活服务平台,拥有海量的活跃用户,这对技术来说,是一个巨大的宝藏。此时,我们需要一个利器,来最大程度发挥这份流量巨矿的价值,为酒旅的业务…

开源开放 | OMAHA 联合 OpenKG 发布新冠诊疗图谱数据

本文转载在公众号:OMAHA联盟。今年新型冠状病毒肺炎爆发期间,大数据、云计算、人工智能等新一代信息技术支撑着我国建立和健全疫情防控机制。知识图谱作为机器认知智能实现的基础之一,是人工智能的重要组成部分,在“抗疫”行动中赋…

LeetCode 498. 对角线遍历

1. 题目 给定一个含有 M x N 个元素的矩阵(M 行,N 列),请以对角线遍历的顺序返回这个矩阵中的所有元素,对角线遍历如下图所示。 输入: [[ 1, 2, 3 ],[ 4, 5, 6 ],[ 7, 8, 9 ] ]输出: [1,2,4,7,5,3,6,8,9]2. 解题 横…

图灵奖得主Jeff Ullman:机器学习不是数据科学的全部!统计学也不是!

文 | Jeff Ullman源 | 智源社区3月31日,2020年图灵奖重磅出炉,颁给了哥伦比亚大学计算机科学名誉教授 Alfred Vaino Aho 和斯坦福大学计算机科学名誉教授 Jeffrey David Ullman。Jeff Ullman 是数据科学领域的巨擘,他的研究兴趣包括数据库理论…