如何将原图和json融合_双曲知识嵌入:如何将知识“融合”带入新空间?

知识图谱作为人类知识的结构化数据,是构建人工智能的基石。然而目前的知识图谱都是不完备的,所以需要将多个知识图谱融合以获得更完备的知识库。基于表示学习的知识关联作为知识图谱融合的新方法受到了许多关注。但知识关联模型面临着参数多、复杂性高、知识图谱维数不一致等问题。如何解决这些问题呢?

本期AI TIME PhD直播间,我们邀请到了南京大学计算机系博士研究生孙泽群分享他的观点。他提出将知识图谱的表示空间从欧式空间转换为双曲空间,提出了基于双曲空间的知识关联方法。

2c0a2d371010ef968b86f1a6fa3543ae.png
孙泽群:南京大学计算机系博士研究生,导师是瞿裕忠教授和胡伟副教授。主要研究方向为知识图谱表示学习及其应用,如实体对齐、链接预测和类型推断等。目前在相关领域的国际会议如VLDB、ICML、AAAI、IJCAI、EMNLP、ISWC等发表多篇论文。

一、背景

1. 什么是知识图谱?

知识图谱通过多关系图的结构来存储和表示现实世界的事实或知识。如图1所示,图的节点代表实体或概念,而节点之间的有向边带有标签来说明边的具体类型(也称为关系)。知识图谱分为实体知识图谱和概念知识图谱(本体)。实体图谱存储不同实体(或者叫实例)之间的关系,下图右边展示了一个例子,即实体Bob对实体蒙娜丽莎很感兴趣。而概念图谱则刻画了不同概念之间的关系,比如歌手属于艺术家。

369d8f58106307608357f071a0ec753c.png
图1:实体图谱和概念图谱

2. 为何要做知识关联?

知识图谱大多由人工构建,或者是对非结构化和半结构化数据进行信息抽取而构建的,由于数据来源的不完备性,知识图谱也是不完备的。比如,百度百科和维基百科会有重合的部分,也会有互补的部分,二者融合起来可以提供更加全面的知识。通过挖掘知识图谱之间的一些关联信息,将多个知识图谱融合在一起,就是知识关联。

3. 如何实现知识关联?

知识关联包括两个任务,即实体对齐(entity alignment)和类型推断(type inference)。实体对齐旨在将两个实体图谱中共指的实体连接起来(图2中双虚线)。类型推断则是关联实体图谱和概念图谱,挖掘实体到其所属概念之间的关联(图2中虚线)。

556b89eac2313742866ee1d689e20204.png
图2:实体对齐和类型推断

二、知识关联模型

如图3所示,为了实现知识关联,首先需要进行表示学习(embedding learning),将知识图谱嵌入到向量空间中,之后再进行关联学习(association learning),实现上面提到的实体对齐或类型推断任务。

91d2010847915fd7fefdbee855d091c0.png
图3:嵌入学习和关联学习

1.表示学习(Embedding learning)

Embedding方法的关键就是表示学习,将每个实体用低维向量表示。知识图谱表示学习大致可以分为两大类方法,一类基于图结构和关系,另一类还会利用一些额外信息,如实体属性等。TransE作为一个经典的知识图谱嵌入模型,其核心思想就是让有相同关系的实体对的向量偏移尽可能相同。比如,要表示中国首都是北京,那么需要让“中国”向量加上“首都”向量近似等于“北京”向量。

3c635c4308cebab7133cda93c9e68a92.png
图4:TransE模型

图神经网络由于其强大的表示学习能力,近些年被广泛使用。GCN是一个比较经典的图神经网络模型。GCN有两部分操作,首先进行邻居聚合(neighborhood aggregation),将节点i的邻居进行聚合得到邻居表示。之后再将邻居表示和节点i自身的表示组合起来,得到节点i在这一层的最终表示。但是GCN没有考虑图中边的方向与类型,只要两个节点之间有边,那么它们就是邻居,而不区分中心节点与邻居的具体关系。R-GCN针对这个问题做了改进,R-GCN考虑节点之间的关系,对于每一个关系做一个邻居聚合,最后把这些邻居表示再组合起来。比如一个知识图谱图有k个关系,R-GCN的聚合方式类似于把这个图谱按照关系拆成了 k个无向的或者说是不带类型的图,分别聚合,最后再组合起来,但是这样做复杂度很高。

4f7adf313531edc25178cd6977275536.png
图5:图神经网络模型

2.关联学习(Association learning)

关联学习的方法则是通过监督学习或半监督学习完成的。监督学习需要已知部分关联数据比如部分实体对齐数据作为training data,目标是找出剩下的关联部分。但在现实场景中,关联学习中的监督数据却很少,有相关工作做过统计,在跨语言的维基百科中,只有10%~20%的共指页面有link。由于监督数据太少,半监督学习被引入来解决这个问题。

关联学习首先要度量节点之间的距离,比如实体x与实体y的距离。余弦相似度和欧式距离等都可以用来度量节点之间距离。之后如果要做实体对齐(类型关联同理),一个比较简单的方法就是最小化x和y间的距离。学习的时候为了区分对齐的正样本和不对齐的负样本,可以使用marginal rank loss或者limit-based loss。Marginal rank loss主要是让正样本和负样本之间有一定的距离,却无法控制距离的取值范围。而limit-based loss则可以控制距离的取值范围。

01bee0c31dc9d90a184dbf32346b882c.png
图6:关联学习

3.面临的挑战

有些知识图谱,尤其是概念图谱,具有很多层次化结构。在进行表示学习的时候,为了捕捉复杂或很深的层级结构,往往需要一个更大的空间和更高的维度来表示节点。此外,与实体对齐不同,类型推断处理的对象是实体图谱与概念图谱,由于实体数量远大于概念数量,这两个知识图谱的向量表示维数往往相差较大,基于距离最小化的方法不能适用于这种情况。

9a4f9ec18bb5700e00f8ffa120b2ab67.png
图7:面临的挑战

三、基于双曲空间的知识关联

面对上述挑战,讲者提出在双曲空间进行知识图谱表示学习。首先,双曲空间具有表达层次结构的能力,有利于表示知识图谱尤其是本体中的层次化结构。其次,双曲空间的容量要远远大于欧式空间,所以在双曲空间可以利用更少的维度来实现具有高维欧式空间同等表现力的模型。双曲空间的特性使我们能够使用很小的维数来捕捉知识图谱的结构,并且特别适合有层次结构的知识图谱。此外,现有的欧式空间模型都可以通过一些基本算子的转换变为双曲空间下表示的模型。

92e4a28467aa25bea7009853dcacf433.png
图8:双曲空间特性

知识关联方法包括表示学习和关联学习两个部分。其中表示学习结合了TransE与GCN的思想,先在输入层用双曲TransE做一个关系转换,即头实体+关系等于尾实体,之后再用双曲GCN在输入层上做邻居聚合得到实体表示。这样比起R-GCN就简单了很多,不需要根据不同的关系进行单独聚合。

60f466399df9810461b1d4c0877509ff.png
图9:HyperKA模型的嵌入学习

得到知识图谱的双曲表示后,将其作为知识关联的输入。在做关联时,尤其是类型推断,两个知识图谱可能结构不同或者维度不同,不能强行最小化距离来拟合。所以就使用投影的方法,将节点从源空间映射到目标空间,去匹配对应的实体或者概念。

8d94ad5ad6e026856181c29f09c3d3a9.png
图10:HyperKA模型的关联学习

四、实验结果

1. 实体对齐(Entity Alignment)

使用DBP15K数据集,以H@K和MRR为评价标准,实验结果如下表:

9d451c51312b168dd809802c487bca80.png
表1:实体对齐实验结果

实验中,所提出的双曲知识关联模型HyperKA的维数为75,是所有模型中最小的。实验结果显示,尽管HyperKA维数小,但它在三个数据集上的表现都优于基线模型。

21f9ffe5f369f18a1b3bea160c831972.png
图11:维数分析

从上图可以看出HyperKA只需要35维就能超过所有基线模型。随着维数的减小,所需GPU的内存开销和训练时间都会减小。所以HyperKA模型能在有限的GPU内存开销下取得良好表现。

为了验证双曲空间带来的优化,将HyperKA模型退回到欧氏空间中,得到HyperKA(Euc.)模型。从下表的实验结果可以看出,在欧式空间下需要高维度(如300)才能达到在双曲空间下75维的表现。使用双曲空间带来了更小的内存消耗和更少的模型参数。

ad5bc5cc4cd60a8c19739dcfc5908e83.png
表2:HyperKA (Euc.)模型实验结果

2. 类型推断(type inference)

使用YAGO26K-906和DB111K-174数据集,以H@K和MRR为评价标准,实验结果如下表:

8f154c9e9b36d46e36aeca3fc2f6924e.png
表3:类型推断实验结果

实验结果表明在H@1和MRR的评价标准下,HyperKA(150,30)优于其他模型。

HyperKA模型在实体关联和类型推断任务上都比绝大多数基线模型表现好,并且减少了模型的内存开销也减短了训练时间。

Reference:

相关代码及数据集:https://github.com/nju-websoft/HyperKA

论文:https://arxiv.org/pdf/2010.02162.pdf


整理:蒋予捷
排版:岳白雪
审稿:孙泽群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/340323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android viewgroup点击变色,Android ViewGroup事件分发

上篇文章已经分析了Android的Touch事件分发。如果没看的建议先看一下。Android View的Touch事件分发。接下来我们开始写几种场景,得出一个初步的执行顺序,然后我们按照这个顺序开始分析。首先我们自定义一个ViewGroup和一个View,然后重写相关…

qq数据泄露_真良心,腾讯这个app竟然能查账号泄露

最近有朋友都在分享腾讯手机管家,纷纷表示这是一个良心app,能查到自己账号泄露。仔细想一下,这么多年下来确实忘了自己都在什么平台或网站注册过账号,在黑客泛滥的今天,黑客很容易从一些平台窃取数据库,拿到…

vue 如何获取图片的原图尺寸_阳台洗衣机组合柜如何设计|尺寸规范|案例图片...

对于阳台装洗衣机来说,不只是简单的装修,还需要我们考虑水电、尺寸以及美观实用等问题,以免后期出现问题的时候会更加麻烦。接下来深圳装修网小编就为你们带来阳台洗衣机组合柜的案例赏析,以及装修的尺寸规范等内容,一…

print2flashwindows7旗舰版下载哪一个_JUJUMAO_MSDN原版 win 7 二合一 旗舰版32位 64位原版ISO镜像...

文件: F:\JUJUMAO_msdn_Win7_ultimate_x86_x64.iso大小:4.73G(5082120192 字节) MD5: AA4C7E80C52AC0DEDC757EF86CF8057BSHA1: 66505AD9424ED2D2B0DEDE7067917B708A67C7DDCRC32: 0E2FAB2C高速下载地址:https://jujumao.cowtransfer.com/s/3220a80131744fJUJUMAO_MSD…

android readonly file system,安卓ROOT权限下“Read-only file sytem”解决办法

今天用安卓模拟器:BlueStacks,打开apk终端模拟器:Terminal,在shell操作命令的时候提示“Read-only file sytem”:第一种方法:在 Android 系统中,我们通过 adb 登录到 shell 进行操作时&#xff…

HTML5怎样设置站点,我是怎样让网站用上HTML5 Manifest

Manifest是用来做离线页面的,即使断网也能正常打开页面,用起来简单,但是在实际使用中存在以下问题:(1)如何自动缓存所有的页面的资源?因为manifest不能使用*通配符进行cache(2)如果网站资源更新,怎么让mani…

wallpaper怎么设置锁屏_Apple ID密码忘了怎么找回?丨如何让面容和指纹解锁立马失效?...

忘记Apple ID这种事肯定不少果粉都经历过,像小编也是如此,因为密码都比较复杂,如果太久没输入过密码,久而久之就忘了。哪一天突然需要用的时候,怎么想也想不起来。想不起来的话我们就别想了,直接重置密码就…

jq监听子元素被点击_vue开发app点击字母展示地区列表(兄弟组件之间联动)

下图这种地区搜索方式在很多app中都很常见,今天就使用vue框架中的 better-scroll 第三方包来实现页面滚动和点击侧边栏字母该字母开头的地区列表置顶功能。1、A子组件通过使用 this.$emit(事件名字,事件携带内容) 向外触发事件首先,在组件每个…

e-mobile帐号状态存在异常_一文掌握异常检测的实用方法 | 技术实践

作者 | Vegard Flovik译者 | Tianyu责编 | Jane出品 | AI科技大本营(ID: rgznai100)【导读】今天这篇文章会向大家介绍几个有关机器学习和统计分析的技术和应用,并展示如何使用这些方法解决一些具体的异常检测和状态监控实例。相信对一些开发…

单片机sleep函数的头文件_单片机代码模块化设计思想浅谈

前言:前段时间分享的文章【单片机裸机代码框架设计思路】,很多读者给我留言,觉得很不错,对于初学者而言,这是一个进阶的技巧,对于我而言,这是对自己总结和表达能力的一个提升。本文章我们再谈谈…

jquery 字符串查找_JQuery、Vue等考点

一. 写出下面程序的运行结果for结果:1秒后一下子打印出5个5。当循环完成时才会轮到setTimeout异步执行其回调函数function,此时i已经变成5,故5个console.log(i)里的i全使用的是5。易错点:千万别写成“打印5个4”啊!暴风…

html网页效果分析,熟手的html编写风格与原因分析_HTML/Xhtml_网页制作

一、导航:无序列表 对 其它标签元素用最常用的“无序列表“来写导航的理由是显而易见的,它代表一列链接,这本身就有足够的理由应选择列表标签。但需要移除list列表的默认样式,以使其更有意义。另一个好处可能超出你的想象&#xf…

qgis 图片_QGIS入门教程公告!!!

从本周开始,我将每周日更新一期QGIS入门教程视频,带讲解,估计这也是很多朋友所希望的。操作中用到的数据下载链接我会放在每一期的视频下方。以下是入门课程的目录:1.开启你的QGIS之旅——制作你的第一张地图2.属性表基础——字段…

css less 不要作用到子对象_CSS-预处理语言Sass、Less简述

CSS作为前端开发的三驾马车之一,无时无刻不在影响着前端的发展。为了让 CSS 变得更加的好用,出现了一些预处理语言。 它们让 CSS 彻底变成一门可以使用变量 、循环 、继承 、自定义方法等多种特性的标记语言,逻辑性得以大大增强SassSass是成熟…

js 点击侧边栏展示内容_上海SEO优化网站侧边栏一般添加什么内容

相关推荐:https://www.huisheng.com/上海SEO优化网站侧边栏一般添加什么内容?企业做网站每个板块都是非常重要的,之前跟大家解析了关于导航栏的布局,哪些内容该添加,哪些内容不该添加,而今天小编要跟大家解…

机器人辅助的符文天赋_10.5版本T1辅助盘点 进攻型辅助主宰下路

摘要:今天为大家推荐10.5版本的三大T1辅助,在当前版本每层塔钱增加到160后,这些前期进攻性较强的辅助更容易上分,他们都有直接或间接击毁镀层的能力,赛娜推线压制后的远程点塔,机器人靠着钩子的威胁上前、日…

dataframe 选择输出_使用 Python 实现机器学习特征选择的 4 种方法

(给数据分析与开发加星标,提升数据技能)英文:Sugandha Lahoti,转自:数据派(ID:datapi),翻译:李洁注:本文节选自Ankit Dixit所著的《集成机器学习》(Ensemble Machine Learning)一书。…

ps一点等于多少厘米_企业展厅设计关于展台你了解多少?

发 现 生 活 中 最 美 好 的 设 计打开音乐聆听设计伽的声音水北展陈今日份文章:企业展厅设计关于展台你了解多少?企业展厅设计展台是各种展品、实物、模型以及沙盘的展示介质之一。企业展厅设计展台的设计和选用要从企业展厅设计展品的特征出…

springboot 单测加入参数_Spring Boot集成Elasticsearch实战分享

作者|java梦想口服液|简书最近有读者问我能不能写下如何使用 Spring Boot 开发 Elasticsearch(以下简称 ES) 相关应用,今天就讲解下如何使用 Spring Boot 结合 ES。可以在 ES 官方文档中发现,ES 为 Java REST Client 提供了两种方式的 Client&#xff1a…

计算机主机安装系统安装系统安装软件,电脑安装软件时提示安装过程出错系统设置未被修改怎么办...

‍电脑安装软件,尤其是安全管理这一类软件,可能会出现安装失败的情况,提示安装过程出现错误,未修改系统设置等。这是怎么回事?这些软件在安装的时候可能会修改系统相关的核心设置,所以电脑系统会阻止其安装。下面让我…