论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...

6f3ba5fba0468e8bb446e433bfa5a515.png

论文作者:申雨鑫,天津大学硕士

发表会议:CIKM 2021

链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421

动机

知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组的表示,不能很好地利用知识图谱中的丰富语义信息。论文提出了一种双曲空间中的数据类型感知的知识图谱表示学习模型DT-GCN,首先,将属性值的数据类型细化为五类,包括整数、浮点、布尔、时间和文本型;然后,对于每种类型,设计不同的编码器用于学习其嵌入;最后,在欧氏空间、球形空间和双曲空间的基础上定义了一个具有连续曲率的统一空间,能够结合三种不同空间的优点。在合成数据集和真实数据集上的大量实验表明,模型的性能始终优于基线模型,证明了融入数据类型信息以及利用双曲空间和统一空间的优势。

亮点

DT-GCN的亮点主要包括:

1.首次在知识图谱表示学习中引入了属性值的数据类型这一语义信息;2.首次探索了具有连续曲率的统一空间中的融入数据类型信息的知识图谱表示学习方法;

概念及模型

DT-GCN由两个主要模块组成:通用编码器和专用编码器。前者对节点嵌入进行初始化、构建实体的关系感知表示并得到整数型属性的嵌入结果;后者对浮点型、布尔型、时间型和文本型属性进行编码,并得到相应的嵌入结果。此外,基于欧式、球形和双曲空间构建了一个具有连续曲率的统一空间,并探索了在此空间上的知识图谱表示学习。

DT-GCN的技术细节包括以下四部分:

•Data type refinement:将XML schema中定义的数据类型进行精化。•General encoders:通用编码器部分,包括嵌入层和关系感知层。•Dedicated encoders:专用编码器部分,包括注意力层、GRU层、BiGRU层和FNN层。•The unified space:基于欧式、球形和双曲空间构建的统一空间。

模型整体框架如下:

4c2c6221ab5d281d84bc5f99daf1375d.png

•数据类型划分

为了避免出现类型的冗余和过高的复杂度,需要对数据类型进行分类,通过把具有相同特征的数据类型合并,能够将这些数据类型细化为五大类,包括整数型、 浮点型、布尔型、时间型以及文本型属性。具体如下:

2302a0a7ae18964ebc8fb89d5946c0f8.png

•通用编码器

在通用编码器中,首先通过嵌入层将节点初始化并非线性转换为更高级别的特征,具体如下:

9ba9818550d6f8f9a533b7bb9ac97666.png

然后在关系感知层,使用关系和属性值构造实体的关系感知表示,具体如下:

62a818f41f30f3317125bf5c6c08a3ba.png

•专用编码器

专用编码器包括注意力、GRU、BiGRU和FNN层,分别用于编码浮点型、布尔型、文本型和时间型属性。并且每一层只处理其对应的属性,忽略其他属性。

首先,作者使用注意力机制(注意力层)来计算浮点型属性的重要性,以提高其表示的准确性。将实体的结构表示及其关系表示合并,学习关系感知的嵌入;通过对关系感知嵌入的双曲变换及双曲激活,学习关系感知嵌入的重要性,得到双曲注意力系数;通过softmax函数将注意力系数归一化,得到双曲注意力值。然后将注意力值与关系感知嵌入进行加权合并得到实体嵌入,具体如下:

f54a14506540ff9c92a6b1dc5323c3f3.png

fac30650ad68725457647787e247a5b4.png

dd794238cc733af62594b5e07bc493ae.png

813eba9de1b1b7cce1cad508b048c521.png

然后,作者使用门控循环单元(GRU层)来决定结果中是否应包含布尔属性。更新门用于决定哪些信息需要流入未来,重置门则是控制过去的哪些信息需要被遗忘,利用GRU中的两个门控单元的特点,将第t个布尔型属性值作为第t步的输入状态,并进一步计算出隐藏状态和输出状态。通过这种方式,不仅可以在实体嵌入中融入属性值,还能够建立起属性值之间的联系。通过新的双曲运算符,作者给出了双曲空间中的GRU的定义方式,具体如下:

2bdf138f790f4fc2cb751f756fe24cf4.png

进一步地,作者定义了一个双向GRU(BiGRU层)来有效处理文本属性。BiGRU层由正向GRU和反向GRU组成,通过合并正、反向GRU的输出,得到实体嵌入,具体如下:

33de1ef3b2cab94fa578c18a2a17b8db.png

66dd04d3e3fb7f2551abe750d9852d2b.png

最后,作者应用具有不固定层数的多层前馈神经网络(FNN层)来捕获时间属性。作者定义了一个包含世纪、十年、年、季度、月、周、日、小时、分钟以及秒在内的10级时间层次结构,分别设置了每一层级的最大值,并将FNN的最大层数设置为10,为每一层定义一个权重矩阵。属性所具有的时间层级决定了该属性通过FNN的哪一层,通过这种方式,建立起不同时间层级之间的联系并灵活地学习时间类属性的表示。

•统一空间

基于流形的笛卡尔积,通过使用欧式、球形和双曲空间,作者构造一个具有连续曲率的统一空间,并对各个空间的使用数量作出一定的限制,具体如下:

35b8ae8fe266f2451baf19bcfc65dfc7.png

ffb17cd615e01e6f5602a9b0e0e94343.png

实验

作者在YAGO-10、FB15k-237、WN18RR和DBpedia-literals等4个数据集上进行实验,数据集的统计信息具体如下:

9b37358bb6f58b27e2fac23e373ee9fa.png

论文对比了11种基线模型,在知识图谱链接预测和节点分类任务上验证了提出的DT-GCN模型的有效性,结果如下:

4f77ae00f427c0d25f70fe15c13783ad.png

论文在统一空间上进行了消融实验,将提出的DT-GCN模型与三种混合空间中的模型SH-GCN*、EH-GCN*和SH-GCN*进行对比,DT-GCN模型仍然取得了最佳性能,结果如下:

0b18556b7ff89060c39433f9c9671501.png

论文在数据类型上进行了消融实验,将不能区分数据类型的HGCN模型作为基线,对比了HGCN+integer、HGCN+double、HGCN+Boolean、HGCN+temporal、HGCN+textual以及HGCN*模型,六种能够区分细粒度数据类型的模型均取得了优于HGCN模型的效果,结果如下:

29ee880b8cdd190a3c760835d885910c.png

论文研究了维度对性能的影响,在DBpedia-literals数据集上对比了DT-GCN、HGCN*和HGCN模型在维度4、8、16、32、64上的性能,DT-GCN模型性能最佳,结果如下:

09ccc9f620acde2e724221b1d599f758.png

总结

论文提出了一种双曲空间中的数据类型感知的知识图谱表示学习模型DT-GCN,以充分利用属性值的数据类型这一语义信息。具体而言,DT-GCN将每个实体投影到一个具有连续曲率的统一空间中,并通过细粒度数据类型进一步增强知识图谱表示学习。实验结果证明,论文提出的DT-GCN模型在具有丰富类型的知识图谱链接预测和结点分类任务上显着优于基线模型。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

077bc62c241c406a78003526da125852.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477898.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NLP太难学了!?吃透NLP的方法来拿走

最近有粉丝私信我,NLP很难学,这条路能坚持走吗?有相同困惑的朋友可以一起探讨一下:大佬你好,我目前从事ERP运维工作,想转行NLP,开始是学数据结构和c刷了些leetcode题,然后把cs224n和…

LeetCode 1161. 最大层内元素和(层序遍历)

1. 题目 给你一个二叉树的根节点 root。设根节点位于二叉树的第 1 层,而根节点的子节点位于第 2 层,依此类推。 请你找出层内元素之和 最大 的那几层(可能只有一层)的层号,并返回其中 最小 的那个。 示例&#xff1…

图谱实战 | 京东商品图谱构建与实体对齐

转载公众号 | DataFunTalk 分享嘉宾:赵学敏博士 京东科技编辑整理:蔡丽萍 TRS出品平台:DataFunTalk导读:在电商企业采购和运营过程中,如果要想掌握商品的实时价格等行情信息,就需要对齐各个电商网站的商品…

Quartz应用与集群原理分析

一、问题背景 美团CRM系统中每天有大量的后台任务需要调度执行,如构建索引、统计报表、周期同步数据等等,要求任务调度系统具备高可用性、负载均衡特性,可以管理并监控任务的执行流程,以保证任务的正确执行。 二、历史方案 美团CR…

卖萌屋新闻联播栏目,倾情上线~

编 | 小轶感谢提供本期内容的 iven、ZenMoore、 jxyxiangyu、付瑶今天这篇推文是卖萌屋全新的原创系列———暂且取名为“卖萌屋新闻联播”节目。卖萌屋的作者、小编日常都会在团队群里分享各种最新发现的实用资源、有意思的学术工作。小伙伴们在互相分享的过程中都受益匪浅。我…

LeetCode 386. 字典序排数(DFS循环)

1. 题目 给定一个整数 n, 返回从 1 到 n 的字典顺序。 例如, 给定 n 1 3,返回 [1,10,11,12,13,2,3,4,5,6,7,8,9] 。 请尽可能的优化算法的时间复杂度和空间复杂度。 输入的数据 n 小于等于 5,000,000。来源:力扣(LeetCode&#…

论文浅尝 | 基于多模态特征的视觉实体链接

转载公众号 | 数据智能英文刊文章题目:Visual Entity Linking via Multi-modal Learning作者:郑秋硕,闻浩,王萌,漆桂林引用:Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data I…

一训练就显存爆炸?Facebook 推出 8 比特优化器,两行代码拯救你的显存!

文 | jxyxiangyu编 | 小轶“小夕,小夕!又出来了个 SOTA 模型!赶紧 follow !”小夕看了看新模型的参数量, 然后看了看实验室服务器的几张小破卡。小夕,陷入了沉默。自从人们发现越大的模型性能越好后&#x…

论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。1.Motivation知识图谱是许多NLP任务和下游应用的核心,如问答、对话代理、搜索引擎和推荐系统。知识图中存储的事实总是以元组的形…

LeetCode 979. 在二叉树中分配硬币(DFS)

文章目录1. 题目2. DFS 解题1. 题目 给定一个有 N 个结点的二叉树的根结点 root,树中的每个结点上都对应有 node.val 枚硬币,并且总共有 N 枚硬币。 在一次移动中,我们可以选择两个相邻的结点,然后将一枚硬币从其中一个结点移动…

有福利! 好书推荐:从《实用推荐系统》学习寻找用户行为之法

大多数关于推荐系统的图书都讲述了算法及其优化方法。这些书都认为你已经有了一个大的数据集来供算法使用。数据集不会像变魔术那样凭空出现。要想收集到正确的用户偏好数据,就需要投入精力和进行思考。它会成就你的系统,或者搞砸你的系统。“垃圾进&…

灵活强大的构建系统Gradle

前言 构建,软件生命周期中重要的一环,在现代软件开发过程中,起着越来越重要的作用。过去在Java或类Java的世界里,Ant、Maven再熟悉不过了,Maven凭借其强大的依赖配置战胜Ant,基本上成为了Java构建的标准。而…

LeetCode 791. 自定义字符串排序(map)

1. 题目 字符串S和 T 只包含小写字符。在S中,所有字符只会出现一次。 S 已经根据某种规则进行了排序。我们要根据S中的字符顺序对T进行排序。更具体地说,如果S中x在y之前出现,那么返回的字符串中x也应出现在y之前。 返回任意一种符合条件的…

6万字解决算法面试中的深度学习基础问题

文 | 清卢雨源 | 对白的算法屋前言真的是千呼万唤始出来emmmm,去年春招结束写了篇面试的经验分享。在文中提到和小伙伴整理了算法岗面试时遇到的常见知识点及回答,本想着授人以渔,但没想到大家都看上了我家的 !但因本人执行力不足…

OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)

OpenKG地址:http://openkg.cn/dataset/ocean开放许可协议:CC BY-SA 4.0贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)1、背景海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海…

Presto实现原理和美团的使用实践

Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越…

图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建

转载公众号 | DataFunSummit分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任编辑整理:李杰 京东出品平台:DataFunTalk导读:数研院这些年在知识图谱建设上取得了丰硕成果,今天我们将图谱构建过程中的…

6 年大厂面试官,谈谈我对算法岗面试的一些看法

文 | 不敢透露姓名的 Severus 和小轶面试官坐在那撇着大嘴的,“咳,给你一机会,最短的时间内让我记住你。”这个我会,我抡圆了“啪!”,扭头我就走。我刚到家,录取通知书就来了,请你务…

美团Android自动化之旅—生成渠道包

每当发新版本时,美团团购Android客户端会被分发到各个应用市场,比如豌豆荚,360手机助手等。为了统计这些市场的效果(活跃数,下单数等),需要有一种方法来唯一标识它们。 团购客户端目前通过渠道号…

开源开放 | 细粒度可循证医学文档知识融合表示和推理(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/mdo-dataset开放许可协议:GPL 3.0贡献者:武汉科技大学(高峰、龚珊珊、顾进广、徐芳芳)摘要本开放资源在医学文档知识的基础上,使用知识图谱相关技术,解决了…