论文浅尝 | 动态知识图谱对齐

7592072714e8efde101100b6ee25cfcd.png

论文笔记整理:谭亦鸣,东南大学博士生

来源:AAAI‘21

链接:https://ojs.aaai.org/index.php/AAAI/article/view/16585

概述

本文提出了一种动态图谱(KG)对齐方法,在“动态”(即图谱可能随时间更新)的设定下,作者认为该任务的难点在于实体embedding的更新,因为KG更新后拓扑结构也会随之变化,而实体embedding与图谱结构高度相关。所提方法DINGAL-系列的核心思路是将KG表示学习使用的GCN参数矩阵视作特征转换操作,从而减少转换和聚合过程间的耦合。在与现有的14个方法在DBP15K数据集上的对比结果表明,论文方法取得不错性能,且提升了对齐速度。

背景与动机

c189b2fbfd8eb16358f291df6d47e091.png

这篇论文定义的实体对齐任务目标是将不完整的KG之间通过建立链接,获得一个完整KG的过程(如图1)。作者表示,现有对齐方法普遍假定KG是静态的,而事实上KG应该是处于一个更新和发展的过程中。基于此,论文提出了一个扩展的对齐任务:动态图谱对齐。

贡献

作者总结其贡献如下:

1.定义了动态图谱对齐问题,并第一个展开研究2.提出了新的算法,DINGAL系列,包括DINGAL-B(静态对齐)和GINGAL-O以及GINGAL-U面向动态对齐3.实验对比现有14种对齐模型取得了性能超越,并且系列算法取得了更快的运行速度

方法

32e3cbdb0c34f0adce25cff88056a2cb.png

图2给出了本文算法的描述,B算法用最初KG得到embedding,O和U的主要区别在于O沿用了B算法预训练参数对图谱更新后受到影响的节点作表示学习。而U则使用了一个全新的锚链接来更新参数。

图3给出了传统GCN过程,一个聚合-再-转换的函数。节点首先聚合它的邻居特征,然后这些特征通过一个线性转换矩阵投影到隐空间。

35982d659851d42e3e5aeb9f94bd2393.png

在传统方式下随KG结构变化来动态更新图谱embedding要求变化最好只发生在受影响的一小部分节点上。解决方向在于切断图谱拓扑结构与GCN参数矩阵之间的耦合。

10b4c61a6162eded342f5efa502d5d19.png

作者首先将节点嵌入矩阵通过线性转换投影到一个隐空间,然后基于L聚合邻居节点的特征。DINGAL-B的流程如图4所示,对于任一实体的输入特征X,首先进入一个拓扑不变mask门M(公式2),该公式表示Hadamard乘积,用于确定特征不同维度的重要性(类似注意力机制)。

c14887c885c87896f410ae492f13371a.png

接着mask门的输出被输入到一个GCN层(公式3)

5f908b7cb80d3e61d7fc2cda24ff5fd0.png

同时这个GCN层输出和mask门的输出一同输入到highway门(公式4)

9f993c2e411b31efec7f7f641c4e750b.png

最终网络的输出为:

d782d30b996bc6515b11f7e14dd5608a.png

接着使用以下的公式来衡量两个节点的距离:

4f042b9afe4b5741d4bc333df0385ae6.png

对于DINGAL-O,首先保留了B方法的所有参数,在动态更新中更新那些受到影响的实体embedding。单跳受影响实体被定义为新实体(新增实体)和老实体(增加删除边操作),不考虑删除的实体,因为它们不参与动态对齐。图5给出了一个受影响节点划定的例子。

6015a01d5cb46ab74ca045c7fafe5b5f.png

在O方法中,受影响更新的实体embedding的获取方式如公式8:

2a0320d0567ee5471bab587fb5ce39ca.png

La表示局部拉普拉斯矩阵,来自全局L矩阵,La的范围由受影响的一跳邻居的size决定。

实验

实验使用的数据集是DBP15K,包含三种语言对,覆盖15K预对齐实体。

静态实验还是沿用DBP15K的常规切分测试集

动态实验,作者随机将DBP15K里的对齐对切分为三个动态时间步。在对于开始时间t0,KG移除3000个对齐的实体对以及链接到它们的边。对于任何不属于ground-truth的实体,如果它由于时间的变化而成为一个孤立的实体,它就会被删除。在时间步t1,1500个对齐的对以及与其链接的孤立实体将在t0被添加到KG对,这将在时间步t1形成新的KG对。

数据集评价指标为Hits@1和Hits@10

主要实验结果如下:(表1消融分析,w/o highway门,mask门,以及单层网络的效果),从结果看起来highway门是性能提升的主要原因

ffbf815da8664fab12db042d1d03b058.png

表2和3是动态对齐实验结果

886e10b70215792d35abcfe5eb877321.png

243f1c1498b18abd5990c035ca022880.png

作者也给出了结果,论述实验时间效率上所提方法相比已有方法有明显效率提升。

27c4e8b86059c96764c8cf5aae9793d5.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

b8127b23388c200dbc5fcb89b103aaa6.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477933.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你的 GNN,可能 99% 的参数都是冗余的

文 | iven自从图卷积神经网络(GCN)面世以来,图神经网络(GNN)的热潮一瞬间席卷 NLP。似乎在一切 NLP 任务上,引入一个图结构,引入一个 GNN,就能让模型拥有推理能力。更重要的是&#…

LeetCode 874. 模拟行走机器人(set)

1. 题目 机器人在一个无限大小的网格上行走&#xff0c;从点 (0, 0) 处开始出发&#xff0c;面向北方。该机器人可以接收以下三种类型的命令&#xff1a; -2&#xff1a;向左转 90 度-1&#xff1a;向右转 90 度1 < x < 9&#xff1a;向前移动 x 个单位长度 在网格上有…

高级语言的编译:链接及装载过程介绍

引言 随着越来越多功能强大的高级语言的出现&#xff0c;在服务器计算能力不是瓶颈的条件下&#xff0c;很多同学会选择开发效率高&#xff0c;功能强大的虚拟机支持的高级语言&#xff08;Java&#xff09;&#xff0c;或者脚本语言&#xff08;Python&#xff0c;Php&#xf…

图谱实战 | 基于半结构化百科的电影KG构建、查询与推理实践记录

转载公众号 | 老刘说NLP本文围绕基于半结构化百科的电影知识图谱构建、查询与推理实践这一主题&#xff0c;完成基于百度百科的电影元组抽取、基于protg的电影本体构建、基于D2RQ的RDF数据转换与查询、基于Apache jena的电影知识推理四个环节的实践。这是半结构化知识图谱构建和…

推荐系统精排:看阿里妈妈再试线性模型

文 | 水哥源 | 知乎saying1.科学总是要求我们有深度&#xff0c;但在实际业务中这却是一条悖论&#xff1a;越有深度的事情往往投入产出比不够高2.当我有一个方法A&#xff0c;还有一个方法B。且B的某种简单形式就是A的时候&#xff0c;我就会很快乐&#xff0c;因为这时候B获取…

LeetCode 686. 重复叠加字符串匹配

1.题目 给定两个字符串 A 和 B, 寻找重复叠加字符串A的最小次数&#xff0c;使得字符串B成为叠加后的字符串A的子串&#xff0c;如果不存在则返回 -1。 举个例子&#xff0c;A “abcd”&#xff0c;B “cdabcdab”。 答案为 3&#xff0c; 因为 A 重复叠加三遍后为 “abcd…

如何提升大规模Transformer的训练效果?Primer给出答案

文 | 舞风小兔编 | 智商掉了一地如何进一步提升大规模Transformer的训练效果&#xff1f;Primer给出了答案&#xff0c;一起来看看吧&#xff01;Transformer是深度学习界的明星模型。由于其具有高度的并行性&#xff0c;十分容易在并行计算系统中扩展至超大规模。自然语言处理…

会议交流|大模型与图学习等知识图谱相关技术实践探索

2021年&#xff0c;在疫情隔离和复杂国际形势的背景下&#xff0c;我们越发认识到重视核心基础技术&#xff0c;对保持国家独立自主发展的关键价值&#xff0c;互联网和科技行业也面临着新的挑战和变革机遇&#xff0c;新的AI技术正发挥越来越大的作用&#xff0c;AI技术本身正…

Kafka文件存储机制那些事

Kafka是什么 Kafka是最初由Linkedin公司开发&#xff0c;是一个分布式、分区的、多副本的、多订阅者&#xff0c;基于zookeeper协调的分布式日志系统(也可以当做MQ系统)&#xff0c;常见可以用于web/nginx日志、访问日志&#xff0c;消息服务等等&#xff0c;Linkedin于2010年贡…

LeetCode 392. 判断子序列(双指针二分查找)

1. 题目 给定字符串 s 和 t &#xff0c;判断 s 是否为 t 的子序列。 你可以认为 s 和 t 中仅包含英文小写字母。字符串 t 可能会很长&#xff08;长度 ~ 500,000&#xff09;&#xff0c;而 s 是个短字符串&#xff08;长度 <100&#xff09;。 字符串的一个子序列是原始…

仅仅因为方法 Too Simple 就被拒稿,合理吗?

文 | 小戏编 | 小轶如果你看到自己实验行之有效的论文被退稿&#xff0c;而收到的退稿理由仅仅是“方法太简单”&#xff0c;你会怎么想&#xff1f;这两天在推特上&#xff0c;佐治亚理工的 Riedl 教授吐槽了自己收到的 AAAI phase 1 退稿理由居然是因为“这方法似乎太简单”&…

论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入

论文笔记整理&#xff1a;朱珈徵&#xff0c;天津大学硕士链接&#xff1a;https://www.ijcai.org/proceedings/2021/0395.pdf动机从遗传数据到社会网络&#xff0c;在越来越多的场景下与知识图谱边缘相关的数值已经被用来表示不确定性、边的重要性&#xff0c;甚至是带外知识。…

LeetCode 459. 重复的子字符串(数学)

1. 题目 给定一个非空的字符串&#xff0c;判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母&#xff0c;并且长度不超过10000。 示例 1: 输入: "abab" 输出: True 解释: 可由子字符串 "ab" 重复两次构成。示例 2: 输入: &quo…

被放养导致申博论文难产,该不该硬gang导师?

最近一位粉丝给我发长文求助&#xff0c;说他因为申博论文的事情快崩溃了&#xff0c;让我给点建议。我把经过贴在这里跟大家探讨一下&#xff1a;985专硕一枚&#xff0c;CV方向&#xff0c;最近想申请国外博士&#xff0c;快被论文逼疯了。提交了初稿&#xff0c;隔了一个月&…

会议交流 | 第十五届全国知识图谱与语义计算大会(CCKS 2021)12月25日线上召开...

勘误&#xff1a;张伟老师为华东师范大学紫江青年学者OpenKGOpenKG&#xff08;中文开放知识图谱&#xff09;旨在推动以中文为核心的知识图谱数据的开放、互联及众包&#xff0c;并促进知识图谱算法、工具及平台的开源开放。点击阅读原文&#xff0c;进入 CCKS 2021 网站。

美团性能分析框架和性能监控平台

以下是我在 Velocity China 2014 做的题为“美团性能分析框架和性能监控平台”演讲的主要内容&#xff0c;现在以图文的形式分享给大家。 今天讲什么&#xff1f; 性能的重要性不言而喻&#xff0c;需要申明的是&#xff0c;我们今天不讲业界最佳性能实践&#xff0c;这些实践已…

LeetCode 581. 最短无序连续子数组(排序单调栈)

文章目录1. 题目2. 解题2.1 排序2.2 4次遍历2.3 单调栈1. 题目 给定一个整数数组&#xff0c;你需要寻找一个连续的子数组&#xff0c;如果对这个子数组进行升序排序&#xff0c;那么整个数组都会变为升序排序。 你找到的子数组应是最短的&#xff0c;请输出它的长度。 示例…

史上最大多模态图文数据集发布!

文 | 付瑶编 | 小轶最近多模态研究圈中出现了一个扬言 “史上最大规模”的多模态图文数据集&#xff1a;LAION-400。该数据集在今年8月完全公开&#xff0c;共计公开了 4亿图文对&#xff0c;可以依据不同的用途提供不同大小版本的子数据集。据小编调查&#xff0c;在 LAION-40…

图谱实战 | 知识图谱构建的一站式平台gBuilder

OpenKG地址&#xff1a;http://openkg.cn/tool/gbuilder网站地址&#xff1a;http://gbuilder.gstore.cn知识图谱能够让机器去理解和认知世界中的事物和现象&#xff0c;并解释现象出现的原因&#xff0c;推理出隐藏在数据之间深层的、隐含的关系&#xff0c;使得知识图谱技术从…

LeetCode 861. 翻转矩阵后的得分(贪心)

1. 题目 有一个二维矩阵 A 其中每个元素的值为 0 或 1 。 移动是指选择任一行或列&#xff0c;并转换该行或列中的每一个值&#xff1a;将所有 0 都更改为 1&#xff0c;将所有 1 都更改为 0。 在做出任意次数的移动后&#xff0c;将该矩阵的每一行都按照二进制数来解释&…