论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

论文笔记整理:吴锐,东南大学计算机学院硕士。


 

     

来源:ICLR 2020

链接:https://arxiv.org/pdf/1911.03082.pdf

 

动机

 

目前针对于GCN的研究大多数都关注在学习无向图的结点表示上,然而我们在研究中更常见的通常是多关系图,例如知识图谱。因此,目前的大多数方法都无法直接应用在link prediction这一类需要对关系进行embedding表示的任务上。

KG-embedding的相关研究表明可以对边和结点的表示进行联合学习,但这些方法通常都受限于以link prediction为目标来学习embedding。虽然GCN能够以特定任务为目标进行学习,但其大多数应用都被限制在无关系图上。因此,本文考虑使用KG-embedding技术来学习特定任务下的关系和结点的embedding表示,COMPGCN应运而生。COMPGCN通过联合学习多关系图中的关系与结点的向量表示来解决了传统GCN所遇到的困难。主要贡献有以下几点:

  1. 提出COMPGCN,能够在GCN中对多种关系信息进行组合;

  2. 证明了CompGCN可以推广出已有的多关系GCN,并且可以随着关系数量的增长而不断扩展;

  3. 通过实验证明了方法的有效性。

 

背景知识

 

作者首先对一些背景知识进行了叙述,主要为针对无向图的GCN以及其对于有向图的扩展。无向图的表示如下:

             

其中V表示顶点集合,E表示边的集合,X则表示每个结点的输入特征。传统的单层的GCN可以得到如下的结点表示:

             

其中W表示模型的参数,f表示激活函数,可以认为H对图中每个结点的直接邻居进行了编码。如果要获得多跳的信息,可以用多层的GCN,如下:

             

其中k表示层数,则 W^k 表示特定层的参数。

对于有向图来说,GCN的表示如下式所示:

             

其中 W_r^k 表示针对于特定关系的参数。显然,关系越多就会导致参数越多。当关系的种类非常多时,就会引入非常多的参数,不利于模型进行学习。

 

CompGCN

 

首先,对于多关系图(其实就是有向图)的表示如下:

             

其中Z表示初始的关系特征,R表示可能的关系集合。

然后对边进行扩展。简单来说,就是对所有边添加一条反向边,并为每个结点添加一条指向自己的边:

             

在前面所提到的GCN的表达式,可以写成如下的形式:

             

其中N(v)表示结点v的出边相连的结点集合。CompGCN首先对相邻接点以及对应的边进行组合操作,以此来保证特征的维度是线性的,具体的更新公式如下:

             

其中x_ux_r 分别指代初始的结点和关系的特征,h_v 指代结点v更新后的表示,W_lamba(r)则是特定的关系类型的参数。在CompGCN中,作者用关系的方向的来进行区分:

             

             

此外,为了统一边与结点之间的运算,作者用一个投影矩阵将边空间投影到节点空间:

             

为了避免随着关系数量的增加所带来的参数复杂性,CompGCN使用了一组基来作为可学习的基础向量,而不是为每一个关系都定义一个embedding,如下式所示:

             

其中,              表示可学习的基向量,a_br 则表示特定关系、特定基对应的可学习的权重。综上所述,最终所得到的关于结点的k层之后的CompGCN的表达式如下:

             

关于关系的k层之后的CompGCN的表达式如下:

             

h_v^0和h_r^0表示初始的结点及关系特征。

最后,作者还分析指出,目前的很多图卷积神经网络都可以认为是CompGCN的一个特例,只不过是采取了不同的组合方式以及参数设置,如下表所示:

             

 

实验

 

作者分别在链路预测、结点分类以及图分类三个任务上进行了实验,同时在所有任务上,以Relational-GCN、Directed-GCN以及Weighted-GCN作为baseline进行对比。

1.针对链路预测任务,在FB15k-237以及WN18RR数据集上的实验结果如下:

             

可以看到在多个指标上,CompGCN都取到了最好的效果。

 

2. 作者测试了在链路预测任务上,不同的组合编码方式以及不同的评分函数所带来的不同效果,主要有以下三种组合方式:

             

其次,embedding的评分函数以及CompGCN的组合编码方式之间的关系如下图所示,可以帮助理解实验的过程:

             

 其中M代表组合编码方式,X表示评分函数,最终实验结果如下:

             

可以看到,在不同的评分函数下,CompGCN都取得了最好的效果。且ConvE+CompGCN(Corr)在所有实验中取得了最好的效果。

 

3. 作者通过调整关系数量以及基向量个数的方式,分析了CompGCN的scalability。主要分为以下几个方面:

a) 改变基向量个数带来的影响

             

可以看到模型的效果随着基向量的个数而不断提升,当取到100个基向量的时候,模型的效果与为每一种关系单独建立一个embedding的效果几乎一样。在前面的实验中我们可以看到,当取50的时候,CompGCN就能够有不错的表现了,

 

b) 改变关系数量带来的影响

             

可以看到,不管有多少个关系,CompGCN都能够取得不错的表现。

c) 与R-GCN的对比

             

 

可以看到,即使只用5个基向量,CompGCN的效果也在各种数量关系上全面优于考虑所有关系的R-GCN。

4. 针对结点分类(左)以及图分类(右)任务,实验结果如下图所示:

             

可以看到,在大部分情况下,CompGCN都取得了非常好的效果。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hades:移动端静态分析框架

只有通过别人的眼睛,才能真正地了解自己 ——《云图》 背景 作为全球最大的互联网 生活服务平台,美团点评近年来在业务上取得了飞速的发展。为支持业务的快速发展,移动研发团队规模也逐渐从零星的小作坊式运营,演变为千人级研发军…

GitHub超级火!任意爬取,超全开源爬虫工具箱

文 | 程序员GitHub最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!有多火呢?开源没几天就登上GitHub周榜第四,标星1.3K,累计分支 172 …

LeetCode 413. 等差数列划分(DP)

1. 题目 一个数列的等差数列子数组有多少个。 A [1, 2, 3, 4]返回: 3, A 中有三个子等差数组: [1, 2, 3], [2, 3, 4] 以及自身 [1, 2, 3, 4]。2. 解题 状态公式 if(A[i]−A[i−1]A[i−1]−A[i−2]),thendp[i]dp[i−1]1,i>2if (A[i]-A[i-1] A[i-1]-A[i-2]) , \quad then \…

技术动态 | 针对复杂问题的知识图谱问答最新进展

本文转载自公众号:PaperWeekly。作者:付彬、唐呈光、李杨、余海洋、孙健单位:阿里巴巴达摩院小蜜Conversational AI团队背景介绍知识图谱问答(KBQA)利用图谱丰富的语义关联信息,能够深入理解用户问题并给出…

百度提出新冠高风险小区预警算法,AAAI21收录!

编:夕小瑶几个月前,小屋推送了一期上帝视角看新型冠状病毒(COVID-19)对公众出行影响的顶会论文解读——《这篇顶会paper,讲述了疫情期间憋疯的你和我》,这篇有趣的paper来自百度地图团队,发表在…

搜狗地图2016-Android-社招笔试题(包含Java基础部分)

下面是搜狗地图的社招笔试题,由于条件有限,全是手机拍的,请将就着看。另请忽略上面的答案,不一定准确。 大伙可在下方讨论答案,上方答案仅供参考,不一定准确。

机器学习常用的算法整理:线性回归、逻辑回归、贝叶斯分类、支持向量机、K-means聚类、决策树、随机森林以及常用的应用场景整理

什么是机器学习? 机器学习是计算机利用已有的数据(经验)得出了某种模型,并利用这些模型预测未来的一种方法。这个过程其实与人的学习过程极为相似,只不过机器是一个可以进行大维度数据分析而且可以不知疲倦地学习的“怪兽”而已。 具体的机器…

新一代数据库TiDB在美团的实践

1. 背景和现状 近几年,基于MySQL构建的传统关系型数据库服务,已经很难支撑美团业务的爆发式增长,这就促使我们去探索更合理的数据存储方案和实践新的运维方式。而随着分布式数据库大放异彩,美团DBA团队联合基础架构存储团队&#…

我在哥大读博的五年

文 | Mike Shou知乎(ID:Showthem)本文已获作者授权,禁止二次转载0. 写在前面「 开始写这边总结的时候是三月,纽约成了疫情震中,看着新闻报道里的中央公园,中国城,第五大道,往事浮现&…

论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法

论文笔记整理:郝凯龙,南京大学硕士。来源:AAAI2020链接:https://arxiv.org/pdf/1911.10699.pdf动机推荐系统实际上是在做用户-商品二部图上的链路预测,仅仅用用户-商品之间的单一购买关系无法精确的进行描述为什么购买…

from torchcrf import CRF

报错CRF函数有问题,多了一个参数。通过源代码查找,发现两个torchcrf。通过pip list安装的时候是大写的TorchCRF,所以导入包的时候肯定也写大写的,没想到报错,后来改成全小写的就对了。

LeetCode 312. 戳气球(DP,难)

1. 题目 有 n 个气球,编号为0 到 n-1,每个气球上都标有一个数字,这些数字存在数组 nums 中。 现在要求你戳破所有的气球。每当你戳破一个气球 i 时,你可以获得 nums[left]∗nums[i]∗nums[right]nums[left] * nums[i] * nums[ri…

美团即时物流的分布式系统架构设计

本文根据美团资深技术专家宋斌在ArchSummit架构师峰会上的演讲整理而成。 背景 美团外卖已经发展了五年,即时物流探索也经历了3年多的时间,业务从零孵化到初具规模,在整个过程中积累了一些分布式高并发系统的建设经验。最主要的收获包括两点&…

论文浅尝 | AAAI2020 - 基于规则的知识图谱组合表征学习

论文笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生。论文链接:https://arxiv.org/pdf/1911.08935.pdf发表会议:AAAI 2020Motivation现有的KG Embedding方法大部分仅关注每个三元组的结构化信息有部分的工作把…

26岁!年入100万,两周把 Github 项目推向全球榜首,他是怎么做的?

今天要为大家介绍一位很厉害的朋友 —— 小浩。九零后,20 年年收入近百万。 大家不需要质疑他的收入,在他没做公众号的时候,我知道收入已有五六十。而公众号,只是疫情期间他因无聊而产出的结果,那结果怎么样呢&#xf…

美团餐饮娱乐知识图谱——美团大脑揭秘

前言 “ I’m sorry. I can’t do that, Dave.” 这是经典科幻电影《2001: A Space Odyssey》里HAL 9000机器人说的一句话,浓缩了人类对终极人工智能的憧憬。让机器学会说这样简单一句话,需要机器具备情感认知、自我认识以及对世界的认识,来辅…

Android官方开发文档Training系列课程中文版:OpenGL绘图之图形定义

原文地址:http://android.xsoftlab.net/training/graphics/opengl/shapes.html 使用OpenGL绘制图形的第一步就是要定义一个图形。如果不清楚OpenGL如何绘制自定义图形的相关基础知识时,那么使用OpenGL一定要仔细。 这节课将会简单讲述OpenGl ES的坐标系…

LeetCode 765. 情侣牵手(贪心)

1. 题目 N 对情侣坐在连续排列的 2N 个座位上,想要牵到对方的手。 计算最少交换座位的次数,以便每对情侣可以并肩坐在一起。 一次交换可选择任意两人,让他们站起来交换座位。 人和座位用 0 到 2N-1 的整数表示,情侣们按顺序编号…

Python 捕获异常

Python捕获异常 一.常见异常 1.语法错误:SyntaxError:invalid syntax (1)案例: (1)解决方法: ①查看代码有没有红色波浪线 ②熟悉python基本语法 2.变量名不存在:NameError:name b is not defined (1)案例: (2)解决方法: ①检查对应的变量名是否有定义并赋值,是否写错了变量名…

论文浅尝 | WWW2020 - 知识图谱中的实体摘要:算法、评价和应用 (PPT)

本文转载自公众号:专知。知识图谱封装了实体和关系。知识图谱的简洁表示格式和图的特性使得许多新的Web应用程序得以创建,并增强了现有的应用性能。然而,在一个知识图谱中,描述一个实体的几十个或几百个事实可能会超出一个典型用户…