论文笔记整理:杨帆,浙江大学计算机学院。
动机
现有的用于图结构的预训练方法要么只关注node-level,导致在图表示空间没有区分度,要么只关注graph-level,导致在节点表示空间没有区分度。一种优质的节点表示应该保证不仅在节点层面有良好的区分度,而且由这些节点表示生成的图的表示在全图层面也有良好的区分度,所以预训练过程应同时考虑到node-level和graph-level。
模型
本文提出的模型主要包括node-level预训练和graph-level预训练两部分,其中node-level预训练包括context prediction和attribute masking两种实现方法。
Node-level pre-training
Context prediction
该方法定义了Neighborhood和Context graph两个概念,利用两个GNN分别对每个节点的Neighborhood和Context graph进行编码,然后通过负采样技术,训练一个二分类器判断一个Neighborhood表示和一个Context graph表示是否对应相同的节点,以此聚合周围节点的属性信息和邻近的图结构信息。
Attribute masking
该方法首先随机选取某些节点的属性将其MASK(把原始属性用特殊的标识符替换掉),然后使用GNN对节点编码生成节点表示,最后通过线性模型预测被MASK的属性值。
2. Graph-level pre-training
首先将节点的表示聚合起来得到图的表示,然后在图上进行多个二分类任务的联合训练。
实验
数据集
数据集包括生物和化学两个领域,生物领域的任务是蛋白质功能预测,化学领域的任务是分子属性预测。
实验结果
ROC-AUC performance
Negative transfer
加入graph-level预训练后,可以很好地防止Negative transfer(使用预训练效果反而差于不使用预训练的效果)的出现。
c. 收敛性
采用本文中的预训练策略能够有效加快收敛速度。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。