文章目录
- 1 本文的主要贡献
- 2 FedGA 模型
- 3 FedGA-L 模型
- 3.1 模型的思想
- 3.2 模型具体步骤
- 4 实验
1 本文的主要贡献
解决图联邦学习中利用图拓扑结构和无标签节点数据的难题,提出了一种称为联合图增强(FedGA)的新方法,以更好地利用拓扑信息,然后在 FedGA 的基础上引入带标签注入的联合图增强(FedGA-L),以利用无标签节点数据。FedGA将图数据增强与边预测模型和节点分类模型相结合。
具体来说,首先通过链接预测模型增强客户端数据,然后在增强数据的基础上训练节点分类模型。此外,FedGA-L还通过结合伪标签和标签注入来增强图数据,从而提高半监督节点分类任务中未标签节点的利用率。
2 FedGA 模型
FedGA 模型旨在 1)增加客户端图的边连接数量以及 2) 从拓扑角度增强节点之间的信息以有利于所有的客户端。
在 FedGA 中,每个客户端拥有两个 GNN 模型:边连接预测和节点分裂任务。
具体算法:
- 每个客户端 C i C_i Ci 在本地图数据上训练一个边连接预测 GNN 模型。
- 从边集合 E i E_i Ei中选取一部分边作为正样本边子集 E i p o s E_i^{pos} Eipos,一部分不存在的边连接作为负样本 E i n e g E_i^{neg} Eineg
- 每个客户端使用作为输入,将作为标签,以训练边预测模型。
FedGA 的模型框架如下图所示:
3 FedGA-L 模型
为了更好的利用未标注的数据,提出了 FedGA-L 模型,它是 FedGA 的增强版。
3.1 模型的思想
使用预先训练好的分类模型给无标注的数据加上“伪标签”,然后将“伪标签”作为附加信息注入节点特征,以增强边预测能力更好的对节点进行分类任务。
3.2 模型具体步骤
- 标签注入(Label Injection):由于不同类别节点之间的连接会对分类模型在节点分类任务中的判断产生相反的影响,可以分为类内的边连接(interconnections)和类间的边连接(intraconnections)。类间连接降低了分类模型辨别节点类别的能力,而类内连接则增强了这一能力。
FedGA-L 模型框架如下图所示:
- 预训练和伪标注(Pretrain and Pseudolabel):由于半标注的数据集会导致维度的不一致,因此,第一步要对未标注的数据进行标签标注。本模型在进行数据增强操作之前提前进行分类模型的训练。
- 图增强(Graph Augmentation): 在 FedGA-L 模型中,数据聚合方式与 FedGA 模型相同。不同的是,将图连接信息加入图中依据概率矩阵中的概率由大到小。首先,在数据增强过程之后,必须在注入标签之前,将数据维度恢复到原始尺寸,以防止标签干扰训练最终节点分类模型。然后,第二轮基于训练模型进行训练前一阶段。由于数据维度保持不变在两个训练阶段,预训练模型可以直接使用,从而节省时间和计算资源在前一个训练阶段消耗。
4 实验
实验数据集
实验结果