eclipse 网站开发过程/百度招聘

Towards Graph Foundation Models: A Survey and Beyond

WWW24

#paper/⭐⭐⭐# #paper/💡#

背景和动机

背景与意义
随着基础模型（如大语言模型）在NLP等领域的突破，图机器学习正经历从浅层方法向深度学习的范式转变。GFMs的提出旨在通过大规模图数据预训练，构建可适应多种图任务的通用模型，解决传统图模型泛化性不足的问题。

贡献：

本文首次定义了图基础模型的概念，并探讨了其能力的核心问题和特征
本文介绍了一种新颖的分类法，并讨论了图形基础模型的每种方法的优点和局限性
本文提供了图形基础模型的未来有希望的方向

核心概念
GFMs被定义为具有三大特征的新型图学习范式：

大规模预训练：基于海量异构图数据
任务无关性：支持下游任务的零样本或少样本迁移
通用表征能力：可同时处理节点/边/图级别的任务

技术分类
现有研究可分为三大技术路线：

GNN基模型
- 基于图神经网络架构（如GraphGPT、GraphMAE）
- 通过掩码重建等自监督目标预训练
- 优势：保留图结构特性，但扩展性受限
LLM基模型
- 将图数据转化为文本/序列（如GPT4Graph）
- 利用大语言模型的推理能力
- 优势：零样本能力强，但图拓扑建模存在局限
GNN-LLM融合模型
- 结合GNN的拓扑建模与LLM的语义理解（如GraphText、ChatGPT）
- 典型方法：图结构编码+文本特征融合
- 当前焦点：解决模态对齐与信息交互挑战

挑战与展望
未来研究方向包括：

架构创新：设计更高效的图tokenization方法
可扩展性：开发适用于超大规模图的训练框架
多模态融合：探索图结构与文本/视觉特征的深度交互
理论体系：建立GFMs的可解释性理论框架
评估标准：制定跨领域的统一评测基准

GNN-BASED-MODELs

Backbone Architectures

Message Passing-Based Methods

核心原理：通过局部邻居信息迭代聚合与更新节点表示，公式化为：

$h^{k+1}_{v}= U^{k}\left( h^{k}_{v}, M^{k}_{u \in N(v)}\left( h^{k}_{v}, h^{k}_{u} , X_{e}^{(u,v)}\right) \right)$
其中 $h^k_v$ 为节点 $v$ 第 $k$ 层嵌入， $X_e^{(u,v)}$ 为边属性， $M^k$ 为聚合函数， $U^k$ 为
更新函数。
典型模型：
- GCN：基于谱图卷积的一阶近似，广泛用于同构图。
- GAT：引入注意力权重分配邻居重要性
- GraphSAGE：通过邻居采样与聚合支持大规模图。
- HGT：针对异构图设计类型感知的注意力
- GIN：理论表达力等价于1-WL测试，适合复杂结构建模。

Graph Transformer-Based Methods

核心原理：将图视为全连接网络，利用全局自注意力捕捉长程依赖（对比见图3）。
关键改进：
- 位置编码：GraphBERT提出子图亲密度与跳数距离编码；Graphformer引入最短路径距离偏置项。
- 动态图建模：SimpleDyG 简化时序对齐，无需复杂结构修改。
- 异构图扩展：CoBFormer 通过双层级注意力平衡局部与全局信息。
理论分析：文献对比虚拟节点与自注意力机制在长程依赖中的表现差异。

Pre-training

Contrastive Methods

目标：最大化不同视图间的互信息（MI），增强语义鲁棒性。
方法分类：
- 同尺度对比：
  - 节点级：GraphCL 、GRACE通过图增强生成正负样本。
  - 子图级：GCC对比同一节点的不同子图嵌入。
- 跨尺度对比（局部全局） ：
  - DGI对比节点与图级嵌入；CPT-HG 结合关系级与子图级任务。

Generative Methods

目标：通过重构或属性预测学习通用图语义。
方法分类：
- 图重构：
  - VGAE 重构邻接矩阵；GraphMAE 重构图属性并引入掩码解码策略。
  - GPT-GNN 联合生成边与节点属性。
- 属性预测：
  - GROVER 预测分子图的化学属性（如官能团）。
跨领域预训练：FOTOM 通过多领域对抗对比学习提升泛化性。

Adaptation

Fine-Tuning

常规微调：
- DGI、GRACE 使用预训练编码器生成嵌入，微调分类器。
- GPT-GNN 微调任务特定解码器适配下游任务。
高效微调：
- AdapterGNN 插入轻量适配器模块；G-Adapter在图Transformer中融合消息传递。

Prompt Tuning

策略分类：
- 前提示（Pre-prompt） ：
  - GPF添加可优化特征向量至节点；AAGOD 修改邻接矩阵结构。
- 后提示（Post-prompt） ：
  - GraphPrompt将分类任务转化为子图相似性匹配。
- 混合提示：MultiGPrompt、HGPROMPT结合双模板设计支持异构图。

Discussion GNN-based method

优势：
- 结构归纳偏置：天然支持置换不变性，高效捕捉局部拓扑模式。
- 计算轻量：参数量小（如GIN仅需百万级参数），适合资源受限场景。
- 小样本泛化：通过图传播增强稀疏标注下的性能（如半监督节点分类）。
局限性：
- 文本建模缺失：未显式利用节点/边附带的文本语义（如商品描述、论文摘要）。
- 知识容量有限：缺乏LLM的通用知识库（如化学反应规则、社交网络常识）。
未来方向：
- 与LLM融合：结合语言模型的语义理解能力（如将文本属性编码为图特征）。
- 动态图扩展：优化时序依赖建模（如SimpleDyG在动态交易网络中的应用）。
- 跨模态预训练：如GraphControl通过控制网络适配多领域下游任务。

‍

LLM-BASED MODELs

LLM-based Models

Backbone Architectures

Graph-to-token
- 核心思想：将图数据序列化为Token，与自然语言对齐输入LLM。
- 关键方法：
  - GIMLET ：将节点表示视为Token，扩展LLM支持图与文本多模态输入，引入广义位置编码。
  - InstructGLM：将图节点特征向量扩展为LLM词表Token（如LLaMA/T5），支持跨模态预训练。
- 优势：保留图结构特征，支持可微调的开源LLM（如LLaMA）。
- 挑战：难以显式编码底层图拓扑关系（如长程依赖）。
Graph-to-text
- 核心思想：用自然语言描述图结构与属性，通过文本提示驱动LLM推理。
- 关键方法：
  - 基础格式：
    - 边列表：LLMtoGraph 、NLGraph 使用边列表描述图结构（如“A→B”）。
    - 图语法树：GraphText提出结构化自然语言模板（Graph-syntax Tree）增强推理可解释性。
  - 进阶优化：
    - 压缩提示：TextForGraph 设计精简文本模板减少输入长度。
    - 自生成提示：GPT4Graph 结合人工模板与LLM自生成的图摘要/探索提示。
- 优势：兼容闭源LLM（如GPT-4），支持零样本推理。
- 挑战：复杂图结构描述易导致信息损失（如动态图时序关系）。

Pre-training

Language Modeling (LM)
- 原理：通过自回归语言建模（预测下一个Token）预训练LLM，公式为：
  
  $p(s_{1:L}) = \prod_{l=1}^L p(s_l | s_{0:l-1})$
- 应用模型：
  - 主流LLM：LLaMA 、GPT-3等均基于LM预训练。
  - 图领域扩展：InstructGLM 、Graph-LLM 等将图数据融入LM任务。
Masked Language Modeling (MLM)
- 原理：随机掩码输入Token，预测被掩码内容（如BERT的Cloze任务）。
- 应用模型：
  - BERT/T5适配：Graph-LLM 使用MLM预训练的BERT处理图文本描述。
- 局限：掩码符号在微调阶段不存在，易导致预训练-下游任务差异。

Adaptation

Manual Prompting
- 策略：人工设计自然语言提示模板对齐图任务与LLM输入。
- 典型方法：
  - 结构化描述：
    - 分子图：LLM4Mol使用SMILES字符串描述分子结构。
    - 指令模板：InstructGLM 为中心节点设计任务指令（如分类、链接预测）。
  - 多格式实验：GPT4Graph 对比边列表、邻接表、GML等描述格式效果。
Automatic Prompting
- 策略：利用LLM自动生成图相关提示，减少人工干预。
- 典型方法：
  - 图摘要：GPT4Graph 生成目标节点的邻居摘要。
  - 图探索：通过LLM生成查询序列主动挖掘图结构（如Graph-LLM ）。
- 优势：缓解人工模板的次优问题，提升复杂任务泛化性。

Discussion

优势：
- 多模态融合：无缝整合图结构与文本语义（如商品描述→图节点属性）。
- 任务统一性：通过自然语言指令统一图学习任务（如分类、生成、推理）。
- 零样本潜力：闭源LLM（如GPT-4）可直接处理图文本描述，无需微调。
局限性：
- 结构建模弱：难以捕捉图拓扑特性（如社区结构、动态演化）。
- 长文本瓶颈：复杂图描述超出LLM上下文窗口限制（如万节点级图）。
- 逻辑推理局限：多跳推理（如分子反应路径）易产生幻觉。
未来方向：
- 结构化提示：结合图语法树（Graph-syntax Tree）增强逻辑表达能力。
- 高效压缩技术：开发图结构的高效文本压缩算法（如层次化描述）。
- 多模态对齐：探索图-文本-图像的联合表示（如Meta-Transformer）。

‍

GNN+LLM-BASED MODELS

核心架构分类

根据模型主导类型，方法可分为三类：

GNN为中心的方法 (GNN-centric)
- 核心思想：利用LLM提取文本特征，由GNN主导预测任务。
- 代表性工作：
  - GraD：通过参数高效微调LLM生成节点表征，输入GNN进行下游任务（分类/链接预测）。
  - GIANT：基于图结构的自监督学习微调LLM，使文本表征包含图拓扑信息。
  - WalkLM：通过属性随机游走生成文本序列，微调LLM以捕获属性语义与图结构。
- 局限：文本编码阶段缺乏节点间信息交互（如TAPE生成的图无关特征）。
对称方法 (Symmetric)
- 核心思想：对齐GNN与LLM的嵌入空间，实现结构感知的文本表征。
- 关键技术：
  - GraphFormer：迭代融合GNN的图聚合与Transformer的文本编码，但存在可扩展性问题。
  - GLEM：变分EM框架交替更新LLM与GNN，结合局部文本与全局结构信息。
  - 对比学习（如CLAMP）：通过图-文本对比损失对齐分子图与文本描述（如生物活性预测）。
- 优势：支持跨模态任务（如文本-图检索）。
LLM为中心的方法 (LLM-centric)
- 核心思想：利用GNN增强LLM的图推理能力，弥补其在数学计算、拓扑感知等领域的不足。
- 典型应用：
  - GraphGPT：通过图指令微调使LLM理解复杂图结构。
  - InstructGraph：指令调优赋予LLM图生成与推理能力。
  - MolCA：跨模态投影器使LLM兼容分子图与文本信息。

预训练策略

基于GNN或LLM的预训练

主流方法：掩码语言建模（MLM）、语言建模（LM）、文本-文本对比学习（TTCL）。
案例：GIANT、GraD采用MLM；TAPE使用LM；SimTeG通过TTCL增强语义相似性建模。

基于对齐的预训练
- 核心目标：对齐图与文本的嵌入空间（如分子图与描述文本）。
- 关键技术：图-文本对比学习（GTCL），最小化对比损失（如CLAMP中的NCE损失）。

适应策略

微调 (Fine-tuning)
- 全参数微调：直接调整模型参数（如GraphFormer），但计算成本高。
- 参数高效微调：仅优化部分参数（如LoRA适配器），应用于分类任务（GraD）或文本生成（MolCA）。
提示调优 (Prompt-tuning)
- 核心思想：通过设计提示词激活LLM的预训练知识，无需额外参数调整。
- 案例：
  - G2P2：自动优化提示词适配下游任务。
  - TAPE：结合文本特征生成预测列表与解释。

挑战与未来方向

关键挑战
- 模型对齐：缺乏统一的嵌入空间对齐标准（语义与结构信息需兼顾）。
- 可扩展性：图规模扩大时计算复杂度激增（如GraphFormer的内存问题）。
- 多模态融合：如何高效整合图、文本、图像（如GIT-Mol的三模态模型）。
未来方向
- 动态交互框架：开发迭代式GNN-LLM交互机制（突破当前串行处理限制）。
- 轻量化设计：探索更高效的参数共享与压缩策略（如ENGINE的侧链结构）。
- 跨领域泛化：构建统一框架支持分子科学、社交网络等多领域应用。

总结

GNN与LLM的融合通过互补优势（结构分析与语言理解）显著提升了图任务的性能，尤其在跨模态检索、分子属性预测等领域表现突出。然而，模型对齐、计算效率与多模态融合仍是核心挑战，需进一步探索动态交互框架与轻量化设计。

‍

总结与展望

数据与评估挑战

数据数量与质量
- 数据稀缺性：当前开源的大规模图数据有限且多集中于单一领域（如社交网络、分子结构），缺乏跨领域的统一数据集，限制了图基础模型（GFM）的泛化能力。
- 数据质量缺陷：噪声数据、不完整图结构或低质量标注会显著降低模型性能。现有数据增强技术（如图结构学习、特征补全）主要针对传统GNN，需探索适配LLM或GNN+LLM混合模型的增强策略。
- 解决方案方向：构建跨领域多模态图-文本联合数据集（类似MoleculeSTM的分子图与描述对齐），开发面向混合模型的动态增强方法（如WalkLM的文本序列生成结合图游走）。
评估方法局限
- 开放任务评估难题：LLM支持的开放任务（如生成式问答、图语义推理）缺乏标准标签，需从人工评估转向元评估（如基于LLM的自动评分）。
- 多维度评估需求：除性能外，需评估模型的鲁棒性（对抗攻击下的稳定性）、可信度（如减少幻觉）及隐私安全性（如GNN的节点隐私泄露风险）。
- 案例参考：借鉴语言模型的信任评估框架（如GPT-4的Red Teaming测试），设计图任务的对抗样本生成与防御策略（如针对分子图的对抗扰动检测）。

模型架构与训练挑战

模型架构设计
- 超越Transformer的架构探索：现有架构（如GraphFormer的GNN-Transformer迭代）存在可扩展性问题，需研究高效替代方案（如基于图稀疏注意力的轻量化设计）。
- 多模态对齐瓶颈：GNN与LLM的嵌入空间对齐缺乏统一标准（如CLAMP通过对比学习对齐分子图与文本，但难以泛化到社交网络）。
- 潜在方向：结合动态路由机制（如Capsule Networks）实现层次化对齐，或利用神经符号方法（如逻辑规则注入）增强可解释性。
训练范式创新
- 预训练任务多样性：当前预训练以MLM/LM为主，需设计图-文本联合任务（如GIANT的图感知自监督学习），探索统一预训练目标（如跨模态对比学习）。
- 高效适应技术：
  - 参数高效微调：采用LoRA等适配器技术（如GraD的LLM微调后接GNN）。
  - 提示工程优化：通过指令模板激活LLM的图推理能力（如GraphGPT的图结构指令调优）。
- 前沿技术迁移：验证知识蒸馏（压缩大模型到轻量GNN）、RLHF（人类反馈强化对齐）在图任务中的可行性。

应用场景与可信赖性挑战

杀手级应用探索
- 药物研发：利用GFM建模蛋白质3D结构（如AlphaFold的几何图表示）与药物分子交互，加速靶点发现与毒性预测（参考CLAMP的生物活性对比学习）。
- 城市计算：将交通系统建模为时空图，实现统一预测（如出行需求、流量）与决策优化（如信号灯控制），突破传统单任务模型的局限。
- 案例突破点：结合LLM的生成能力（如分子描述生成）与GNN的结构推理（如蛋白质-配体结合位点预测），推动自动化药物设计。
可信赖性风险
- 安全与隐私：
  - 幻觉抑制：通过置信度校准（如GraphPrompter的软提示约束）减少LLM的虚构输出。
  - 隐私保护：采用联邦学习（分散式图数据训练）或差分隐私（如GNN的梯度扰动）降低敏感信息泄露风险。
- 公平性与鲁棒性：
  - 去偏处理：在预训练中引入公平性约束（如节点分类的群体均衡损失）。
  - 对抗防御：针对图结构攻击（如节点注入）设计鲁棒聚合机制（如GNN-Jaccard的异常边过滤）。