本文是LLM系列文章，针对《Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs》的翻译。

探索大型语言模型在图形学习中的潜力

摘要
1 引言
2 前言
3 LLM在图上的流水线
4 LLM作为增强器
5 LLM作为预测器
6 相关工作
7 结论
- 7.1 关键发现
- 7.2 局限性
- 7.3 未来方向

摘要

图学习由于其在现实世界中的广泛应用而引起了极大的关注。在具有文本节点属性的图上学习最流行的管道主要依赖于图神经网络（GNN），并利用浅文本嵌入作为初始节点表示，这在一般知识和深刻的语义理解方面具有局限性。近年来，大型语言模型（LLM）已被证明具有广泛的公共知识和强大的语义理解能力，这彻底改变了现有的处理文本数据的工作流程。在本文中，我们旨在探索LLM在图机器学习中的潜力，特别是在节点分类任务中，并研究两种可能的管道：LLM作为增强器和LLM作为预测器。前者利用LLM利用其海量知识增强节点的文本属性，然后通过GNN生成预测。后者试图直接使用LLM作为独立的预测因子。我们在不同的环境下对这两条管道进行了全面、系统的研究。从全面的实证结果中，我们进行了原始的观察，发现了新的见解，这些见解开辟了新的可能性，并提出了利用LLM在图上学习的有希望的方向。

1 引言

2 前言

3 LLM在图上的流水线

4 LLM作为增强器

5 LLM作为预测器

6 相关工作

7 结论

在本节中，我们总结了我们的主要发现，介绍了本研究的局限性，并讨论了在图机器学习中利用LLM的潜在方向。

7.1 关键发现

在本文中，我们提出了两个潜在的管道：作为增强器的LLM和作为预测器的LLM，它们结合了LLM来处理文本属性图。我们严谨的实证研究揭示了一些有趣的发现，为未来的研究提供了新的见解。我们在下面强调了一些关键发现，从观察结果1到观察结果18可以找到更多发现。
发现1。对于LLM作为增强器，深度句子嵌入模型在性能和效率方面表现出有效性。我们实证发现，当我们在特征级别采用深度句子嵌入模型作为增强因子时，它们在不同的数据集分割设置下表现出良好的性能，并且具有可扩展性。这表明它们是在功能级别增强文本属性的好候选者。
发现2。对于LLM作为增强器，LLM的增强器和集合的组合证明了其有效性。如第4.2节所示，当LLM被用作文本级别的增强器时，我们通过在数据集和数据分割中将增强的属性与原始属性集成，观察到性能的提高。这为提高属性相关任务的性能提供了一种很有前途的方法。所提出的流水线包括用LLM增强属性，然后将原始属性与增强的属性组合在一起。
发现3。对于作为预测因子的LLM，LLM呈现出初步的有效性，但也表明了潜在的评估问题。在第5节中，我们利用文本属性和边缘关系，对LLM作为预测因子进行了初步实验。结果表明，LLM在处理文本属性方面表现出有效性，并在某些数据集上实现了良好的零样本性能。此外，我们的分析揭示了现有评估框架内的两个潜在问题：（1）在某些情况下，LLM的不准确预测也可以被认为是合理的，特别是在引用数据集的情况下，多个标签可能是合适的。（2）我们在OGBN-ARXIV上发现了一个潜在的测试数据泄露问题，这突出表明需要仔细重新考虑如何在真实世界数据集上适当评估LLM的性能。

7.2 局限性

更深入地理解文本嵌入的有效性。尽管深度句子嵌入模型是有效的，但我们对为什么它们的嵌入在节点分类任务上优于PLM的理解仍然有限。此外，我们在OGBN-PRODUCTS数据集上观察到深度句子嵌入模型和GLEM之间的性能差距，这可能与数据集的领域有关。此外，如观察4所示，GNN在不同的文本嵌入上表现出不同水平的有效性。然而，我们对这一现象的解释有限。为了获得更深入的理解，我们需要查看原始特征空间和聚合后的特征空间。这种现象可能与语言模型嵌入中的anistrophy有关。需要更深入的分析才能更好地理解这些现象。
LLM增强的成本。在这项工作中，我们研究了TAPE和KEA，以增强文本级别的文本属性。尽管这些方法已被证明是有效的，但对于具有N个节点的图，它们需要查询LLM的API至少N次。考虑到LLM的相关成本，在处理大规模数据集时，这会带来巨大的开销。因此，我们没有给出OGBN-ARXIV和OGBN-PRODUCTS数据集的结果。
文本格式的手工提示表示图形。在第5节中，我们将研究局限于使用“自然语言”提示进行图形表示。然而，存在各种其他格式用于以自然语言表示图，如XML、YAML、GML等。此外，我们主要以手工制作的方式设计这些提示，主要是基于试错。因此，值得考虑探索更多的提示格式以及如何实现自动提示。

7.3 未来方向

将当前管道扩展到更多的图学习任务。在本研究中，我们的主要重点是研究节点分类任务。尽管如此，这两条流水线是否可以扩展到其他的图学习任务，仍有待探索。某些任务需要使用远程信息，在LLM有限的输入上下文中表示这些信息是一个重大挑战。此外，我们证明了LLM在包含丰富文本信息的图中，特别是在自然语言中，表现出有希望的初步结果。然而，探索它们对具有非自然语言信息的其他类型图的有效扩展，如分子图，仍需进一步探索。
图域的LLM。在本文中，我们重点讨论了如何通过上下文学习使LLM适应图机器学习任务。然而，由于模型参数尚未更新，上下文学习可以帮助LLM获得特定任务信息的程度受到限制。最近，一些研究已经开始探索使用基于指令调整的方法来设计特定领域的模型，如推荐系统、多模态和表格数据。这些特定于领域的模型建立在LLaMA和Flan-T5等开源大型模型的基础上。然而，据我们所知，仍然没有专门针对图域调整的LLM。因此，如何调整这些基于调优的方法并将其应用于图域是一个很有前途的未来方向。
更有效地使用LLM。尽管LLM有效，但这些模型固有的运营效率和运营成本仍然构成重大挑战。以通过API访问的ChatGPT为例，当前的计费模型处理大型图形的成本很高。对于本地部署的开源大型模型，即使只是使用它们进行推理，也需要大量的硬件资源，更不用说通过参数更新来训练模型了。因此，制定更有效的战略来利用LLM目前是一项挑战。
评估LLM在图机器学习任务中的能力。在本文中，我们简要讨论了当前评估框架的潜在陷阱。主要有两个问题：（1）测试数据可能已经出现在LLM的训练语料库中，这被称为“污染”（2）基本事实标签可能存在歧义，基于它们计算的性能可能无法反映LLM的真实能力。对于第一个问题，一种可能的缓解措施是使用LLM的训练语料库中不包括的最新数据集。然而，这意味着我们需要不断收集数据并对其进行注释，这似乎不是一个有效的解决方案。对于第二个问题，一个可能的解决方案是重新考虑真实实况设计。例如，对于学术论文的分类，我们可以采用多标签设置，并选择所有适用的类别作为基本事实。然而，对于更一般的任务，设计更合理的基本真理仍然是一个挑战。一般来说，重新思考如何正确评估LLM是一个有价值的未来方向。
LLM作为在图上学习的注释器。在本文中，我们对采用LLM作为注释器进行了初步实验。我们发现，第一个挑战在于如何选择高质量的伪标签。最近，一些工作对如何评估“黑盒LLM”的不确定性进行了初步研究。当将这些方法应用于图域时，我们还需要考虑节点在图中的作用。具体而言，不同的节点在图中表现出不同的重要性，这意味着注释其中一些节点可能更有利于整体性能。因此，研究如何同时找到LLM的置信节点和图的重要节点是很重要的。