探索LLM在图上学习的潜力
- 摘要
- 介绍
- 初步知识
摘要
Learning on Graph已经引起了极大的关注,因为它在现实世界中有广泛的应用。在具有文本节点属性的图形上进行学习的最流行的流程主要依赖于图神经网络(GNN),并利用浅层文本嵌入作为初始节点表示,但这在通用知识和深入语义理解方面存在局限性。近年来,大型语言模型(LLM)被证明具有广泛的常识和强大的语义理解能力,已经彻底改变了处理文本数据的现有工作流程。本文旨在探索LLM在图机器学习中的潜力,特别是节点分类任务,并研究两种可能的流程:
- LLM作为增强器。利用LLM来增强节点的文本属性,借助其庞大的知识,然后通过GNN生成预测结果。试图直接使用LLM作为独立的预测器。
- LLM作为预测器。
并在各种设置下进行了全面而系统的研究。
介绍
图在各个学科和应用中无处不在,涵盖了各种现实世界的场景。其中许多图具有与文本属性相关联的节点,从而产生了具有文本属性的图,例如引用图和产品图。例如,在OGBN-PRODUCTS数据集中,每个节点表示一个产品,其相应的文本描述被视为节点的属性。这些图在各个领域广泛应用,从社交网络分析、信息检索到各种自然语言处理任务。
鉴于 文本属性图(TAGs) 的普遍存在,旨在探索如何有效处理这些图,重点关注节点分类任务。直观地说,TAGs提供了节点属性和图结构信息。因此,在建模它们的相互关系时,有效捕捉两者是很重要的。图神经网络(GNNs)已成为处理图结构数据的事实标准技术,通常利用消息传递范式来有效捕捉图结构。为了编码文本信息,传统的流程通常使用 非上下文化的浅层嵌入 ,例如词袋模型和Word2Vec嵌入,就像在常见的图基准数据集中看到的那样,随后使用GNN来处理这些嵌入。最近的研究表明,这些非上下文化的浅层嵌入存在一些限制,例如无法捕捉多义词和语义信息的不足,这可能导致在下游任务上表现不佳。
文本属性图是一种图结构,其中节点表示文本数据,而边代表节点之间的关系。每个节点都具有与之相关联的文本属性,这些属性可以是节点的文本内容、关键词、标签或其他与文本相关的信息。
例如,有三篇新闻文章:“科学家发现新的行星”,“太阳系中的行星数量增加到9颗”,“最新研究表明冥王星可能是一颗卫星”。我们可以将这三篇文章作为文本属性图的节点,并且每个节点的文本属性是相应文章的内容。然后,我们可以根据文章之间的关系添加边。例如,如果两篇文章共同提到了“行星”,我们可以在它们之间添加一条边表示它们之间的相关性。这就构建了一个文本属性图,其中节点表示新闻文章,边表示它们之间的关系。
“Non-contextualized”(非上下文化)是指在自然语言处理(NLP)中,表示不考虑上下文信息的模型或表示方法。在这种模型中,每个词或短语的表示是固定的,不受其上下文环境的影响。
传统的非上下文化表示方法包括词袋模型(Bag-of-Words),其中每个词都被视为独立的特征,无论其在句子中的位置或上下文如何。在词袋模型中,每个词被编码成一个向量表示,通常是通过词频、TF-IDF等统计方法得到。
非上下文化表示方法的局限在于无法捕捉词语的语义和上下文信息。由于缺乏上下文的考虑,非上下文化模型可能无法处理词语的多义性、歧义性以及依赖于上下文的含义变化。
非上下文化的浅层嵌入(non-contextualized shallow embeddings)是一种将词语映射到固定维度向量表示的技术,这些向量表示不考虑词语在上下文中的语义信息。这种浅层嵌入方法通常基于统计模型或预定义的规则,将每个词语映射到一个静态的向量表示。
常见的非上下文化浅层嵌入方法包括词袋模型(Bag-of-Words)和TF-IDF(Term Frequency-Inverse Document Frequency)等。在词袋模型中,每个词语被视为独立的特征,词袋模型将文本表示为词语的频率向量,其中每个维度表示一个词语在文本中出现的频率。TF-IDF则是在词袋模型的基础上引入了逆文档频率的权重,用于衡量词语在整个语料库中的重要性。
与这些非上下文化的浅层文本嵌入相比,大型语言模型(LLMs)通过在大规模文本语料库上进行预训练,提供了大量的上下文感知知识和优越的语义理解能力。这种通过预训练获得的知识已经在下游的自然语言处理任务中引起了一系列的革命。例如,ChatGPT和GPT4等模型,拥有数千亿个参数,展现了在各个领域的众多文本相关任务上优越的性能。
考虑到这些LLMs处理和理解文本数据的卓越能力,一个相关的问题出现了:
- 能否利用LLMs的知识来弥补传统GNN流程中上下文化知识和语义理解的不足?除了通过预训练学习到的知识,LLMs在具有隐式图结构的任务上取得了初步的成功,例如推荐、排序和多跳推理,其中LLMs被用于进行最终的预测。
- LLMs是否可以在具有显式图结构的情况下独立执行预测任务,而不仅仅是与GNN集成?
本文旨在通过进行一系列广泛的实证分析,对这两个问题进行初步调查。特别地,关键挑战是如何为图学习任务设计一个与LLMs兼容的流程。
因此,探索了两种潜在的流程来整合LLMs:
(1)LLMs作为增强器:采用LLMs来增强文本信息;随后,GNNs利用改进后的文本数据生成预测。
(2)LLMs作为预测器:LLMs被适应性地用于生成最终的预测结果,其中结构和属性信息完全通过自然语言呈现。
在这项工作中,探索利用LLMs解决与图相关的问题,并旨在加深对LLMs在图机器学习中潜力的理解,重点关注节点分类任务。首先,旨在研究LLMs如何通过利用其丰富的知识和语义理解能力来增强GNNs。显然,不同类型的LLMs具有不同的能力水平,而更强大的模型通常伴随着更多的使用限制。因此,设计针对不同类型模型的不同策略,并在这些使用限制的约束下更好地利用它们的能力。其次,希望探索LLMs如何作为预测器适应显式图结构。一个主要的挑战在于设计一个提示,使LLMs能够有效地利用结构和属性信息。为了应对这一挑战,尝试探索什么样的信息可以帮助LLMs更好地理解和利用图结构。通过这些研究,得出了一些有见地的观察,并对LLMs在图机器学习中的能力有了更好的理解。
贡献
贡献总结如下:
- 探索了两个潜在的流程,将LLMs整合到处理文本属性图中:即LLMs作为增强器和LLMs作为预测器。第一个流程将LLMs作为属性增强器,与GNNs无缝整合。第二个流程直接使用LLMs生成预测结果。
- 对于LLMs作为增强器,我们引入了两种策略,通过LLMs增强文本属性。我们进一步进行了一系列实验,比较了这些增强方法的有效性。
- 对于LLMs作为预测器,我们设计了一系列实验,探索LLMs在利用结构和属性信息方面的能力。通过实证结果,我们总结了一些原始观察结果,并提供了新的见解。
关键见解
通过全面的实证评估,得出了以下关键见解:
- 对于LLMs作为增强器,使用深度句子嵌入模型为节点属性生成嵌入表示既有效又高效。
- 对于LLMs作为增强器,利用LLMs在文本层面增强节点属性也可以改善下游性能。
对于LLMs作为预测器,LLMs展现了初步的有效性,但我们需要注意其不准确的预测和潜在的测试数据泄漏问题。 - LLMs展示了作为节点标签的良好注释者的潜力,因为它们的一部分注释是准确的。
初步知识
在本节中介绍本工作中使用的概念、符号和问题设置。主要研究文本属性图上的节点分类任务,这是图学习领域中最重要的下游任务之一。接下来,首先给出文本属性图的定义。
文本属性图是一种图结构,其中节点具有与之关联的文本属性。每个节点都有一个文本特征,可以是一个文档、一段文字或一个词语。图中的边表示节点之间的关系或连接。
节点分类任务旨在将图中的节点划分到不同的预定义类别中。给定一个包含文本属性的图,我们希望通过学习节点之间的连接和节点的文本特征,能够准确地对未标记节点进行分类。
在节点分类任务中,使用监督学习方法。将一部分节点标记为已知类别,并使用这些标记的节点作为训练集。然后,利用已知节点的标签和它们之间的连接关系来预测未知节点的类别。
文本属性图上的节点分类任务是一个典型的图学习问题,它在社交网络分析、推荐系统和信息检索等领域中具有广泛的应用。通过利用节点之间的连接和节点的文本属性,我们可以更好地理解和分析复杂的关系网络。
定义1(文本属性图(TAG))
TAG G s G_s Gs被定义为一个由节点V和对应的邻接矩阵A ∈ R|V|×|V|组成的结构。对于每个节点 v i v_i vi ∈ V,它与一个文本属性相关联,表示为 s i s_i si。
本研究专注于节点分类,这是最常见的图相关任务之一。
定义2(TAG上的节点分类)
给定一组带有标签的节点L ⊂ V及其标签yL,目标是预测剩余未标记节点U = V \ L的标签yU。
以广为流行的 引文网络数据集OGBN-ARXIV作为一个说明性的例子。在这样的图中,每个节点代表计算机科学子类别中的一篇论文,节点的属性体现了论文的标题和摘要。边表示引用关系。任务是将论文分类到它们对应的类别中,例如"cs.cv"(即计算机视觉)。接下来介绍本研究中采用的模型,包括图神经网络和大型语言模型。
OGBN-ARXIV是一个广泛使用的引文网络数据集,用于研究和评估图学习算法在学术论文分类任务上的性能。该数据集基于计算机科学领域的论文引用关系构建而成。
OGBN-ARXIV数据集包含了来自arXiv预印本数据库的论文,每篇论文都有一个主题标签。数据集中的节点表示论文,节点之间的边表示引用关系,即一篇论文引用了另一篇论文。节点的属性是论文的标题和摘要。
任务是将论文分为多个预定义的学科类别,例如计算机视觉、机器学习、自然语言处理等。这是一个常见的节点分类任务,旨在根据论文的引用关系和文本信息,将未标记的论文正确分类。
OGBN-ARXIV数据集被广泛用于研究图神经网络和其他图学习方法在学术论文分类任务上的性能和效果。它提供了一个标准的基准数据集,使得不同的算法可以进行比较和评估。
图神经网络(Graph Neural Networks,GNNs) 在应用于节点分类的文本属性图(TAGs)时,利用节点之间的结构交互。给定初始节点特征h0_i,GNNs通过消息传递的方式,从相邻节点中聚合信息,更新每个节点的表示。第 l l l层可以表示为:
在这里,AGG通常是聚合函数,例如求和或最大值。UPD和MSG通常是一些可微分函数,例如多层感知机(MLP)。最终的隐藏表示可以通过全连接层传递,用于进行分类预测。
大语言模型
在本工作中,主要使用术语“大型语言模型(LLM)”来表示这些模型。尽管预训练目标的多样性,但这些LLMs的共同目标是利用在预训练阶段获得的知识,并将其重新应用于各种下游任务。
根据它们的接口,具体考虑它们的嵌入是否对用户可见,我们在本工作中将LLMs大致分类如下:
定义3(可见嵌入型LLMs) 可见嵌入型LLMs(Embedding-visible LLMs)提供对它们的嵌入的访问权限,允许用户与和操作底层的语言表示交互。可见嵌入型LLMs使用户能够提取特定单词、句子或文档的嵌入,并使用这些嵌入执行各种自然语言处理任务。可见嵌入型LLMs的示例包括BERT 、Sentence-BERT 和Deberta。
定义4(不可见嵌入型LLMs) 不可见嵌入型LLMs不直接提供对它们的嵌入的访问权限,也不允许用户操作底层的语言表示。相反,它们通常作为网络服务部署,并提供受限的接口。例如,ChatGPT 及其API仅提供基于文本的接口。用户只能通过文本交互与这些LLMs进行交互。
除了接口之外,LLMs的大小、能力和模型结构也是决定如何利用LLMs进行图形处理的关键因素。因此,我们考虑以下四种类型的LLMs:
预训练语言模型(Pre-trained Language Models,PLMs) 使用术语“预训练语言模型”来指代那些相对较小的大型语言模型,如BERT 和Deberta,可以对下游数据集进行微调。值得注意的是,严格来说,所有的LLMs都可以看作是PLMs。在这里采用了像BERT这样的模型的通用术语,以便与其他LLMs区分开来,这是根据一篇最近的论文的常规做法。
深度句子嵌入模型(Deep Sentence Embedding Models) 这些模型通常以PLMs作为基础编码器,并采用双编码器结构。它们进一步以有监督或对比方式对模型进行预训练。在大多数情况下,这些模型不需要针对下游任务进行额外的微调。这些模型可以进一步分为本地句子嵌入模型和在线句子嵌入模型。本地句子嵌入模型是开源的,可以在本地访问,其中Sentence-BERT(SBERT)是一个例子。另一方面,在线句子嵌入模型是闭源的,并部署为服务,其中OpenAI的text-ada-embedding-002是一个例子。
大型语言模型(Large Language Models,LLMs) 与PLMs相比,大型语言模型具有数量级更多的参数,展现出显著增强的能力。LLMs可以分为两种类型。
(1)第一种类型是开源LLMs,可以在本地部署,为用户提供对模型参数和嵌入的透明访问。然而,这些模型的巨大规模带来了挑战,因为对它们进行微调可能非常繁琐。开源LLMs的一个典型例子是LLaMA 。
(2)第二种类型的LLMs通常部署为服务,对用户界面施加了限制。在这种情况下,用户无法直接访问模型参数、嵌入或逻辑。ChatGPT 和GPT4等最强大的LLMs属于这种类型。
在这四种LLMs中,PLMs、深度句子嵌入模型和开源LLMs通常是可见嵌入型LLMs,而闭源LLMs是不可见嵌入型LLMs。