探索LLM在图上学习的潜力10.14 暂停

探索LLM在图上学习的潜力

  • 摘要
  • 介绍
  • 初步知识

摘要

Learning on Graph已经引起了极大的关注,因为它在现实世界中有广泛的应用。在具有文本节点属性的图形上进行学习的最流行的流程主要依赖于图神经网络(GNN),并利用浅层文本嵌入作为初始节点表示,但这在通用知识和深入语义理解方面存在局限性。近年来,大型语言模型(LLM)被证明具有广泛的常识和强大的语义理解能力,已经彻底改变了处理文本数据的现有工作流程。本文旨在探索LLM在图机器学习中的潜力,特别是节点分类任务,并研究两种可能的流程:

  1. LLM作为增强器。利用LLM来增强节点的文本属性,借助其庞大的知识,然后通过GNN生成预测结果。试图直接使用LLM作为独立的预测器。
  2. LLM作为预测器。

并在各种设置下进行了全面而系统的研究。

介绍

图在各个学科和应用中无处不在,涵盖了各种现实世界的场景。其中许多图具有与文本属性相关联的节点,从而产生了具有文本属性的图,例如引用图和产品图。例如,在OGBN-PRODUCTS数据集中,每个节点表示一个产品,其相应的文本描述被视为节点的属性。这些图在各个领域广泛应用,从社交网络分析、信息检索到各种自然语言处理任务。

鉴于 文本属性图(TAGs) 的普遍存在,旨在探索如何有效处理这些图,重点关注节点分类任务。直观地说,TAGs提供了节点属性和图结构信息。因此,在建模它们的相互关系时,有效捕捉两者是很重要的。图神经网络(GNNs)已成为处理图结构数据的事实标准技术,通常利用消息传递范式来有效捕捉图结构。为了编码文本信息,传统的流程通常使用 非上下文化的浅层嵌入 ,例如词袋模型和Word2Vec嵌入,就像在常见的图基准数据集中看到的那样,随后使用GNN来处理这些嵌入。最近的研究表明,这些非上下文化的浅层嵌入存在一些限制,例如无法捕捉多义词和语义信息的不足,这可能导致在下游任务上表现不佳。

文本属性图是一种图结构,其中节点表示文本数据,而边代表节点之间的关系。每个节点都具有与之相关联的文本属性,这些属性可以是节点的文本内容、关键词、标签或其他与文本相关的信息。
例如,有三篇新闻文章:“科学家发现新的行星”,“太阳系中的行星数量增加到9颗”,“最新研究表明冥王星可能是一颗卫星”。我们可以将这三篇文章作为文本属性图的节点,并且每个节点的文本属性是相应文章的内容。然后,我们可以根据文章之间的关系添加边。例如,如果两篇文章共同提到了“行星”,我们可以在它们之间添加一条边表示它们之间的相关性。这就构建了一个文本属性图,其中节点表示新闻文章,边表示它们之间的关系。

“Non-contextualized”(非上下文化)是指在自然语言处理(NLP)中,表示不考虑上下文信息的模型或表示方法。在这种模型中,每个词或短语的表示是固定的,不受其上下文环境的影响。
传统的非上下文化表示方法包括词袋模型(Bag-of-Words),其中每个词都被视为独立的特征,无论其在句子中的位置或上下文如何。在词袋模型中,每个词被编码成一个向量表示,通常是通过词频、TF-IDF等统计方法得到。
非上下文化表示方法的局限在于无法捕捉词语的语义和上下文信息。由于缺乏上下文的考虑,非上下文化模型可能无法处理词语的多义性、歧义性以及依赖于上下文的含义变化。
非上下文化的浅层嵌入(non-contextualized shallow embeddings)是一种将词语映射到固定维度向量表示的技术,这些向量表示不考虑词语在上下文中的语义信息。这种浅层嵌入方法通常基于统计模型或预定义的规则,将每个词语映射到一个静态的向量表示。
常见的非上下文化浅层嵌入方法包括词袋模型(Bag-of-Words)和TF-IDF(Term Frequency-Inverse Document Frequency)等。在词袋模型中,每个词语被视为独立的特征,词袋模型将文本表示为词语的频率向量,其中每个维度表示一个词语在文本中出现的频率。TF-IDF则是在词袋模型的基础上引入了逆文档频率的权重,用于衡量词语在整个语料库中的重要性。

与这些非上下文化的浅层文本嵌入相比,大型语言模型(LLMs)通过在大规模文本语料库上进行预训练,提供了大量的上下文感知知识和优越的语义理解能力。这种通过预训练获得的知识已经在下游的自然语言处理任务中引起了一系列的革命。例如,ChatGPT和GPT4等模型,拥有数千亿个参数,展现了在各个领域的众多文本相关任务上优越的性能。

考虑到这些LLMs处理和理解文本数据的卓越能力,一个相关的问题出现了:

  1. 能否利用LLMs的知识来弥补传统GNN流程中上下文化知识和语义理解的不足?除了通过预训练学习到的知识,LLMs在具有隐式图结构的任务上取得了初步的成功,例如推荐、排序和多跳推理,其中LLMs被用于进行最终的预测。
  2. LLMs是否可以在具有显式图结构的情况下独立执行预测任务,而不仅仅是与GNN集成?

本文旨在通过进行一系列广泛的实证分析,对这两个问题进行初步调查。特别地,关键挑战是如何为图学习任务设计一个与LLMs兼容的流程。
因此,探索了两种潜在的流程来整合LLMs:
(1)LLMs作为增强器:采用LLMs来增强文本信息;随后,GNNs利用改进后的文本数据生成预测。
(2)LLMs作为预测器:LLMs被适应性地用于生成最终的预测结果,其中结构和属性信息完全通过自然语言呈现。

在这项工作中,探索利用LLMs解决与图相关的问题,并旨在加深对LLMs在图机器学习中潜力的理解,重点关注节点分类任务。首先,旨在研究LLMs如何通过利用其丰富的知识和语义理解能力来增强GNNs。显然,不同类型的LLMs具有不同的能力水平,而更强大的模型通常伴随着更多的使用限制。因此,设计针对不同类型模型的不同策略,并在这些使用限制的约束下更好地利用它们的能力。其次,希望探索LLMs如何作为预测器适应显式图结构。一个主要的挑战在于设计一个提示,使LLMs能够有效地利用结构和属性信息。为了应对这一挑战,尝试探索什么样的信息可以帮助LLMs更好地理解和利用图结构。通过这些研究,得出了一些有见地的观察,并对LLMs在图机器学习中的能力有了更好的理解。

贡献
贡献总结如下:

  1. 探索了两个潜在的流程,将LLMs整合到处理文本属性图中:即LLMs作为增强器和LLMs作为预测器。第一个流程将LLMs作为属性增强器,与GNNs无缝整合。第二个流程直接使用LLMs生成预测结果。
  2. 对于LLMs作为增强器,我们引入了两种策略,通过LLMs增强文本属性。我们进一步进行了一系列实验,比较了这些增强方法的有效性。
  3. 对于LLMs作为预测器,我们设计了一系列实验,探索LLMs在利用结构和属性信息方面的能力。通过实证结果,我们总结了一些原始观察结果,并提供了新的见解。

关键见解
通过全面的实证评估,得出了以下关键见解:

  1. 对于LLMs作为增强器,使用深度句子嵌入模型为节点属性生成嵌入表示既有效又高效。
  2. 对于LLMs作为增强器,利用LLMs在文本层面增强节点属性也可以改善下游性能。
    对于LLMs作为预测器,LLMs展现了初步的有效性,但我们需要注意其不准确的预测和潜在的测试数据泄漏问题。
  3. LLMs展示了作为节点标签的良好注释者的潜力,因为它们的一部分注释是准确的。

初步知识

在本节中介绍本工作中使用的概念、符号和问题设置。主要研究文本属性图上的节点分类任务,这是图学习领域中最重要的下游任务之一。接下来,首先给出文本属性图的定义。

文本属性图是一种图结构,其中节点具有与之关联的文本属性。每个节点都有一个文本特征,可以是一个文档、一段文字或一个词语。图中的边表示节点之间的关系或连接。

节点分类任务旨在将图中的节点划分到不同的预定义类别中。给定一个包含文本属性的图,我们希望通过学习节点之间的连接和节点的文本特征,能够准确地对未标记节点进行分类。

在节点分类任务中,使用监督学习方法。将一部分节点标记为已知类别,并使用这些标记的节点作为训练集。然后,利用已知节点的标签和它们之间的连接关系来预测未知节点的类别。

文本属性图上的节点分类任务是一个典型的图学习问题,它在社交网络分析、推荐系统和信息检索等领域中具有广泛的应用。通过利用节点之间的连接和节点的文本属性,我们可以更好地理解和分析复杂的关系网络。

定义1(文本属性图(TAG))
TAG G s G_s Gs被定义为一个由节点V和对应的邻接矩阵A ∈ R|V|×|V|组成的结构。对于每个节点 v i v_i vi ∈ V,它与一个文本属性相关联,表示为 s i s_i si

本研究专注于节点分类,这是最常见的图相关任务之一。

定义2(TAG上的节点分类)
给定一组带有标签的节点L ⊂ V及其标签yL,目标是预测剩余未标记节点U = V \ L的标签yU

以广为流行的 引文网络数据集OGBN-ARXIV作为一个说明性的例子。在这样的图中,每个节点代表计算机科学子类别中的一篇论文,节点的属性体现了论文的标题和摘要。边表示引用关系。任务是将论文分类到它们对应的类别中,例如"cs.cv"(即计算机视觉)。接下来介绍本研究中采用的模型,包括图神经网络和大型语言模型。

OGBN-ARXIV是一个广泛使用的引文网络数据集,用于研究和评估图学习算法在学术论文分类任务上的性能。该数据集基于计算机科学领域的论文引用关系构建而成。
OGBN-ARXIV数据集包含了来自arXiv预印本数据库的论文,每篇论文都有一个主题标签。数据集中的节点表示论文,节点之间的边表示引用关系,即一篇论文引用了另一篇论文。节点的属性是论文的标题和摘要。
任务是将论文分为多个预定义的学科类别,例如计算机视觉、机器学习、自然语言处理等。这是一个常见的节点分类任务,旨在根据论文的引用关系和文本信息,将未标记的论文正确分类。
OGBN-ARXIV数据集被广泛用于研究图神经网络和其他图学习方法在学术论文分类任务上的性能和效果。它提供了一个标准的基准数据集,使得不同的算法可以进行比较和评估。

图神经网络(Graph Neural Networks,GNNs) 在应用于节点分类的文本属性图(TAGs)时,利用节点之间的结构交互。给定初始节点特征h0_i,GNNs通过消息传递的方式,从相邻节点中聚合信息,更新每个节点的表示。第 l l l层可以表示为:
在这里插入图片描述
在这里,AGG通常是聚合函数,例如求和或最大值。UPD和MSG通常是一些可微分函数,例如多层感知机(MLP)。最终的隐藏表示可以通过全连接层传递,用于进行分类预测。

大语言模型
在本工作中,主要使用术语“大型语言模型(LLM)”来表示这些模型。尽管预训练目标的多样性,但这些LLMs的共同目标是利用在预训练阶段获得的知识,并将其重新应用于各种下游任务。

根据它们的接口,具体考虑它们的嵌入是否对用户可见,我们在本工作中将LLMs大致分类如下:

定义3(可见嵌入型LLMs) 可见嵌入型LLMs(Embedding-visible LLMs)提供对它们的嵌入的访问权限,允许用户与和操作底层的语言表示交互。可见嵌入型LLMs使用户能够提取特定单词、句子或文档的嵌入,并使用这些嵌入执行各种自然语言处理任务。可见嵌入型LLMs的示例包括BERT 、Sentence-BERT 和Deberta。

定义4(不可见嵌入型LLMs) 不可见嵌入型LLMs不直接提供对它们的嵌入的访问权限,也不允许用户操作底层的语言表示。相反,它们通常作为网络服务部署,并提供受限的接口。例如,ChatGPT 及其API仅提供基于文本的接口。用户只能通过文本交互与这些LLMs进行交互。

除了接口之外,LLMs的大小、能力和模型结构也是决定如何利用LLMs进行图形处理的关键因素。因此,我们考虑以下四种类型的LLMs:

预训练语言模型(Pre-trained Language Models,PLMs) 使用术语“预训练语言模型”来指代那些相对较小的大型语言模型,如BERT 和Deberta,可以对下游数据集进行微调。值得注意的是,严格来说,所有的LLMs都可以看作是PLMs。在这里采用了像BERT这样的模型的通用术语,以便与其他LLMs区分开来,这是根据一篇最近的论文的常规做法。

深度句子嵌入模型(Deep Sentence Embedding Models) 这些模型通常以PLMs作为基础编码器,并采用双编码器结构。它们进一步以有监督或对比方式对模型进行预训练。在大多数情况下,这些模型不需要针对下游任务进行额外的微调。这些模型可以进一步分为本地句子嵌入模型和在线句子嵌入模型。本地句子嵌入模型是开源的,可以在本地访问,其中Sentence-BERT(SBERT)是一个例子。另一方面,在线句子嵌入模型是闭源的,并部署为服务,其中OpenAI的text-ada-embedding-002是一个例子。

大型语言模型(Large Language Models,LLMs) 与PLMs相比,大型语言模型具有数量级更多的参数,展现出显著增强的能力。LLMs可以分为两种类型。
(1)第一种类型是开源LLMs,可以在本地部署,为用户提供对模型参数和嵌入的透明访问。然而,这些模型的巨大规模带来了挑战,因为对它们进行微调可能非常繁琐。开源LLMs的一个典型例子是LLaMA 。
(2)第二种类型的LLMs通常部署为服务,对用户界面施加了限制。在这种情况下,用户无法直接访问模型参数、嵌入或逻辑。ChatGPT 和GPT4等最强大的LLMs属于这种类型。

在这四种LLMs中,PLMs、深度句子嵌入模型和开源LLMs通常是可见嵌入型LLMs,而闭源LLMs是不可见嵌入型LLMs。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/114261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Maven系列第8篇:大型Maven项目,快速按需任意构建

本篇涉及到的内容属于神技能,多数使用maven的人都经常想要的一种功能,但是大多数人都不知道如何使用,废话不多说,上干货。 需求背景 我们需要做一个电商项目,一般都会做成微服务的形式,按业务进行划分&am…

【LeetCode 算法专题突破】滑动窗口(⭐)

文章目录 前言1. 长度最小的子数组题目描述代码 2. 无重复字符的最长子串题目描述代码 3. 最大连续1的个数 III题目描述代码 4. 将 x 减到 0 的最小操作数题目描述代码 5. 水果成篮题目描述代码 6. 找到字符串中所有字母异位词题目描述代码 7. 串联所有单词的子串题目描述代码 …

关于我对 jeecg-boot 的项目理解、使用心得和改进建议

一句话总结: JeecgBoot帮助我提升了后端技术水平,入门了前端,让我在公司内部慢慢能够成长为全栈开发。 一、项目理解 JeecgBoot 项目的核心理念是快速开发、低代码、易扩展。它采用了前后端分离的架构,后端使用Spring Boot Myba…

用节点亲和性把 Pod 分配到节点

用节点亲和性把 Pod 分配到节点 当前集群信息: rootk8s-master:~# kubectl get node -o wide NAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS-IMAGE KERNEL-VERSION CONTAINER-RUNTIME k8s…

微信小程序OA会议系统数据交互

前言 经过我们所写的上一文章:微信小程序会议OA系统其他页面-CSDN博客 在我们的是基础面板上面,可以看到出来我们的数据是死数据,今天我们就完善我们的是数据 后台 在我们去完成项目之前我们要把我们的项目后台准备好资源我放在我资源中&…

学习笔记---0基础+干货满满的单链表专题~~

目录​​​​​​​ 1. 链表的概念及结构👑 1.1 什么是链表?👀 1.2 为什么需要链表?⁉️ 1.3 链表的结构是怎么样的?❓ 2. 链表的分类🦜 3. 实现单链表🫵 3.1 要实现的目标🎯…

JS加密/解密之闭包的运用

深入探讨JavaScript闭包的演变与应用 摘要: 本文将深入探讨JavaScript闭包的概念、特性以及其在实际开发中的应用。我们将从闭包的起源开始,探讨它在JavaScript编程中的重要性,并通过实例展示闭包在不同场景下的灵活应用。 引言 JavaScrip…

第一个Vue程序

首先下载vue.min.js或者vue.js Installation — Vue.js 在web文件下创建js文件并把vue.js复制到此文件。 创建一个jsp文件 显示界面

自然语言处理---Transformer机制详解之GPT模型介绍

1 GPT介绍 GPT是OpenAI公司提出的一种语言预训练模型.OpenAI在论文<< Improving Language Understanding by Generative Pre-Training >>中提出GPT模型.OpenAI后续又在论文<< Language Models are Unsupervised Multitask Learners >>中提出GPT2模型.…

如何使用visual studio 2010构建SQLite3.lib文件

sqlite3官网只提供了dll&#xff0c;并没有lib文件。需要自己生成sqlite3.lib。因项目升级到x64&#xff0c;以前并没有生成64位的链接库&#xff0c;需要自己创建。本人电脑操作系统windows 10, 开发环境为visual studio 2010。下面是详细生成过程。 1. 从源下载源&#xff08…

Spring中静态代理设计模式

目录 一、为什么需要代理设计模式 二、代理设计模式 三、静态代理设计模式 3.1 存在的问题 一、为什么需要代理设计模式 在项目的开发过程中我们知道service层是整个项目中最重要的部分&#xff0c;在service中一般会有两个部分&#xff0c;一个是核心业务&#xff0c;一个是额…

力扣每日一题54:螺旋矩阵

题目描述&#xff1a; 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5]示例 2&#xff1a; 输入&#…

mk语法示例

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

『ARM』和『x86』处理器架构解析指南

前言 如果问大家是否知道 CPU&#xff0c;我相信不会得到否定的答案&#xff0c;但是如果继续问大家是否了解 ARM 和 X86 架构&#xff0c;他们的区别又是什么&#xff0c;相信可能部分人就会哑口无言了 目前随着深度学习、高性能计算、NLP、AIGC、GLM、AGI 的技术迭代&#…

自然语言处理---RNN、LSTM、GRU模型

RNN模型 RNN模型概述 RNN(Recurrent Neural Network)&#xff0c;中文称作循环神经网络&#xff0c;它一般以序列数据为输入&#xff0c;通过网络内部的结构设计有效捕捉序列之间的关系特征&#xff0c;一般也是以序列形式进行输出。RNN的循环机制使模型隐层上一时间步产生的…

MSP430F5529时钟系统配置

1、为什么要进行时钟管理&#xff1f;   时钟系统是一个数字器件的命脉&#xff0c;对于普通的51单片机来说&#xff0c;它的时钟来源只有外部晶振&#xff0c;然后每12个振荡周期完成一个基本操作&#xff0c;所以也叫做12T单片机&#xff0c;但对于当前高级一点的单片机来…

Spring5学习笔记—高级注解

✅作者简介&#xff1a;大家好&#xff0c;我是Leo&#xff0c;热爱Java后端开发者&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;Leo的博客 &#x1f49e;当前专栏&#xff1a; Spring专栏 ✨特色专栏&#xff1a; M…

Python 创建或读取 Excel 文件

Excel是一种常用的电子表格软件&#xff0c;广泛应用于金融、商业和教育等领域。它提供了强大的数据处理和分析功能&#xff0c;可进行各种计算和公式运算&#xff0c;并能创建各种类型的图表和可视化数据。Excel的灵活性使其成为处理和管理数据的重要工具。本文将介绍如何使用…

【微信小程序】6天精准入门(第5天:利用案例与后台的数据交互)附源码

一、什么是后台交互&#xff1f; 在小程序中&#xff0c;与后台交互指的是小程序前端与后台服务器之间的数据通信和请求处理过程。通过与后台交互&#xff0c;小程序能够获取服务器端的数据、上传用户数据、发送请求等。 小程序与后台交互可以实现数据的传输、用户认证、实时消…

什么是Sectigo证书?

Sectigo证书&#xff0c;早前被称为Comodo证书&#xff0c;是一种SSL&#xff08;安全套接层&#xff09;证书&#xff0c;用于保护互联网上的数据传输的安全性和隐私性。这些证书由全球领先的SSL证书颁发机构Sectigo颁发&#xff0c;被广泛用于网站、应用程序和服务器上。本文…