港大新工作 HiGPT:一个模型,任意关系类型 !

请添加图片描述
论文标题: HiGPT: Heterogeneous Graph Language Model

论文链接: https://arxiv.org/abs/2402.16024

代码链接: https://github.com/HKUDS/HiGPT

项目网站: https://higpt-hku.github.io/

1. 导读

异质图在各种领域,如推荐系统、知识图谱、社交网络分析和生物网络等获得了广泛的关注和应用。这些图包含了各种类型的实体和多种复杂关系,使得它们能够充分表示复杂系统。异质图学习的重点就是为这些图中的节点和边衍生出有意义的表征。这些表征旨在捕捉图内复杂的关系语义,以便更深入地理解底层的结构异质性。

近年来,人们越来越认识到异质图神经网络(HGNNs)在捕捉异质图结构中复杂和多样的信息方面的巨大潜力。HGNNs利用高阶消息传递技术的表达能力,使它们能够有效地建模图中存在的复杂关系、多样实体类型和异质语义。通过在各种节点和边类型上聚合和传播信息,HGNNs促进了对异质图结构内复杂关系的更深入理解和分析。

尽管当前用于异质图学习的框架已经显示出了有效性,但是在泛化于各种异质图数据集方面存在一定的限制。这些框架通常采用"预训练"和"微调"的范式,首先在特定数据集上进行训练,然后在同一数据集上进行微调。然而,这种方法无法泛化到新的、未见过的数据上。这些框架过度依赖原始训练数据集的结点和关系类别,限制了它们有效处理不同异质图数据集中结点和关系类别不同的能力。

因此,本研究旨在通过解决一个基本问题来扩大异质图模型的界限:"我们能否开发出有高度适应性的通用的异质图模型,即使面对节点类型和关系类型分布偏移时,也能有效地处理各种下游学习任务?“即"一个模型,建模任意关系类型”。为了应对这一挑战,本文将介绍香港大学数据智能实验室(https://sites.google.com/view/chaoh/group-join-us)提出的最新图结构大语言模型(HiGPT),专门设计用于克服与泛化各种下游异质图学习任务相关的关键挑战。期待HiGPT能够吸引更多的开源社区开发者参与讨论和实践,进一步推动图结构与语言模型的有效结合。

2.概述

总得来说,我们将实现"一个模型,建模任意关系类型"的挑战归纳为以下三点,并给出了对应解决方案:

C1. 关系类型异质性偏移。本研究中我们关注的一个主要挑战是各种异质图结构中关系类型异质性的偏移。在这些图中,实体由各种类型的关系连接,而这些关系类型可能在各种数据集中有很大的差异。为了说明这一点,让我们考虑两个例子。在推荐系统中,异质图可能涉及user和item之间的节点关系。这种情况下的关系类型可能包括"点击"、“收藏”、“评论"和"购买”。另一方面,在学术图中,关系可能涉及"论文-论文"、“作者-论文"和"论文-会议”。这些例子说明了不同的异质图可能在不同领域中展示出具有不同语义的各种关系异质性。

S1. 上下文异质图Tokenizer。为了在具有不同节点和边类型的各种异质图场景中实现泛化性,我们引入了上下文异质图Tokenizer。这个Tokenizer捕捉到了不同异质图中存在的各种语义关系,提供了一个统一的建模方法。它包括两个重要组件:1)上下文参数化异质性投影器:利用语言对不同的节点和边类型进行编码;2)参数分配器:动态地为Tokenizer分配定制的参数。为了优化性能并将Tokenizer无缝集成到HiGPT框架中,我们采用了轻量级的文本-图对比对齐范式来预训练。这个预训练过程直接将Tokenizer集成到HiGPT中,提高了其语义建模能力,并确保其在整个模型架构中运行平稳。

C2. 复杂异质图结构。本研究的重点是解决将大语言模型(LLMs)集成到异质图学习中的挑战,以提高模型的泛化能力。我们的具体目标是开发一种面向图的语言模型,使得该模型在理解复杂异质图结构中所固有的复杂结构信息方面表现出色。通过这样做,我们希望使图模型不仅能够识别不同类型节点之间关系的异质性,还能够捕捉属于同一类型的实体的特征。

S2. 异质图指令微调。我们引入了一种新颖的异质图指令微调框架,该框架集成了跨类型和同类型token匹配任务来微调大语言模型(LLMs)。我们的框架专门针对提高LLMs对异质关系感知和同质关系感知的理解。通过这些任务,我们的目标是增强LLMs在以下方面的能力:(i)区分不同类型的图token,(ii)理解异质图内复杂的关系,(iii)保留同构图内实体的特定属性,以及(iv)在训练过程中有效利用各种图指令。

C3. 模型微调的数据稀缺。涉及异质图学习的实际场景中,其中一个关键挑战是数据的有限可用性。数据稀缺问题在微调模型时带来了重大障碍。例如,当使用异质图来建模推荐系统中的冷启动user/item时,用户交互数据的稀疏性限制了有监督信号的可用性。这种数据稀缺影响了下游任务模型微调的有效性,并需要开发新技术来应对这一挑战。

S3. Mixture-of-Thought指令增强。我们的方法引入了一种用于增强图指令的新机制Mixture-of-Thought(MoT),即混合各种提示技术结合使用。这种集成使我们能够生成一组多样化和全面的信息丰富的下游任务指令。通过无缝地将这些增强的图指令集成到我们的框架中,将有效地解决数据稀疏性的挑战。

3. 方法

这一部分,将阐述HiGPT图指令微调范式的技术细节,其整体框架如图1所示:

请添加图片描述

3.1 上下文异质图Tokenizer

为了使我们的HiGPT能够适应各种具有不同节点和边类型的异质图场景,我们提出了一种上下文异质图tokenizer。这种方法捕捉到了不同异质图中存在的各种语义关系,达到了统一建模的目的。它包括两个重要组件:上下文参数化异质性投影器和参数分配器。上下文自适应投影器利用语言对异质图中的不同节点和边类型进行编码,以实现模型的泛化性。同时,参数分配器动态地为tokenizer分配专门定制的参数。为了优化tokenizer的性能并将其无缝集成到HiGPT框架中,我们使用了一个简化的文本-图对比学习框架进行预训练。这个预训练过程直接将tokenizer集成到HiGPT框架中,并有效地将其与大语言模型(LLM)集成。这种方法提高了tokenizer的能力,并确保了其在整个模型架构中的平稳运行。

3.1.1 带有元投影器的图Tokenization

给定一个具有特征矩阵 X = { X T i ∈ R ∣ V T i ∣ × d T i , T i ∈ T } \mathbf{X} = \{X_{T_i} \in \mathbb{R}^{|\mathcal{V}_{T_i}|\times d_{T_i}}, T_i \in \mathcal{T}\} X={XTiRVTi×dTi,TiT} 和邻接矩阵 A \mathbf{A} A的异质图 G \mathcal{G} G,异质图tokenizer的目标是对异质图的隐式表示进行编码,表示为 H = { H T i ∈ R ∣ V T i ∣ × f T i , T i ∈ T } \mathbf{H} = \{H_{T_i} \in \mathbb{R}^{|\mathcal{V}_{T_i}|\times f_{T_i}}, T_i \in \mathcal{T}\} H={HTiRVTi×fTi,TiT}。这通过函数 H = HG-Tokenizer ( X , A ) \mathbf{H} = \text{HG-Tokenizer}(\mathbf{X}, \mathbf{A}) H=HG-Tokenizer(X,A)实现,其中 f T i f_{T_i} fTi表示节点类型 T i T_i Ti的隐式维度。 HG-Tokenizer ( ⋅ ) \text{HG-Tokenizer}(\cdot) HG-Tokenizer()可以使用各种基础HGNN架构来实现,例如HetGNN、HAN或HGT。

然而,这些异质GNN的泛化能力受到其固有设计的限制,这包括针对特定异质图进行的预定义参数学习。因此,训练好的异质GNN不能直接应用于其他未见过的异质图,这与使用HG-Tokenizer实现统一编码的目标相悖。例如,让我们考虑HGT。在HGT中,计算 h v ( l ) h_{v}^{(l)} hv(l)涉及使用函数如 A t t e n t i o n ( ⋅ ) \mathbf{Attention}(\cdot) Attention() M e s s a g e ( ⋅ ) \mathbf{Message}(\cdot) Message()来处理来自源节点的信息:
h ~ v ( l ) = ⊕ ∀ u ∈ N ( v ) ( A t t e n t i o n ( u , e , v ) ⋅ M e s s a g e ( u , e , v ) ) \widetilde{h}_{v}^{(l)} = \underset{\forall u \in \mathcal{N}(v)}{\oplus} \left(\mathbf{Attention}\left(u,e,v\right) \cdot \mathbf{Message}\left(u,e,v\right)\right) \nonumber h v(l)=uN(v)(Attention(u,e,v)Message(u,e,v))

h v ( l ) = F Θ 1 τ ( v ) ( σ ( h ~ v ( l ) ) ) + h v ( l − 1 ) = W 1 τ ( v ) ⋅ ( σ ( h ~ v ( l ) ) ) + b 1 τ ( v ) + h v ( l − 1 ) h_{v}^{(l)} = \mathcal{F}_{\Theta_1}^{\tau(v)} \left(\sigma\left(\widetilde{h}_{v}^{(l)}\right)\right) + h_{v}^{(l - 1)} = \mathbf{W}^{\tau(v)}_1\cdot \left(\sigma\left(\widetilde{h}_{v}^{(l)}\right)\right) + \mathbf{b}^{\tau(v)}_1 + h_{v}^{(l - 1)} hv(l)=FΘ1τ(v)(σ(h v(l)))+hv(l1)=W1τ(v)(σ(h v(l)))+b1τ(v)+hv(l1)

F Θ 1 τ ( v ) ( ⋅ ) \mathcal{F}_{\Theta_1}^{\tau(v)}\left(\cdot\right) FΘ1τ(v)()表示一个全连接层,其参数为 Θ 1 = { W τ ( v ) , b τ ( v ) } \Theta_1 = \{\mathbf{W}^{\tau(v)}, \mathbf{b}^{\tau(v)}\} Θ1={Wτ(v),bτ(v)}。其中, τ ( v ) \tau(v) τ(v)表示节点 v v v的类型, σ ( ⋅ ) \sigma(\cdot) σ()表示激活函数。具有 h h h个heads的 A t t e n t i o n ( ⋅ ) \mathbf{Attention}(\cdot) Attention() M e s s a g e ( ⋅ ) \mathbf{Message}(\cdot) Message()函数的具体形式:
A t t e n t i o n ( u , e , v ) = Softmax ∀ u ∈ N ( v ) ( ∥ i ∈ [ 1 , h ] F Θ 2 τ ( u ) ( h u ( l − 1 ) ) W 1 ρ ( e ) F Θ 3 τ ( v ) ( h v ( l − 1 ) ) ) \mathbf{Attention}\left(u,e,v\right) = \underset{\forall u \in \mathcal{N}(v)}{\text{Softmax}}\left(\underset{i\in [1, h]}{\parallel} \mathcal{F}_{\Theta_2}^{\tau(u)}\left(h_{u}^{(l - 1)}\right)\mathbf{W}^{\rho(e)}_1 \mathcal{F}_{\Theta_3}^{\tau(v)}\left(h_{v}^{(l - 1)}\right)\right) \nonumber Attention(u,e,v)=uN(v)Softmax(i[1,h]FΘ2τ(u)(hu(l1))W1ρ(e)FΘ3τ(v)(hv(l1)))

M e s s a g e ( u , e , v ) = ∥ i ∈ [ 1 , h ] F Θ 4 τ ( u ) ( h u ( l − 1 ) ) W 2 ρ ( e ) \mathbf{Message}\left(u,e,v\right) = \underset{i\in [1, h]}{\parallel} \mathcal{F}_{\Theta_4}^{\tau(u)}\left(h_{u}^{(l - 1)}\right)\mathbf{W}^{\rho(e)}_2 Message(u,e,v)=i[1,h]FΘ4τ(u)(hu(l1))W2ρ(e)

自适应参数的异质性投影器: 为了使我们的HiGPT能够适应各种具有不同图异质性设置的异质图,并消除提前预定义类型特定投影数量的要求,我们提出了一种类型感知参数化投影器的设计。这个投影器能够动态地将关系异质性编码到隐式表征中。更具体地说,根据以下过程自动生成类型感知投影器的参数 F Θ _ i τ ( v ) \mathcal{F}_{\Theta\_i}^{\tau(v)} FΘ_iτ(v) W i ρ ( e ) \mathbf{W}^{\rho(e)}_i Wiρ(e)
Θ i = { W i τ ( v ) ; b i τ ( v ) } = F Ω ( T τ ( v ) ) ; W i ρ ( e ) = F Ω ( T ρ ( e ) ) \Theta_i = \{\mathbf{W}^{\tau(v)}_i;\mathbf{b}^{\tau(v)}_i \}= \mathcal{F}_{\Omega}\left(\mathbf{T}^{\tau(v)}\right);\mathbf{W}^{\rho(e)}_i = \mathcal{F}_{\Omega}\left(\mathbf{T}^{\rho(e)}\right) Θi={Wiτ(v);biτ(v)}=FΩ(Tτ(v));Wiρ(e)=FΩ(Tρ(e))
F Ω \mathcal{F}_{\Omega} FΩ是一个带有参数 Ω \Omega Ω的全连接层,而 T τ ( v ) \mathbf{T}^{\tau(v)} Tτ(v) T ρ ( e ) \mathbf{T}^{\rho(e)} Tρ(e)分别是与节点类型 τ ( v ) \tau(v) τ(v)和边类型 ρ ( e ) \rho(e) ρ(e)相关联的特征。值得注意的是,提供的示例展示了在HGT框架中使用上下文参数化异质性投影器的用法,其允许集成到各种其他异质GNNs。

**语言富化的异质性表示:**我们利用自然语言来生成基于其各自类型的节点和边的通用异质性表示。例如,在异质IMDB数据集中,我们可以使用自然语言将"movie"节点描述为"This node represents a movie"。同样,边(“movie”, “to”, “director”)可以表述为"The movie is directed by the director"。为了对这些节点和边的自然语言描述进行编码,我们使用预训练的语言模型,如Sentence-BERT,来获得类型表示。为了确保不同类型之间的可区分性和多样性,我们使用多种语言来描述相同的类型。从预训练的语言模型中编码的表示被平均以获得最终的表示。这个过程可以定义如下:
T τ ( v ) = Mean-Pooling ( Sentence-BERT ( S τ ( v ) ) ) , T ρ ( e ) = Mean-Pooling ( Sentence-BERT ( S ρ ( e ) ) ) \mathbf{T}^{\tau(v)} = \text{Mean-Pooling}\left(\text{Sentence-BERT}\left( \mathbf{S}^{\tau(v)}\right)\right), \mathbf{T}^{\rho(e)} = \text{Mean-Pooling}\left(\text{Sentence-BERT}\left( \mathbf{S}^{\rho(e)}\right)\right) Tτ(v)=Mean-Pooling(Sentence-BERT(Sτ(v))),Tρ(e)=Mean-Pooling(Sentence-BERT(Sρ(e)))
S τ ( v ) \mathbf{S}^{\tau(v)} Sτ(v) S ρ ( e ) \mathbf{S}^{\rho(e)} Sρ(e)分别表示节点类型 τ ( v ) \tau(v) τ(v)和边类型 ρ ( e ) \rho(e) ρ(e)的描述集。例如,考虑边(“movie”, “to”, “director”)的例子。一个可能的描述是:
S ( "movie" , "to" , "director" ) = { "The movie is directed by the director" , "The film features direction by the director" , ⋯ } \mathbf{S}^{(\texttt{"movie"}, \texttt{"to"}, \texttt{"director"})} = \\ \{ \texttt{"The movie is directed by the director"}, \texttt{"The film features direction by the director"}, \cdots\} S("movie","to","director")={"The movie is directed by the director","The film features direction by the director",}

3.1.2 轻量化图-文对比对齐

基于最近在跨模态语义对齐方面的进展,我们借鉴了采用文本-图对比对齐范式来预训练所提出的异质图tokenizer。这种方法旨在对齐语言和异质结构的建模能力,使tokenizer和语言模型之间更好地协作。首先,我们考虑用 C = { c i ∈ R l i × d , 1 ≤ i ≤ N } \mathbf{C} = \{ c_i \in \mathbb{R}^{l_i\times d}, 1\leq i\leq N\} C={ciRli×d,1iN}表示的原始文本内容,其中 N N N表示异质图节点 X = { X T i ∈ R ∣ V T i ∣ × d T i } \mathbf{X} = \{X_{T_i} \in \mathbb{R}^{|\mathcal{V}_{T_i}|\times d_{T_i}}\} X={XTiRVTi×dTi}的总数。这里, l i l_i li表示与第 i i i个节点相关联的文本内容的长度。在我们的方法中,我们采用了一个轻量级的文本-图对比对齐范式,如下所示:
H ^ = norm ( HG-Tokenizer ( X ) ) , T ^ = norm ( LM-Tokenizer ( C ) ) \hat{\mathbf{H}} = \text{norm}\left(\text{HG-Tokenizer}\left(\mathbf{X}\right)\right), \hat{\mathbf{T}} = \text{norm}\left(\text{LM-Tokenizer}\left(\mathbf{C}\right)\right) \nonumber H^=norm(HG-Tokenizer(X)),T^=norm(LM-Tokenizer(C))

L = 1 2 ( CE ( Λ , y ) + CE ( Λ ⊤ , y ) ) , Λ = ( H ^ T ^ ⊤ ) ⋅ exp ⁡ ( τ ) \mathcal{L} = \frac{1}{2}\left(\text{CE}(\Lambda, \mathbf{y}) + \text{CE}(\Lambda^{\top}, \mathbf{y})\right), \Lambda = (\hat{\mathbf{H}} \hat{\mathbf{T}}^{\top}) \cdot \exp (\tau) L=21(CE(Λ,y)+CE(Λ,y)),Λ=(H^T^)exp(τ)

我们使用对比标签 y = ( 0 , 1 , ⋯ , n − 1 ) ⊤ \mathbf{y} = (0, 1, \cdots, n-1)^{\top} y=(0,1,,n1)和交叉熵函数 CE ( ⋅ ) \text{CE}(\cdot) CE()。我们的实现使用多层普通Transformer来进行 LM-Tokenizer ( ⋅ ) \text{LM-Tokenizer}(\cdot) LM-Tokenizer()

3.2 异质图指令微调

HiGPT的目标是使语言模型能够直接为具有未见过的异质图和相应指令的下游任务生成预测。首先,使用tokenizer对自然语言指令进行编码,得到文本嵌入,表示为 X I = LM-tokenizer ( instruction ) \mathbf{X}_{\mathcal{I}} = \text{LM-tokenizer}(\texttt{instruction}) XI=LM-tokenizer(instruction)。为了对齐维度,我们使用一个投影器将图tokens映射到与文本嵌入相同的维度,表示为 X G = f P ( H ) \mathbf{X}_{\mathcal{G}} = f_{\mathbf{P}}(\mathbf{H}) XG=fP(H),这可以是一个简单的线性层。对于长度为 L L L的序列,我们确定生成目标输出 X O \mathbf{X}_{\mathcal{O}} XO的概率:
p ( X O ∣ X G , X I ) = ∏ i = 1 L p Φ ( x i ∣ X G , X I , < i , X O , < i ) p(\mathbf{X}_{\mathcal{O}}|\mathbf{X}_{\mathcal{G}}, \mathbf{X}_{\mathcal{I}}) = \prod_{i=1}^{L}p_{\Phi}(x_i|\mathbf{X}_{\mathcal{G}}, \mathbf{X}_{\mathcal{I}, <i} , \mathbf{X}_{\mathcal{O}, <i}) p(XOXG,XI)=i=1LpΦ(xiXG,XI,<i,XO,<i)
其中 Φ \Phi Φ表示HiGPT中的可学习参数。

3.2.1 基于异质图“语料库”的指令微调

为了使语言模型(LLM)能够根据自然语言指令有效地区分不同类型的输入异质图tokens和每种类型中的特定节点,我们提出使用包含大量异质图-指令对的"语料库"进行指令预训练。这种方法使得微调后的HiGPT在同质和异质图结构方面都有全面的理解。

  • 异质关系感知: 我们的目标是增强语言模型在异质上下文中区分特定类型节点方面的能力,同时考虑复杂的关系。这通过利用图tokens中编码的信息来实现。

  • 同构关系感知: 我们的目标是使模型具有在图tokens序列与其对应的自然语言描述之间建立显著的对应关系的能力,这些图tokens序列属于同一类别。

异质图指令: 在我们的图指令中,我们通过随机邻居采样生成一个异质子图,并配有一个由人类生成的问题。为了增强异质图语料库的多样性,我们对不同类型的节点进行多次采样。此外,我们在人类问题中引入<graph> token作为图示意符。i)实现异质关系感知,我们引入了跨类型token匹配任务。这个任务涉及向语言模型(LLM)提供不同类型的图tokens编码序列,使其能够区分各种类型。ii)实现同构关系感知,我们设计了同类型匹配任务,其中LLM接收特定类型的图tokens编码序列,使其能够与相关描述建立对应关系。有关此阶段指令模板的更多详细信息,如表1所示。

请添加图片描述

3.2.2 异质感知微调

为了定制语言模型在异质图特定下游任务的推理能力,我们提出了异质感知微调。这种方法涉及在初始的异质图语料库指令预训练阶段之后,使用特定下游任务的指令进行监督学习。它使我们能够完善LLM的性能,并使其适应异质图上目标任务的特定要求。

在这个阶段,我们结合了一个以目标节点为中心随机采样的异质子图,以及一个由人类生成的问题。考虑到指令预训练阶段已经使模型具有异质和同构关系感知能力,我们设计了富有异质性的人类问题。这些问题包含不同类型的图tokens序列,由多个<graph>tokens表示。此外,人类问题包括与目标节点相关的辅助信息。这些指令的设计如表1所示。

3.3 Mixture-of-Thought (MoT) 图指令微调

在异质图学习的实际应用中,数据稀少通常是一个挑战。尤其是在使用异质图对推荐系统中的冷启动user/item进行建模时,稀疏的用户交互数据限制了可用的有监督信号。为了解决数据稀少的问题,我们提出通过将增强的图指令合并到我们的HiGPT中来增强我们的模型。在异质图指令微调的背景下,我们引入了一种用于指令增强的新方法。这种方法利用提示工程技巧,特别是Mixture-of-Thought(MoT),来生成多样化和信息丰富的指令,以有效地克服数据稀少带来的挑战。通过将增强的图指令合并到我们的模型中,我们期望我们的模型能够有效地解决数据稀少问题。

3.3.1 Mixture-of-Thought (MoT) 提示

我们的重点是设计和优化提示,以有效利用语言模型。我们采用了几种技巧来增强语言模型:i)Chain-of-Thought(CoT):CoT 提示引入中间步骤,使复杂的推理和高级能力成为可能。ii)Tree-of-Thought(ToT):ToT 保持一棵由一致的语言序列组成的树状结构,称为Thought。这些Thought作为系统的中间步骤用于问题解决。iii)PanelGPT:PanelGPT 在语言模型之间引入了讨论板块,通过协作来增强提示工程过程。iv)Generated Knowledge Prompting(GKP):GKP 涉及将额外的知识合并到提示中以进行增强。通过利用这些技巧,我们的目标是增强异质图指令,尤其是在数据有限可用性的场景中。

3.3.2 带有先验知识的指令增强

我们使用七种指令增强策略,每种策略为每个问题-答案对生成七个增强的指令,有机结合了以上Mixture-of-Thought(MoT)的特征。然而,闭源语言模型(如 ChatGPT)可能会产生错误的答案,从而导致错误的指导。为了解决这个问题,我们提出将先验知识,即正确的答案合并到提示中。它使LLM能够模拟生成正确的答案,并使用不同的MoT方法产生中间的推理步骤,如图2所示。最终经过MoT增强的指令和原始指令一起用于指令微调,实现了在不增加监督信号的条件下增加指令集数量。

请添加图片描述

4. 实验

4.1 总体性能对比

Obs.1 在few-shot设置下的优越性: HiGPT在监督学习设置下始终优于最新的基线方法,即使每个类别只有一个样本。这种成功可以归功于我们在大规模异质图语料库上的有效指令微调。这使得LLM能够从图tokens中提取有价值且可传递的异质结构信息,从而在下游任务中取得了显著的性能提升。此外,我们提出的MoT图指令增强方法使LLM具有各种混合推理能力,而无需额外的监督信号。因此,它在少样本场景中有效减轻了数据稀少问题带来的影响。

Obs.2 在zero-shot设置下的优越性: 在零样本设置下,我们的HiGPT显著优于基线方法。不像传统模型受到训练图类型的限制,我们的方法利用了一个上下文异质图tokenizer。这个tokenizer根据输入图进行适配tokenization,使LLM能够无缝地结合捕捉高阶结构特征的图tokens。因此,我们的模型有效地克服了图异质性偏移的限制,即使在跨域场景下也表现出色,展示了我们HiGPT的显著泛化性。

Obs.3 Mixture-of-Thought增强的有效性: 通过采用Mixture-of-Thought(MoT)方法,我们的模型利用了强大的LLM(即GPT-3.5)的各种推理能力,并无缝地将它们集成到规模更小的语言模型中。这种集成有助于增强我们模型在数据稀少情况下的推理能力,并提高其在有限监督信号情况下的性能。MoT技巧在生成动态和多样的指令方面发挥着关键作用,从而弥补了数据的不足,使我们的模型能够在监督和零样本设置下做出显著准确的预测。

请添加图片描述

4.3 消融实验

请添加图片描述

异质图指令微调的影响。为了验证在大规模异质图语料库上的指令微调阶段的有效性,我们生成了"w/o S1"变体,即仅在下游任务数据上微调指令。通过使用不同的epoch设置(15、50 和 100)进行实验,我们观察到,仅在下游任务数据上微调的模型在所有情况下都无法提供完整和准确的答案。然而,我们的HiGPT在所有设置中仅在15个epoch内就取得了最新的成果。这种成功可以归功于我们的HiGPT从广泛的异质图上下文语料库中学习,使其能够理解和提取重要的结构信息。因此,在第二阶段,我们的HiGPT仅需要很少的监督数据(甚至在1-shot场景下)就能快速适应下游任务。相比之下,直接将LLMs与稀疏的监督数据对齐是具有挑战性的。

异质图上下文tokenizer的影响。我们测试了引入上下文tokenizer的异质图结构信息的必要性。通过不引入异质图tokens,仅在下游数据上训练LLM的嵌入权重,我们获得了一个名为"w/o HG"的变体。在不同的shot设置下,我们的HiGPT始终优于这个变体,尤其是在样本有限的场景中(例如,1或3个shot)。这种改进可归功于引入了图令牌,使LLM能够从上下文图tokenizer中提取高维异质结构信息。这种增强的理解显著提高了LLM在稀疏监督信号下的准确性。

Mixture-of-Thought(MoT)指令增强的影响。为了验证Mixture-of-Thought(MoT)图指令增强策略的有效性,我们仅使用直接回答指令训练了变体"-IA"。结果显示,在没有指令增强的情况下,模型的性能有了显著下降,突出了其在解决下游任务中标签稀缺问题方面的重要性。此外,HiGPT在零样本设置下的优异性能可以归功于其在训练过程中获得的增强推理能力,该能力是通过使用各种推理指令获得的。这种提高的能力使得可以有效地进行跨数据集和跨域的转移。

4.4 图上下文学习(Graph ICL)

请添加图片描述

使用HiGPT中的Graph ICL,1-shot模型超过60-shot模型: 结果显示,即使只有一个例子,在没有进一步训练的情况下,使用Graph ICL的大多数1-shot模型在监督和零样本设置下始终优于不使用Graph ICL的60-shot模型。增加示例的数量会增强上下文学习的效果。这种改进可以归功于HiGPT的两阶段指令调整过程,使其能够理解和分析异质图tokens,从而益处下游任务。通过提供具有图tokens的问答示例,模型对图文关系有了更深的理解。分析并模仿这些示例会导致更准确的回答。

使用Graph ICL增强HiGPT的迁移性: 在HiGPT中使用Graph ICL的优势在零样本迁移场景下尤为明显。这表明Graph ICL方法显著提高了HiGPT的迁移性,而无需优化模型参数。我们的HiGPT不仅仅是过度适应单个数据集,而是发展出了分析文本与异质图tokens的能力。通过从其他数据集中融合图示例,模型无缝地转移这种分析能力,显示出强大的迁移学习能力。

使用无关图例的好处: 我们尝试使用无关的图例(如使用DBLP Q&A 示例来测试 ACM 数据集)进行Graph ICL实验。惊人的是,使用 DBLP 图例取得了最佳结果。尽管目标任务不同,我们的HiGPT有效地利用了异质图tokens中的上下文信息,从而提高了下游任务的性能。这证实了我们的HiGPT从异质图结构中学习到了有价值的信息,而不仅仅依赖文本。使用 ACM 自己的示例表现不是很好,这是因为在对齐和阶段1的过程中,我们没有使用ACM的数据进行训练,缺失了对于ACM数据的建模能力。然而,DBLP的示例在某种程度上缓解了这个问题。

4.5 模型案例研究

我们探究了在不同提示技巧下HiGPT的行为。具体来说,我们利用各种提示技巧对在10-shot IMDB数据上训练的模型进行提示,获得六种不同的响应,预测案例如表1所示。最终答案所在的部分以粉色高亮突出显示。我们做出了以下观察:Obs. 1 在使用MoT图指令增强策略进行指令调整后,我们的HiGPT能够动态地准确地回应不同的提示。Obs. 2 表1中的CoT提示,虽然未格式化,但也显示出了一定的格式(以黄色高亮突出显示),这是因为混合各种指令也能够惠及不同的提示技巧。Obs. 3 在案例中,我们的HiGPT在进行了我们设计的两阶段图指令调整后,会自觉地从图的角度考虑问题(以绿色高亮突出显示),进一步证明我们的模型不仅从文本角度解决下游问题,还开发出了一定程度的图感知能力。

请添加图片描述

5. 总结

本工作引入了HiGPT,一个通用而多功能的图模型,它能够从各种异质图中学习,而无需下游微调过程。为了解决异质性的分布偏移,我们提出了一个上下文异质图tokenizer,它能够捕捉不同异质图中的语义关系,从而实现模型的无缝适应。通过将异质性感知的图指令集成到我们的HiGPT中,该模型变得精通于理解复杂的关系异质性,并准确地区分各种类型的图token。我们所提出的框架在各种场景下经过了广泛的评估,表现出了出色的泛化性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/771767.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统下安装部署Linux管理面板1panel

目录 一 1panel介绍 1、1Panel简介 2、1Panel特点 二、本地环境规划 1、本此实验目的 2、本地环境部署 三、部署1Panel&#xff08;在线安装&#xff09; 1.创建安装目录 2.一键部署1Panel 3.检查1Panel服务运行状态 4.检查1Panel监听端口 四、关闭防火墙和selinux…

zabbix进阶

知识点补充 zabbix server在主机上运行服务&#xff0c;端口号为10050&#xff0c;zabbix agent 在被监控机器上运行&#xff08;源码下载&#xff09;主要完成对cpu&#xff0c;磁盘的信息采集&#xff0c;端口号为10051 zabbix 软件结构组成&#xff1a; 1.Zabbix Web GUI …

leetcode 107.二叉树的层序遍历II

题目 思路 正常层序遍历输出&#xff1a; [[3],[9,20],[15,7]] 这道题要求的输出&#xff1a;[[15,7],[9,20],[3]] 可以观察到&#xff0c;只要我们把原来的结果reverse一下就行了。 代码 //leetcode submit region begin(Prohibit modification and deletion)import java…

HWY-41B无源静态电压继电器 整定范围19-240VAC导轨安装JOSEF约瑟

HWY-31A无辅源静态电压继电器 HWY-32A无辅源静态电压继电器 HWY-33A无辅源静态电压继电器 HWY-34A无辅源静态电压继电器 HWY-35A无辅源静态电压继电器 HWY-31B无辅源静态电压继电器 HWY-32B无辅源静态电压继电器 HWY-33B无辅源静态电压继电器 HWY-34B无辅源静态电压继电器 HW…

激活函数选得好,模型性能差不了!17个方法,让网络训练更高效

激活函数是神经网络中不可或缺的组成部分&#xff0c;它们通过引入非线性特性&#xff0c;增强了网络的表达能力和学习能力。常用的激活函数主要可以分为两大类&#xff1a;饱和激活函数、非饱和激活函数。其中sigmoid和tanh是饱和激活函数&#xff0c;而ReLU及其变体则是非饱和…

程序员35岁会失业吗?【来自主流AI的回答】

程序员35岁会失业吗&#xff1f; 35岁被认为是程序员职业生涯的分水岭&#xff0c;许多程序员开始担忧自己的职业发展是否会受到年龄的限制。有人担心随着年龄的增长&#xff0c;技术更新换代的速度会使得资深程序员难以跟上&#xff1b;而另一些人则认为&#xff0c;丰富的经…

图像变换(python)

前言 这个Python没学过&#xff0c;写的是真的不方便&#xff0c;有很多问题还没解决&#xff0c;暂时不想写了&#xff0c;感兴趣的同学可以完善一下。设计的思路就是摆几个控件然后将对应的函数实现&#xff0c;这个Python的坐标放置以及控件的大小我没弄懂&#xff0c;算出…

如何统计代码量

工具&#xff1a; cloc 下载地址&#xff1a; Releases AlDanial/cloc GitHub 使用方法&#xff1a;

武汉星起航:跨境电商行业的领军者,互帮互助共创佳绩

武汉星起航电子商务有限公司&#xff0c;作为跨境电商行业的领军者&#xff0c;以其出色的业绩和卓越的团队实力&#xff0c;在业内赢得了广泛的赞誉。公司自运营团队在亚马逊平台上成功开设了多家店铺&#xff0c;凭借着深耕跨境电商行业多年所积累的经验&#xff0c;取得了令…

使用mybatis-plus添加数据报错

1、报错问题 2、错误分析 无法配置数据库实体类的属性id&#xff0c;类型不匹配 3、解决分析 &#xff08;1&#xff09;数据库类型不匹配&#xff0c;先查看数据库数据类型是否有错误 数据库类型设计没有出现问题 &#xff08;2&#xff09;数据库没有问题就看实体类&#xf…

Xavier初始化方法

avier初始化方法是一种常用的神经网络参数初始化方法&#xff0c;旨在有效地初始化权重&#xff0c;以促进神经网络的训练。该方法的提出者是Xavier Glorot和Yoshua Bengio&#xff0c;因此得名为“Xavier”。 在深度学习中&#xff0c;参数初始化是至关重要的&#xff0c;因为…

tcp/ip是什么意思,tcp/ip协议包含哪几层

TCP/IP是一种网络通信协议&#xff0c;它是互联网所采用的基本协议。TCP/IP协议是由美国国防部高级研究计划局&#xff08;ARPA&#xff09;在上世纪70年代设计开发的&#xff0c;经过多年发展和完善&#xff0c;已成为全球范围内最重要的网络通信协议之一。 首先&#xff0c;让…

【CKA模拟题】Ingress新手必看,全面了解Ingress的基础操作

题干 For this question, please set this context (In exam, diff cluster name) kubectl config use-context kubernetes-adminkubernetesThere exists a deployment named nginx-deployment exposed through a service called nginx-service . Create an ingress resource…

【“得到”用户访谈会-参会感受】

在三月左右的时候&#xff0c;收到了《得到》的一个用户访谈的邀请&#xff0c;自己以前并没有这样的经历&#xff0c;所以觉得能有这样的体验还是挺不错的&#xff0c;所以说一说参加前后的体验。 不知道现在有多少人&#xff0c;还会注意&#xff0c;或者很频繁地使用手机上…

【项目】基于YOLOv8和RotNet实现圆形滑块验证码(拼图)自动识别(通过识别中间圆形的角度实现)

TOC 一、引言 1.1 实现目标 要达到的效果是使用算法预测中间圆形的角度&#xff0c;返回给服务器&#xff0c;实现自动完成验证码的问题。要实现的内容如下图所示。 1.2 实现思路 思路1&#xff08;效果较差&#xff09;&#xff1a;以RotNet要实现的验证码识别为灵感&…

MQ消息队列从入门到精通速成

文章目录 1.初识MQ1.1.同步和异步通讯1.1.1.同步通讯1.1.2.异步通讯 1.2.技术对比&#xff1a; 2.快速入门2.1.安装RabbitMQ2.2.RabbitMQ消息模型2.3.导入Demo工程2.4.入门案例2.4.1.publisher实现2.4.2.consumer实现 2.5.总结 3.SpringAMQP3.1.Basic Queue 简单队列模型3.1.1.…

深入理解SHA系列哈希算法:安全性的保障与演进

码到三十五 &#xff1a; 个人主页 心中有诗画&#xff0c;指尖舞代码&#xff0c;目光览世界&#xff0c;步履越千山&#xff0c;人间尽值得 ! 本文将深入探讨SHA&#xff08;Secure Hash Algorithm&#xff09;系列哈希算法的工作原理、应用场景及其安全性。我们将了解SHA系…

35.基于SpringBoot + Vue实现的前后端分离-在线考试系统(项目 + 论文)

项目介绍 本站是一个B/S模式系统&#xff0c;采用SpringBoot Vue框架&#xff0c;MYSQL数据库设计开发&#xff0c;充分保证系统的稳定性。系统具有界面清晰、操作简单&#xff0c;功能齐全的特点&#xff0c;使得基于SpringBoot Vue技术的在线考试系统设计与实现管理工作系统…

深入探讨Maven打包:打造精致的Zip包

在部署Spring Boot生产项目时&#xff0c;首先需要使用Maven将其打包成一个JAR文件或者包含JAR文件的ZIP文件。随后&#xff0c;通过堡垒机将打包好的文件上传至服务器进行部署&#xff0c;或构建成Docker镜像进行发布。在这一过程中&#xff0c;我们需要将项目中的配置文件或静…

Unity 布局控制器Content Size Fitter

Content Size Fitter是Unity中的一种布局控制器组件&#xff0c;用于根据其内容的大小来调整包含它的UI元素的大小。换句话来说就是&#xff0c;Content Size Fitter可以根据UI元素内部内容的大小&#xff0c;自动调整UI元素的大小&#xff0c;以确保内容能够正确显示。 如下图…