论文解读《Personalized LoRA for Human-Centered Text Understanding》


引言:感觉这篇蛮不错的,读一读。学一学如何在 LLMs(文中说的是PLMs,不过我觉得可以理解为 LLMs) 的结构上做改进


✅ NLP 研 2 选手的学习笔记

笔者简介:Wang Linyong,NPU,2023级,计算机技术
研究方向:文本生成、大语言模型
论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/29931,2024 AAAI(CCF A) 长文
项目链接:https://github.com/yoyo-yun/PLoRA
中文标题:《以人为中心的文本理解的个性化 LoRA》

在这里插入图片描述


文章目录

  • 0 摘要(Abstract)
  • 1 前言(Introduction)
  • 2 方法(Methodology)
    • 2.1 问题表述(Problem Formulation)
      • 2.1.1 个性化的LoRA(Personalized LoRA)
      • 2.1.2 即插即用冷启动(Plug-and-Play for Cold Start)
      • 2.1.3 训练和推理(Train and Inference)
  • 3 实验(Experiments)
    • 3.1 数据集和评估方法(Datasets and Evaluation)
    • 3.2 实验设置(Experimental Setup)
    • 3.3 比较结果和分析(Comparative Results and Analysis)
    • 3.4 模型分析(Model Analysis)
    • 3.5 讨论(Discussions)
  • 4 结论(Conclusions)
  • 5 参考文献


0 摘要(Abstract)

● 有效且高效地将预训练语言模型(PLM)适应于以人为中心的文本理解(Human-Centered Text Understanding,HCTU)是一项挑战,因为在大多数个性化应用中用户令牌达到百万级别,并且没有具体的显式(explicit)的语义。一种标准且参数高效的方法(例如,LoRA)需要为每个用户记忆大量的适配器套件。在这项工作中,我们为 HCTU 任务引入了带有即插即用(plug-and-play,PnP)框架的个性化 LoRA(PLoRA)。PLoRA 在 PLMs 中是有效的、参数高效的且可动态部署的。此外,采用了个性化随机失活和互信息最大化策略,因此所提出的 PLoRA 能够很好地适应冷启动问题中的少样本 / 零样本学习场景。在四个基准数据集上进行的实验表明,所提出的方法在 HCTU 任务的全样本 / 少样本 / 零样本学习场景中优于现有方法,尽管其可训练参数更少。为了实现可重复性,本文的代码可在以下网址获取:https://github.com/yoyo-yun/PLoRA。


1 前言(Introduction)

● 以人为中心的文本理解(HCTU)旨在根据用户偏好捕获文本中的潜在心理状态,其中用户历史书面文本是用户理解的信息源(Crisan et al. 2022;Lynn et al. 2017;Capel and breereton 2023)。对于具有不同偏好和独特需求的用户,相似文本可能表达各种不同的理解,例如在个性化情感分析中(Zhang et al. 2021;唐、秦、刘2015;Chen et al. 2016)。随着自然语言处理(NLP)中预训练语言模型(PLMs)的蓬勃发展,个性化的重要性在最近的研究中得到了强调(Wu et al. 2023;Min et al. 2021;Liu, Zhang, and Gulla 2023)。

● 传统的个性化情感分析方法通常使用个性化知识注入(PKI)技术(Zhong et al. 2021;holsby et al. 2019;Hu et al. 2021)将用户属性/偏好嵌入到密集表示中,然后将其注入神经网络,如图 1(a) 所示。然而,这些模型需要全模型微调(Full-model Fine-Tuning,FFT)和复杂的结构来耦合特定任务转移和个性化注入,这并不适合大规模 PLMs 进行个性化情感分析。

● 为了解决这个问题,参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)技术,如适配器、提示调谐和低秩自适应(LoRA) (Wu et al. 2018;Zhang, Wang, and Zhang 2021)已经提出。这些技术只需要在 PLMs 中添加和微调几个参数,就可以有效地对下游任务的大规模 PLMs 进行微调。为了使用 PEFT 进行个性化情感分析,如图 1(b) 所示,可以将用户属性/偏好视为适配器(adapter),即虚线矩形,通过例如 LoRA 对大规模 PLMs 进行微调,从而避免对整个模型参数进行微调。然而,每个用户都与一个适配器相关联,并且完整的模型副本是不切实际的,因为用户令牌在实际应用程序中总是百万级的(例如,Amazon)。此外,由于每个用户的训练样本有限,这也可能遭受拟合不足的问题。为了充分利用 PKI 和 PEFT 的优势,本研究提出了一种结合 PKI 和 LoRA 的个性化低阶自适应(Personalized Low-Rank Adaptation,PLoRA)机制,如图 1(c) 所示。使用 PKI 将所有用户属性/偏好嵌入到统一的嵌入中,然后使用 LoRA 使大规模 PLMs 适应没有 FFT 的 HCTU 任务。

在这里插入图片描述

图1:以人为中心的文本理解的不同方法。

● 此外,我们进一步使用即插即用(PnP)框架(Sun et al. 2022;Zhang et al. 2023b)扩展提出的 PLoRA 机制,使其更灵活,更容易部署于冷启动问题,包括零样本和少样本学习场景(Wu et al. 2023;daththri et al. 2020),如图 1(d) 所示。当新用户和匿名用户出于隐私考虑请求服务时,就会发生零样本学习场景。在这种情况下,直接将个性化模型应用于这种零样本学习场景可能会降低预测性能,因为模型不了解新用户(Zhang et al. 2023a)。相反,扩展后的 PLoRA 可以使用**个性化遗弃(Personalized Dropout,PDropout) **(Srivastava et al. 2014)和互信息最大化(Mutual Information Maximization,MIM) (Krause、Perona和Gomes 2010)来删除个性化信息,从而提高模型的泛化能力以处理匿名新用户。当新用户使用少量样本请求服务时,会发生少样本学习场景。与需要重新训练模型的传统方法不同, PLoRA 和 PLMs 参数都是冻结的。将扩展后的 PLoRA 作为知识提取器,通过反向传播优化为每个新用户生成个性化信息,然后执行 PnP 完成在线训练和预测。

● 与 LoRA 类似,所提出的 PLoRA 在处理文本输入时不会增加额外的序列长度,与其他 PEFT 方法相比,也没有额外的推理延迟,如适配器(adapter)(Pfeiffer等人2020)、前缀调优(prefix tuning)(Li和Liang 2021)、提示调优(Prompt-tuning)(Lester、AlRfou和Constant 2021)和 P-调优(P-tuning)(Liu等人2021)。此外,PLoRA 与神经网络无关,并与以前的许多方法正交,因此可以轻松部署在各种 PLMs 中,并与其他技术相结合,如提示调优和前缀调优(Houlsby et al. 2019;Guo, Rush, and Kim 2021)。在 4 个基准数据集上进行的实验表明,所提方法在 HCTU 任务的全样本/少样本/零样本学习场景下优于现有方法。本文的主要贡献如下:

  1. 通过将 PKI 和 LoRA 相结合,提出了 PLoRA 机制,在不需要全模型微调的情况下为 PLMs 注入个性化信息。
  2. 用 PnP 框架进一步扩展 PLoRA,以增加模型的泛化能力,并实现对代码启动场景的在线训练和预测。
  3. 实验结果表明,PLoRA 对于 HCTU 任务是有效的、轻量级的、易于部署的。

● 本文其余部分的结构如下。第 2 节描述了所提出方法的细节。第三节对大量实验进行了分析,最后在第四节得出结论。技术附录提供了相关工作,进一步的证明,详细的设置和额外的实验。


2 方法(Methodology)

2.1 问题表述(Problem Formulation)

● HCTU 任务考虑属于某个用户的每个文本数据样本,并根据用户偏好捕获文本表示,其中与每个用户相关联的书面文本记录集合。这些记录有助于模型了解用户偏好并提供个性化服务。因此,HCTU 可以表示为:给定一个输入文本 x = [ x 1 , x 2 , ⋯ , x N ] \mathbf x = [x_1,x_2,\cdots,x_N] x=[x1,x2,,xN],以人为中心的模型的目标是为用户 u u u 生成一个输出 y y y,其中 N N N 表示输入长度, y y y 关联诸如情感分数等任务目标。这些任务可以被建模为参数 m a x q ( y ∣ x , u ) max\, q(y|\mathbf x, u) maxq(yx,u),对于每个用户 u u u,一个可以产生用户偏好的数据集合 D u = ∑ i ( x i , y i , u ) \mathcal D_u = \sum_i (\mathbf x_i, y_i, u) Du=i(xi,yi,u)

● 为了模拟冷启动问题,包括零样本和少样本学习场景,为每个数据集 D = ∑ u ∑ i ( x , y i , u ) = D A + D B \mathcal D=\sum_u\sum_i(\mathbf x,y_i,u)=\mathcal D^A+\mathcal D^B D=ui(x,yi,u)=DA+DB【其中, ( ∀ u A ∈ D A ) ⋂ ( ∀ u B ∈ D B ) = ∅ (\forall u^A\in\mathcal D^A)\bigcap (\forall u^B\in\mathcal D^B)=\varnothing (uADA)(uBDB)=】提供了一对数据( D A \mathcal D^A DA D B \mathcal D^B DB)。 D A \mathcal D^A DA 用于全程学习, D B \mathcal D^B DB 用于冷启动评估。对于零样本学习,它要求从 D A \mathcal D^A DA 中学习的模型 q ( y ∣ x , u ) q(y|\mathbf x, u) q(yx,u) ( x , y ) ∈ D B (\mathbf x, y)∈\mathcal D^B (x,y)DB 上表现出优越的泛化性能 q ( y ∣ x ) q(y|\mathbf x) q(yx),而不需要用户 u B u^B uB 作为输入。对于少样本学习,从少量数据 D u \mathcal D_u Du 中学习用户偏好 p = f ( u ) p = f(u) p=f(u),然后用于个性化服务 q ( y ∣ x , u ) q(y|\mathbf x, u) q(yx,u),其中 ( x , y , u ) ∈ D B (\mathbf x, y,u)∈\mathcal D^B (x,y,u)DB D u ∈ D B \mathcal D_u∈\mathcal D^B DuDB

2.1.1 个性化的LoRA(Personalized LoRA)

● 在本节中,我们详细阐述 PLoRA 在 PLMs 中的个性化,如图 2 所示,它结合了特定于任务的 LoRA 和特定于用户的 PKI。

在这里插入图片描述

图2:PLoRA 的以示意图。

特定于任务的 LoRA(Task-specific LoRA)。像预训练语言模型(PLMs)这样的神经网络包含许多矩阵乘法。LoRA 提供了一种参数高效微调(PEFT)方法,有助于权重矩阵在下游任务自适应时捕获内在秩。对于 PLMs 中的权重矩阵 W ∈ R d i n × d o u t W \in \mathbb R^{d_{in}\times d_{out}} WRdin×dout,低秩矩阵 W task in ∈ R d i n × r W^{\text{in}}_{\text{task}} \in \mathbb R^{d_{in}\times r} WtaskinRdin×r W task out ∈ R d o u t × r W^{\text{out}}_{\text{task}} \in \mathbb R^{d_{out}\times r} WtaskoutRdout×r(其中秩 r ≪ min ( d i n , d o u t ) r \ll \text{min}(d_{in},d_{out}) rmin(din,dout))被用于更新 W W W,更新方式为 W + W task in W task out W+W^{\text{in}}_{\text{task}}W^{\text{out}}_{\text{task}} W+WtaskinWtaskout。给定输入文本表示 h ∈ R d i n h\in \mathbb R^{d_{in}} hRdin,通过特定任务的 LoRA 计算输出 h ′ ∈ R d o u t h'\in \mathbb R^{d_{out}} hRdout 的方式如下:

h ′ = h W + h W task in W task out . ( 1 ) h'=hW+hW^{\text{in}}_{\text{task}}W^{\text{out}}_{\text{task}}.\quad\quad\quad\quad(1) h=hW+hWtaskinWtaskout.(1)

  在训练阶段, W W W 是固定的,只学习 W i n t a s k W_{in}^{task} Wintask W o u t t a s k W_{out}^{task} Wouttask

特定个性化的知识注入(Personalization-specific PKI)。为了使通用模型适应个性化,现有的大多数工作致力于将个性化知识 p = f ( u ) ∈ R d p p = f(u)∈ \mathbb R^{d_p} p=f(u)Rdp 与文本表示相结合,通过以下方式:

h ′ = h W + p W person . ( 2 ) h'=hW+pW_{\text{person}}.\quad\quad\quad\quad(2) h=hW+pWperson.(2)

● 其中 f ( u ) f(u) f(u) 意味着用户偏好或 u u u 的嵌入(embeddings)。不幸的是,这种方法需要在 FFT 方法中对 W W W W p e r s o n W_{person} Wperson 进行优化,以协调个性化和下游任务,但会使其在实践中部署繁琐。

● PLoRA 为了在 PLMs 中组成一个参数高效和个性化的适配器,PLoRA 将 h h h p p p 作为输入,并通过以下方式输出 h ′ h' h

h ′ = h W + h W task in W task out + p W person = h W + h W task in W task out + p W person in W person out = h W + ( W task in + W person in ) W task out \begin{aligned} h' &=hW+hW^{\text{in}}_{\text{task}}W^{\text{out}}_{\text{task}}+pW_{\text{person}} \\ &=hW+hW^{\text{in}}_{\text{task}}W^{\text{out}}_{\text{task}}+pW^{\text{in}}_{\text{person}}W^{\text{out}}_{\text{person}} \\ &=hW+(W^{\text{in}}_{\text{task}}+W^{\text{in}}_{\text{person}})W^{\text{out}}_{\text{task}} \end{aligned} h=hW+hWtaskinWtaskout+pWperson=hW+hWtaskinWtaskout+pWpersoninWpersonout=hW+(Wtaskin+Wpersonin)Wtaskout

● 最初,一个低秩假设被应用于 PKI,通过 W p e r s o n = W p e r s o n i n W p e r s o n o u t W_{person}=W^{in}_{person}W^{out}_{person} Wperson=WpersoninWpersonout 来捕捉注入权重的内在秩特征。为了进一步促进特定任务适应和个性化的配对,我们将 W t a s k o u t W^{out}_{task} Wtaskout W p e r s o n o u t W^{out}_{person} Wpersonout共享。与 LoRA 类似,只有 W t a s k i n W^{in}_{task} Wtaskin W t a s k o u t W^{out}_{task} Wtaskout(或 W p e r s o n o u t W^{out}_{person} Wpersonout) 和 W p e r s o n i n W^{in}_{person} Wpersonin 是可训练的参数,它们会接收梯度更新。

2.1.2 即插即用冷启动(Plug-and-Play for Cold Start)

● 在大量语料库上训练的大规模 PLMs 显示出出色的文本理解能力。与 FFT 或修改特定任务领域的模型架构不同,LoRA 模块可以被视为一个 PnP 模块,指导 PLMs 适应目标领域,如情感分析。类似地,PKI 也可以被认为是一个指导 PLMs 为不同用户服务的 PnP 模块。请注意,当应用 PnP 模块时,将不会训练 PLMs,因此其架构不会被修改,其预训练能力也不会恶化。

● 为构建 PnP 框架并将 PLoRA 应用于复杂冷启动问题,提出一种重新参数化策略。其中, W t a s k i n W^{in}_{task} Wtaskin W p e r s o n i n W^{in}_{person} Wpersonin 随机服从高斯分布; W t a s k o u t W^{out}_{task} Wtaskout p p p 都是 0 0 0。因此,在训练阶段开始时, W t a s k i n W t a s k o u t W^{in}_{task}W^{out}_{task} WtaskinWtaskout 为零,而在 PLMs 第一次遇到用户 u u u 时, p W p e r s o n i n W p e r s o n o u t pW^{in}_{person}W^{out}_{person} pWpersoninWpersonout 为零。因此,PLoRA 是一个与 PLMs 正交的 PnP 模块,并随着指导 PLMs 适应特定任务和以人为中心的领域的能力逐渐增长。

● 尽管 PLoRA 获得了高性能的增益,但对于零样本学习和少样本学习场景来说仍然很困难(参见实验部分)。

● 零样本学习场景在零样本学习中,由于通用和以人为中心的特征分解不良,使得 PLoRA 对未见过或匿名用户的性能下降,这是一个挑战性的问题。为解决这个问题,本文提出 PDropout 和 MIM 方法,以帮助 PLoRA 保持其对零样本学习场景的泛化性能。

  1. PDropout。在训练过程中,我们随机屏蔽掉一批 dropout 率为 ω ∈ [ 0 , 1 ] ω∈[0,1] ω[0,1] 的样本中的用户。因此,由于具有自适应个性化的能力, PLoRA 框架仍然可以访问一般的任务性能。
  2. 互信息最大化。 受(Zhang et al. 2023a)启发,本文引入了一种MIM方法,以对齐特定于任务的和以人为中心的表示( h ~ ′ \tilde h' h~ h ′ h' h)之间的距离,如图 3 所示。在训练过程中,以人为中心的表示被视为教师状态,可以指导更好的通用特定任务性能,其中 MIM 可以被认为是一种知识蒸馏机制。相比之下,MIM 也是一个正则化项,以利用以人为中心的表示的泛化性能。在实践中,均方误差(Mean Square Error, MSE)和(Kullback Leibler, KL)散度(Kullback and Leibler 1951)都是用于实例化 MIM 的常用方法。

在这里插入图片描述

图3:用于零样本学习的 PLoRA 上的 MIM 示意图。

小样本学习场景。如图 4 所示,我们固定所有模型参数,并注入一个归零的嵌入 p p p 指向一个新用户 u u u。在与用户相关的少量样本的情况下,HCTU 模型通过反向传播机制更新用户偏好 p p p,以便用户可以以更新后的 p p p 作为访问令牌参与个性化服务。

在这里插入图片描述

图4:用户 D(UD)少样本学习场景下的 PnP 框架示意图。

2.1.3 训练和推理(Train and Inference)

● 原则上,所提出的 PLoRA 可应用于神经网络中的任何线性映射(projectors)子集,以提供 PEFT 和个性化。本文将该方法限制在下游任务的 Transformer 结构中的多头注意力机制(即查询[query]和价值映射[value projectors]),遵循了之前的 LoRA 研究(Hu等人2021年)。

  为了在训练阶段进行优化,定义全样本学习的损失函数为:

L Fullshot = L CE + α L MIM L CE = CE ( q ( y ~ ∣ x , PDropout ( u , ω ) ; θ ) , y ) , ( 4 ) L MIM = ∑ ( h ~ ′ , h ′ ) ∈ q ( y ~ ∣ x , u ) MIM ( h ~ ′ , h ′ ) \begin{aligned} \mathcal L_{\text{Fullshot}}&=\mathcal L_{\text{CE}}+\alpha \mathcal L_{\text{MIM}} \\ \mathcal L_{\text{CE}}&= \text{CE}(q(\tilde y|\mathbf x,\text{PDropout}(u, \omega );\theta),y)\quad, \quad\quad\quad\quad(4)\\ \mathcal L_{\text{MIM}}&=\sum_{(\tilde h',h')\in q(\tilde y| \mathbf x,u)} \text{MIM}(\tilde h',h') \end{aligned} LFullshotLCELMIM=LCE+αLMIM=CE(q(y~x,PDropout(u,ω);θ),y),(4)=(h~,h)q(y~x,u)MIM(h~,h)

  其中, ( x , y , u ) ∈ D A (\mathbf x,y,u)\in\mathcal D^A (x,y,u)DA 代表每个样本。PDropout(·) 和 MIM(·) 是我们提出的 PDropout 和 MIM 方法; θ θ θ 表示轻量可训练参数;α$$ 为 MIM 项的平衡系数。

  对于少样本学习,训练目标表示为:

f ( u ) = arg ⁡ min ⁡ p = f ( u ) L Fewshot L Fewshot = ∑ ( x , y , u ) ∈ D B CE ( q ( y ~ ∣ x , u ; θ ^ ) , y ) , ( 5 ) \begin{aligned} f(u) &= \arg\min_{p = f(u)} \mathcal{L}_{\text{Fewshot}} \\ \mathcal{L}_{\text{Fewshot}} &= \sum_{(\mathbf x,y,u) \in \mathcal{D}^B} \text{CE}(q(\tilde{y}|\mathbf x,u;\hat{\theta}),y) \quad, \quad \quad(5) \end{aligned} f(u)LFewshot=argp=f(u)minLFewshot=(x,y,u)DBCE(q(y~x,u;θ^),y),(5)

  其中, θ ^ \hat \theta θ^ 表示在全样本学习场景中训练良好的参数,更新的 f ( u ) f(u) f(u) 代表用户 u u u 的语义。

● 与 LoRA 类似,所提出的 PLoRA 在部署中仍然没有额外的推理延迟。我们可以显式计算 W = W + W task in W task out W=W+W^{\text{in}}_{\text{task}}W^{\text{out}}_{\text{task}} W=W+WtaskinWtaskout b = b + f ( u ) b = b + f(u) b=b+f(u) W person in W person out W^{\text{in}}_{\text{person}}W^{\text{out}}_{\text{person}} WpersoninWpersonout,来更新一个针对用户 u u u 的用于个性化服务的线性投影器,其中线性投影器包含权重矩阵 W W W 和偏差向量 b b b。当我们需要切换到纯(或通用)特定任务或匿名用户时,我们可以通过在减去 f ( u ) W person in W person out f(u)W^{\text{in}}_{\text{person}}W^{\text{out}}_{\text{person}} f(u)WpersoninWpersonout 来恢复 b b b。此外,我们还可以添加不同的 f ( u ′ ) W person in W person out f(u')W^{\text{in}}_{\text{person}}W^{\text{out}}_{\text{person}} f(u)WpersoninWpersonout 项来为用户 u ′ u' u 切换服务。因此,PLoRA 也可以在几乎不增加内存开销的情况下切换到其他任务。


3 实验(Experiments)

● 为了验证所提方法在 HCTU 中的有效性和高效性,在个性化情感分析方面进行了大量的实验和分析。

3.1 数据集和评估方法(Datasets and Evaluation)

数据集。由于情感是对人类主观表达的关键和敏感的评估,我们将个性化情感分析作为测试平台。使用的数据集包括 IMDB、YELP、GDRD 和 PPR,这些数据集与不同的用户相关联。为了模拟现实世界应用中的复杂和实际情况,所有数据集被单独分为 D A \mathcal D^A DA D B \mathcal D^B DB 两部分,其中 D A \mathcal D^A DA 包含比 D B \mathcal D^B DB 更多的样本, D B \mathcal D^B DB 旨在模拟冷启动场景,如第 5 节所述。无论是 D A \mathcal D^A DA 还是 D B \mathcal D^B DB,它都分为训练数据、开发数据和测试数据用于实验。更详细的数据集统计数据列在附录中。

评估方法。为了衡量有效性,采用准确率( A c c Acc Acc)、均方误差( M S E MSE MSE)和 macro F1 F 1 F_1 F1)作为评价指标。值得注意的是,较高的 F 1 F_1 F1 A c c Acc Acc(%)和较低的 M S E MSE MSE 意味着更好的结果。

3.2 实验设置(Experimental Setup)

● 为了使用 PLMs 进行个性化情感分析,我们将 PLoRA 应用于多头注意力,包括查询(query)和价值投影(value projectors)(Hu等人2021年),其中引入的 PLMs 涉及 BERT ( B \mathcal B B) (Devlin等人2019年)、RoBERT ( R \mathcal R R) (Liu等人2019年)和 Flan-T5 ( F T 5 \mathcal {FT} 5 FT5) (Chung等人2022年)。为了重现实验,在附录中报告了超参数的更多实现细节。

● 我们将该方法与之前的高性能模型进行了比较,包括神经情感分类(NSC) (Chen等人2016年)、MA-BERT 的多属性注意力(MAA) (Zhang等人2021年)以及 UserAdatper (Zhong等人2021年)。此外,还采用了几种比较方法,包括 PKI (only PKI tuned in optimization)、LoRA 和 two-stage (2S)。需要注意的是,2S 表示预先从通用数据中学习以人为中心的模型,然后通过 Eq.(5) 中的小样本学习策略适应不同的用户,更新后的模型能够很好地提供通用和个性化的服务。

3.3 比较结果和分析(Comparative Results and Analysis)

全样本学习(Full-shot learning)。表 1 报告了在 D A \mathcal D^A DA 中通用(第一组)和以人为中心(第二组)场景的比较结果。从第一组开始,将 LoRA 方法应用于 PLMs,可使从大型语料库中学习的通用语言知识适应于具有少量可训练参数的情感分析任务。因此,基于 Lora 的 PLMs 取得了与 FFT 模型相当的性能。

在这里插入图片描述
表1:全样本学习场景的比较测试结果。TP 在优化过程中提供了一个可训练的参数(包括用户嵌入)比率。所有的数字都是五次运行的平均值。下划线和粗体的数字分别表示只有 B \mathcal B B 和每组的所有实验的最佳分数。

● 与第一组相比,第二组中的模型在 3 个指标上获得了更好的结果。这是因为个性化知识的引入有助于这些模型准确定位不同用户的隐含情感,而不同用户的情感偏好可能不同。基于相同的 PLMs,即 BERT, BPLoRA 所提出的方法与之前的最佳性能模型 B-MAA 和 B-UserAdapter 的有效性相当。然而,MAA 和 UserAdapter 需要 FFT 优化以适应任务。此外,B-PKI 的得分相对较低,表明 FFT 对于适应下游任务的 PLM 至关重要。相比之下,由于 LoRA 与 PKI 的动态结合,该模型具有更高的效率。不仅基于编码器的 PLMs,基于解码器的 T5 也可以为下游任务加载 PLoRA,显示了 PLoRA 在广泛应用上易于部署的能力。

● 在实际应用中,由于用户领域自适应和数据稀疏性,个性化服务面临严重的冷启动问题。我们将冷启动问题模拟为少样本学习和零样本学习场景,并进行了相应的实验,如表 2 所示。

在这里插入图片描述

表2:少样本/零样本学习场景的比较测试结果。 ∗ ^* 提供仅从数据库优化的相应模型。FS 表示相应的模型首先在 D A \mathcal D^A DA 中学习,然后在小样本学习策略中适应于 D B \mathcal D^B DB,即 Eq(5)。ZS 表示在 D A \mathcal D^A DA 中直接应用 PDropout 或 MIM 优化的相应模型,而无需用户输入。


少样本学习。为了使以人为中心的模型能够服务于未见过的用户,其中用户来自 D B \mathcal D^B DB,而在 D A \mathcal D^A DA 之外,我们通过从 Eq(5) 引入的少样本学习策略测试了所提出的 PLoRA 和之前的工作。可以发现,这些模型的性能优于直接在数据集 D B \mathcal D^B DB 上进行全面优化的 B − L o R A ∗ \mathcal B-LoRA^* BLoRA,因为这些提前从 D A \mathcal D^A DA 更新的模型可以存储强大的性能,然后可以轻松地部署到只有少量样本的未见过的用户。

零样本学习。理论上,具有复杂结构的基于 PKI 的方法,即 NSC+U 和 B \mathcal B B-MAA,是很难直接处理纯文本数据的,因为它们难以从以人为中心的特征中提取纯文本表示(Zhang et al. 2023a)。幸运的是,UserAdatper 可以直接在输入层丢弃用户令牌,并且在零样本学习场景中遇到未见过的用户时表现良好。 B \mathcal B B-PLoRA2S 分别分步优化了特定任务和特定使用的插件,因此它在零样本学习和少样本学习场景中都有竞争力。然而,由于缺乏 LoRA(用于任务自适应)和 PKI(用于个性化)之间的相互学习,使得 B \mathcal B B-PLoRA2S 方法的性能低于我们提出的 PLoRA(ZS) 方法——该方法在全样本学习情景下采用 PDropout 和 MIM 策略来解耦特定于任务的知识和特定于用户的知识。

3.4 模型分析(Model Analysis)

消融实验(Ablation study)。消融研究在 IMDB 和 YELP 上的结果如表 3 所示,消融目标包括:1)PKI和LoRA,研究 PLoRA 在任务特定和用户特定知识融合中的有效性;2)通过 PDropout 和 MIM 验证了知识解耦的 PnP 性能。从表中的第一组来看,PLoRA 的性能随着 PKI 或 LoRA 的取消而下降,这表明特定于任务和特定于用户的适应对于在 HCTU 应用程序中部署 PLMs 至关重要。

在这里插入图片描述
表3:在全样本/少样本/零样本学习场景下,IMDB 和 YELP 上测试 F 1 F_1 F1 分数的消融研究。

● 从最后一组可以发现,在没有 PDropout 或 MIM 的情况下,PLoRA F 1 F_1 F1 值都略有下降;而在既不采用 PDropout 也不采用 MIM 的零样本学习场景中,它表现出了灾难性的下降。这是因为 PLoRA 在全样本学习过程中耦合了特定于任务的知识和特定于用户的知识,如果没有零样本学习策略,解耦合的特定于任务的知识在进行通用情感分析时性能较差。这一现象也表明,无论是 PDropout 还是 MIM,都可以使 PLoRA 有效地适应通用场景。注意,PDropout 和 MIM 的动态组合有利于更好的适应。

稀疏性(Sparsity)。为了揭示 PLoRA 的鲁棒性,我们在数据稀疏程度不同或 B-training 集中少样本数量不同的少样本学习场景下探索了其数据集 B-dev 的 A c c Acc Acc,如图 5 所示。可以发现,随着样本数量的增加或数据稀疏度的降低,PLoRA 的改进效果也随之增加。对于我们使用的 IMDB 和 YELP 数据集,15 次学习相对获得了有竞争力的开发性能。实验结果表明,在数据量足够大的情况下,所提方法能够提取出用户知识,进而帮助情感模型适应这些用户。即使在使用的少数样本中(如1510),采用少样本学习策略的 PLoRA(例如 B \mathcal B B-PLoRA,B-FS)仍然优于直接应用于零样本学习场景的那些(例如 B \mathcal B B-PLoRA B-ZS),表明了少样本学习策略的效果。

在这里插入图片描述

图5:不同数据稀疏度下 PLoRA 的效果。FuS、FS 和 ZS 在图(包括下面的图)中分别表示使用全样本/少样本/零样本学习方法。 { M } \{\mathcal M\} {M}-PLoRA {A/B}-{FuS/ZS/FS} 将 PLMs 应用于数据集(A 或 B)的基于 M \mathcal M MPLoRA 与 FuS/ZS/FS 的方法相对应。 ≈ 100 ≈100% 100 意味着几乎使用了 D B \mathcal D^B DB 中的全部训练数据集,并且对于 D B \mathcal D^B DB 中的每个用户都不存在数据稀疏性。


c超参数的敏感性(The sensitivity of hyperparameters)。为了进一步研究 PLoRA 的各个成分对最终性能的影响,我们对超参数的敏感性进行了多次实验,如图 6-7 所示。

● 在图 6 的四个子图中,应用权重的低秩维度和针对用户语义的低用户嵌入并不能在所有场景中支持完整的性能。相比之下,较大的 PLoRA 构型图可能会饱和模型性能,并期望指数放大的可训练参数。它表明,在实践中,对适当的 PLoRA 配置的经验探索和有限的计算预算的考虑是令人满意的服务的关键。

在这里插入图片描述
图 6:使用 PLoRA 的不同参数在验证(dev)数据集上的性能。


● 为了进一步研究 PDropout 和 MIM 在零样本学习场景下如何影响有效性,我们进行了图 7 中的分析实验。从图中可以首先发现,在没有 PDropout 和 MIM ( ω = α = 0 ω = α = 0 ω=α=0)的情况下, B \mathcal B B-PLoRA B-ZS 在零样本场景下的表现并不好,甚至比在没有 PKI 的情况下从数据集 D A \mathcal D^A DA 学习到的 B \mathcal B B-LoRA B-ZS(绿色虚线或 ω = 1 ω = 1 ω=1)在零样本场景下直接应用到数据集 D B \mathcal D^B DB 的情况还要差。其次,适当配置 ω ω ω α α α B \mathcal B B-PLoRA 可以有效缓解上述降解,如表 3 所示。

3.5 讨论(Discussions)

● 综上所述,PLoRA 的重点在于:1) 基于 PEFT 的 LoRA 与注入知识的 PKI 的动态结合,以实现针对特定任务和以人为中心的自适应;2)引入少样本学习策略,使训练有素的 PLMs 在训练阶段适应未见过的用户;3)针对冷启动问题,提出一种将任务相关知识与以人为中心知识耦合解耦的 PnP 框架。

● 我们对 BERT、RoBERTa 和 Flan-T5 等 PLMs 进行了实验,并没有草率地验证 PLoRA 只适用于这些模型。如第 2 节所述,所提出的 PLoRA 可以适应更广泛的神经网络,只要包含线性投影。请注意,我们不想将我们的工作能力局限于情绪分析。相反,我们的探索可以扩展到文本生成任务更广泛的应用,因为我们引入了 Flan-T5 的文本生成范式来处理分类任务。它揭示了大规模语言模型中 PEFT 和以人为本推理的有希望的未来方向。


4 结论(Conclusions)

● 本文提出了 PLoRA,一种以人为中心的 PEFT 方法,成功证明了在增强 PLMs 从预训练到下游任务的迁移学习方面的有效性。通过采用 PnP 框架,PLoRA 显著提高了对实际应用冷启动问题的适应能力。在多种个性化情感分析任务上的实验验证了该方法的有效性和高效性。此外,这项工作不仅有助于提高 PLMs 在文本理解任务上的性能,而且为未来的工作提供了启发,包括 PLoRA 在 LayerNorm 层、 CNN 和其他混合组件上的探索,以及应用程序的服务扩展。


5 参考文献

28 篇


⭐️ ⭐️ 写于2024年11月17日 23:09 教研室工位

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/59842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot+React养老院管理系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.入住合同文件上传2.添加和修改套餐的代码3.查看入住记录代码 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SpringBootReact框架开发的养老院管理系统。首先…

【C++】红黑树封装map—set

1 .关联式容器 C中的map是标准模板库(STL)中的一种关联容器,它存储的是键值对(key-value pairs),其中每个键都是唯一的。 键值对: 用来表示具有一一对应关系的一种结构,该结构中一…

药房智链:中药实验管理的供应链优化

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了中药实验管理系统的开发全过程。通过分析中药实验管理系统管理的不足,创建了一个计算机管理中药实验管理系统的方案。文章介绍了中药实验管理系统的系…

Unity学习---IL2CPP打包时可能遇到的问题

写这篇主要是怕自己之后打包的时候出问题不知道怎么搞,所以记录一下。 问题一:类型裁剪 IL2CPP打包后会自动对Unity工程的dll进行裁剪,将代码中没有引用到的类型裁剪掉。特别是通过反射等方式调用一些类的时候,很容易出问题。 …

商城小程序的流程渠道拓展

传统印象里,小程序的开发制作似乎很难,尤其是商城类型且功能体系完善的,事实也确实如此,没有较高的技术和成本投入或团队各个流程的专业人员合作,很难开发出来成品,或者质量较低。 当然对于大公司来说&…

Linux网络:守护进程

Linux网络:守护进程 会话进程组会话终端 守护进程setsiddaemon 在创建一个网络服务后,往往这个服务进程是一直运行的。但是对于大部分进程来说,如果退出终端,这个终端上创建的所有进程都会退出,这就导致进程的生命周期…

基于gradio+networkx库对图结构进行可视化展示

前言 在gradio框架下对蛋白质-蛋白质相互作用网络(PPI网络)进行可视化,并将其在网页前端进行展示。 方法 其实很简单 可以直接使用networkx画图后保存图片,然后使用Gradio框架的image组件进行展示即可。 但实际上gradio还配置…

【大数据学习 | HBASE高级】hive操作hbase

一般在查询hbase的数据的时候我们可以直接使用hbase的命令行或者是api进行查询就行了,但是在日常的计算过程中我们一般都不是为了查询,都是在查询的基础上进行二次计算,所以使用hbase的命令是没有办法进行数据计算的,并且对于hbas…

Python小游戏28——水果忍者

首先,你需要安装Pygame库。如果你还没有安装,可以使用以下命令进行安装: 【bash】 pip install pygame 《水果忍者》游戏代码: 【python】 import pygame import random import sys # 初始化Pygame pygame.init() # 设置屏幕尺寸 …

基于SpringBoot的养老院管理系统+文档

💗博主介绍💗:✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示:文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

智能购物时代:AI在电商平台的革命性应用

在当今数字化时代,人工智能(AI)技术已成为推动电商行业发展的关键力量。AI技术的应用不仅改变了电商的运营模式,还极大地丰富了消费者的购物体验。随着技术的不断进步,AI在电商领域的应用越来越广泛,从个性…

卷积、频域乘积和矩阵向量乘积三种形式之间的等价关系与转换

线性移不变系统 线性移不变系统(Linear Time-Invariant System, LTI系统)同时满足线性和时不变性两个条件。 线性:如果输入信号的加权和通过系统后,输出是这些输入信号单独通过系统后的输出的相同加权和,那么该系统就…

基于51单片机的电子钟+秒表LCD1602仿真设计

电子钟秒表 0. 设计资料内容清单&&下载链接1. 主要功能:2. 讲解视频:3. 仿真4. 程序代码5. 设计报告6. 原理图 基于51单片机的电子钟秒表LCD1602仿真设计( proteus仿真程序设计报告原理图讲解视频) 仿真图proteus7.8及以上 程序编译…

unity 3d到idea

第一步,确保jdk,sdk,gradle版本一致 unity 3d的配置 idea配置 第二步,整个unity导出安卓项目到idea idea配置项目(修改gradl配置) gradle配置代码 distributionUrlhttps\://services.gradle.org/distributions/gradle-8.7-bin.z…

要查看你的系统是 x64(64位)还是 x86(32位),可以按照以下步骤操作

文章目录 1. 通过“系统信息”查看系统架构2. 通过“设置”查看系统架构3. 通过命令提示符查看系统架构4. 通过 PowerShell 查看系统架构5. 通过文件资源管理器查看系统架构总结 要查看你的系统是 x64(64位)还是 x86(32位)&…

ARM 汇编指令

blr指令的基本概念和用途 在 ARM64 汇编中,blr是 “Branch with Link to Register” 的缩写。它是一种分支指令,主要用于跳转到一个由寄存器指定的地址,并将返回地址保存到链接寄存器(Link Register,LR)中。…

手机ip地址异常怎么解决

在现代社会中,手机已成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,都离不开网络的支持。然而,有时我们会遇到手机IP地址异常的问题,这不仅会影响我们的网络体验,还可能带来安全隐患。本文…

【Linux系统编程】第四十七弹---深入探索:POSIX信号量与基于环形队列的生产消费模型实现

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、POSIX信号量 2、基于环形队列的生产消费模型 2.1、代码实现 2.1.1、RingQueue基本结构 2.1.2、PV操作 2.1.3、构造析构…

炼码LintCode--数据库题库(级别:入门;数量:144道)--刷题笔记_01

目录 炼码LintCode--数据库题库(级别:入门;数量:144道)--刷题笔记_01入门级别的笔记CRUD基本函数及语法汇总事务锁视图 炼码LintCode–数据库题库(级别:入门;数量:144道&…

本地部署Apache Answer搭建高效的知识型社区并一键发布到公网流程

文章目录 前言1. 本地安装Docker2. 本地部署Apache Answer2.1 设置语言选择简体中文2.2 配置数据库2.3 创建配置文件2.4 填写基本信息 3. 如何使用Apache Answer3.1 后台管理3.2 提问与回答3.3 查看主页回答情况 4. 公网远程访问本地 Apache Answer4.1 内网穿透工具安装4.2 创建…