点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
作者简介
李江梦,中国科学院软件研究所天基综合信息系统全国重点实验室助理研究员
论文简介
今天介绍的是被机器学习领域顶级学术会议ICLR 2024接收的论文:BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction,该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,因此提出了BayesPrompt来学习包含域判别信息的提示,以对抗域无关知识的干扰。理论上,BayesPrompt的泛化误差界比基准的Prompt-Tuning方法更紧致;实验上,BayesPrompt在基准测试中取得了最先进的性能。
论文地址:
https://arxiv.org/abs/2401.14166
代码地址:
https://github.com/FF2127/bayesprompt
Context
概述
作为一种基于大规模预训练语言模型(PLMs)的新颖有效的微调范式,Prompt-Tuning旨在缩小下游任务与预训练目标之间的差距。尽管Prompt-Tuning在各种任务中取得了持续的进展,但这种方法仍然长期存在一个缺陷,即Prompt-Tuning方法在泛化到特定的少样本模式时可能会失效。该论文从分布分析的视角揭示了这一现象背后的本质问题,即PLMs中包含的概念知识过多以及用于目标下游域的知识不完整,这两者共同导致了PLMs在通用知识嵌入空间中错误地定位到与目标域相对应的知识分布。为此,该论文探索以去偏的方式近似下游任务的完整目标域,然后抽象这些域以生成判别性提示,从而为PLMs提供消除歧义的指导。在这种直觉的引导下,该论文提出了一种简单而有效的方法,即BayesPrompt,来学习包含域判别信息的提示,以对抗域无关知识的干扰。BayesPrompt利用已知分布来近似目标域的去偏真实分布,并进一步从近似分布中均匀采样代表性特征,以生成对PLMs的提示。该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,但其与Prompt-Tuning之间仍然存在联系,并且进一步证明了BayesPrompt的理论优势,即其泛化误差界比基准的Prompt-Tuning方法更紧致。实验上,BayesPrompt在基准测试中取得了最先进的性能。
动机与分析
受益于海量的数据集、庞大可训练的模型参数以及设计良好的训练架构,PLMs在诸如机器翻译、文本生成、信息抽取等自然语言处理领域已经取得了显著的成功。然而,对于特定的下游任务,PLMs遇到了发展瓶颈,尤其是在少样本场景下未能达到研究人员的期望。这一问题的内在原因在于PLMs包含过多的概念知识。换句话说,PLMs包含的知识呈现固有的多义性。这导致与域无关的知识可能干扰对下游任务的推理,特别是对少样本数据来说。为了弥补这一不足,近年来的研究提出了设计良好的提示以指导PLMs,从而避免在下游任务中出现推理异常值。但手动构建这样的提示需要专业知识和大量的工作。为此,数据驱动的可训练提示应运而生,并在PLMs的下游推理中取得了显著的性能提升。然而,这种提示的学习范式仍然面临着长期存在的挑战,即来自下游域的训练样本中包含的有限且离散的语义信息无法较好地支持传统可训练提示获得足够的监督,使得生成的提示对PLMs的指导变得微不足道。特别是,这一挑战进一步加剧了PLMs在少样本场景下的性能下降。
图1 分布视角
为了进一步理解PLMs在少样本场景下的缺陷背后的隐式和内在原因,该论文从分布视角重新审视了PLMs下游推理的操作原理。在图1(a) 展示的没有提示的传统推理范式中,一些样本可能包含直接干扰PLMs推理的信息。该论文将这一现象归因于这样一个事实:干扰样本同时属于PLMs知识嵌入空间中的多个域分布,而模型无法在没有包含域判别信息的提示的情况下确定所需要的域。因此,过多的概念知识虽然可以赋予PLMs理解通用概念的能力,但也可能干扰对特定任务的推理。对于图1(b)和(c) 中展示的具有可训练提示的推理范式,具有有限训练样本的下游域中所包含的信息可能会导致PLMs的知识歧义,而相应完整域中包含的信息可以有效地应对这一问题。该论文推测,有限的训练样本导致可训练的提示学习到目标域的有偏分布,该分布仅包含部分信息并与目标域的实际分布不一致,从而导致协变量偏移问题,因此仍然为PLMs提供有歧义指导。为此,该论文探索以去偏方式近似下游任务的完整训练域,然后通过域抽象生成判别性提示,从而为PLMs提供去歧义指导。
方法
图2 模型框架图
具体来说,该论文提出了一种称为BayesPrompt的新方法,其首先利用已知分布来近似下游域的去偏真实分布,然后从近似分布中均匀采样代表性特征以生成对PLMs的提示。基于以上操作,BayesPrompt的行为可以被视为去偏域抽象。分布近似是通过使用Stein变分梯度下降(SVGD)实现的,这是一种通用的贝叶斯推断算法。由于在实践中观察到选择传统的高斯分布作为已知分布会退化对下游域分布的近似,因此构建了高斯混合模型(GMM)来拟合样本分布。然后,利用所得到的分布和样本表示来初始化SVGD算法的目标分布和粒子。通过SVGD的迭代更新得到一组新粒子集,其近似于目标分布。通过从近似的目标分布中采样获得包含域判别信息的提示,其可以减轻来自与域无关知识的干扰。
该论文以关系抽取(RE)任务为例详细描述了BayesPrompt的应用。首先,将训练样本𝑥𝑖输入到编码器中以获取其表示ℎ𝑖;然后,构建一个高斯混合模型来对表示分布进行建模,并得到输出 Pμ , Pσ 和 Pπ ,它们分别表示每个高斯分量的均值向量、协方差矩阵和权重。接着,采用SVGD来近似下游域的去偏真实分布。由 Pμ , Pσ 和 Pπ 确定的高斯混合分布作为 SVGD 算法的目标分布,训练样本的表示作为 SVGD 的初始粒子集,M等于样本的数量。通过迭代更新,得到近似于下游域去偏真实分布的结果粒子集。通过从结果粒子集中均匀采样,得到潜在知识ω,其代表了一个能为PLMs提供去歧义指导的去偏域抽象。因此,对于为关系抽取任务构建的提示,使用潜在知识ω以及嵌入在关系标签中的语义知识来初始化可学习的连续tokens。为了将初始化的tokens与周围上下文充分关联,该论文采用了交叉熵损失进行进一步的优化:
理论
回到最初的问题:能否用域自适应(Domain Adaptation)解决提示学习问题?
该论文提供了Prompt-Tuning与Domain Adaptation之间区别与联系的理论见解:
1. Prompt-Tuning与Domain Adaptation之间的区别
Domain Adaptation是指从源数据分布中学习一个在不同(但相关)目标数据分布上表现良好的模型。然而,这个目的与BayesPrompt的目的存在差距。BayesPrompt的方法旨在拟合少样本域的分布,但并没有对齐目标少样本域和PLMs域的分布。这一行为背后的直觉是,PLMs域的分布服从高斯分布,但少样本域的分布不是高斯分布,因此,任意地对齐分布以微调PLMs会降低其捕获判别性信息的能力。
2. Domain Adaptation中关于共享标签空间的理论假设是否适用于Prompt-Tuning?
在Prompt-Tuning场景中,下游域可以被视为目标域,PLMs域的特定子集可以被视为源域,即在PLMs域的特定子集与下游域之间进行域分布对齐,二者具有共享标签。然而,下游域可以由离散数据界定,而PLMs域的特定子集可能无法确定,因此无法直接利用传统的Domain Adaptation方法来实现BayesPrompt的目标。
那么,BayesPrompt在理论上是否有效?该论文定义X表示从下游数据集所对应分布P(X)中独立同分布采样出的随机变量,其通过预训练语言模型f(∙)获得潜在特征Z。在域分布的视角上,该论文假设存在两个域,用DPLM表示包含在PLM中的信息所对应的域,DDS表示下游数据集所对应的域。因此,在少样本推理上提示PLMs的任务可在形式上被转换为通过利用一个学得好的提示隐式地使下游域DDS适应PLMs域DPLM的特定子集ḊPLM。根据PLMs的传统推理设置,该论文假设PLMs域的特定子集ḊPLM和下游域DDS共享一个标签函数𝓛:Z→Y,Y表示相应的标签。此外,论文定义𝓗为表示一组预测函数的假设空间,且∀h∈𝓗,h∶Z→Y。因此,在PLMs域的特定子集ḊPLM所对应的分布和下游域DDS所对应的分布上,假设空间中的一个假设h与标签函数𝓛之间的差异可以分别由以下公式度量:
进而得出以下命题:
该论文将提示PLMs的操作原理视为隐式Domain Adaptation,因此所提出的方法遵循命题C.1中的原则。
由于目标下游域DDS(Z)的完整分布可以被分为多个组成分布,根据命题C.1中的三角不等式条件,这一行为理论上可以通过以下推论得到验证:
根据推论C.2,通过在训练过程中连接候选分布,得到PLMs域的特定子集与下游域所对应的分布差异 的上界 + 。
下面通过进一步的理论验证证明与基准方法相比,BayesPrompt在PLMs的下游推理上获得了更紧致的分类误差上界:
基于定理C.3可以得出:最小化所使用的损失函数可以隐式地减小分布差异,即 ,从而收紧𝐷𝐷𝑆上的分类误差上界。
实验
实验结果表明了BayesPrompt的有效性。在少样本学习设置中,该论文执行了1-shot、5-shot和16-shot的实验以评估BayesPrompt在低资源场景下的有效性。表1中报告了不同方法在不同基准数据集上的F1值和标准差。结果表明,平均而言,在基准数据集中,BayesPrompt比KnowPrompt高出了3.24%,比RetrievalRE高出了1.29%。
表1 少样本数据集设置下的实验结果
表2 全量数据集设置下的实验结果
在全量数据集设置下进行的实验进一步表明,与KnowPrompt相比,BayesPrompt的平均性能提升了0.4%,而与RetrievalRE相比提升了0.2%,这进一步突显了BayesPrompt的优势。
图3 消融实验结果
对于去偏真实分布的近似,该论文综合考虑了高斯分布和高斯混合模型作为候选的已知分布。图3中左图的实验结果表明,采用高斯混合模型的方法实现了相对可观和有效的性能。右图展示了判别性提示的效果。具体而言,在TACRED数据集上的1-shot设置中,当移除判别性提示时,性能从22.5%下降到20.2%,这表明了判别性提示对少样本推理是有效的。
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
哦
~
点击 阅读原文 查看更多!