Domain Adaptation Vs. Prompt-Tuning:能否用域自适应解决大模型提示学习问题?

点击蓝字

e737031ca90c0a4554de0f0275a3fd9b.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

12d89e0aae86aff98733ee58e785179f.png

作者简介

李江梦,中国科学院软件研究所天基综合信息系统全国重点实验室助理研究员

论文简介

今天介绍的是被机器学习领域顶级学术会议ICLR 2024接收的论文:BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction,该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,因此提出了BayesPrompt来学习包含域判别信息的提示,以对抗域无关知识的干扰。理论上,BayesPrompt的泛化误差界比基准的Prompt-Tuning方法更紧致;实验上,BayesPrompt在基准测试中取得了最先进的性能。

论文地址:

https://arxiv.org/abs/2401.14166

代码地址:

https://github.com/FF2127/bayesprompt

Context

概述

作为一种基于大规模预训练语言模型(PLMs)的新颖有效的微调范式,Prompt-Tuning旨在缩小下游任务与预训练目标之间的差距。尽管Prompt-Tuning在各种任务中取得了持续的进展,但这种方法仍然长期存在一个缺陷,即Prompt-Tuning方法在泛化到特定的少样本模式时可能会失效。该论文从分布分析的视角揭示了这一现象背后的本质问题,即PLMs中包含的概念知识过多以及用于目标下游域的知识不完整,这两者共同导致了PLMs在通用知识嵌入空间中错误地定位到与目标域相对应的知识分布。为此,该论文探索以去偏的方式近似下游任务的完整目标域,然后抽象这些域以生成判别性提示,从而为PLMs提供消除歧义的指导。在这种直觉的引导下,该论文提出了一种简单而有效的方法,即BayesPrompt,来学习包含域判别信息的提示,以对抗域无关知识的干扰。BayesPrompt利用已知分布来近似目标域的去偏真实分布,并进一步从近似分布中均匀采样代表性特征,以生成对PLMs的提示。该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,但其与Prompt-Tuning之间仍然存在联系,并且进一步证明了BayesPrompt的理论优势,即其泛化误差界比基准的Prompt-Tuning方法更紧致。实验上,BayesPrompt在基准测试中取得了最先进的性能。

动机与分析

受益于海量的数据集、庞大可训练的模型参数以及设计良好的训练架构,PLMs在诸如机器翻译、文本生成、信息抽取等自然语言处理领域已经取得了显著的成功。然而,对于特定的下游任务,PLMs遇到了发展瓶颈,尤其是在少样本场景下未能达到研究人员的期望。这一问题的内在原因在于PLMs包含过多的概念知识。换句话说,PLMs包含的知识呈现固有的多义性。这导致与域无关的知识可能干扰对下游任务的推理,特别是对少样本数据来说。为了弥补这一不足,近年来的研究提出了设计良好的提示以指导PLMs,从而避免在下游任务中出现推理异常值。但手动构建这样的提示需要专业知识和大量的工作。为此,数据驱动的可训练提示应运而生,并在PLMs的下游推理中取得了显著的性能提升。然而,这种提示的学习范式仍然面临着长期存在的挑战,即来自下游域的训练样本中包含的有限且离散的语义信息无法较好地支持传统可训练提示获得足够的监督,使得生成的提示对PLMs的指导变得微不足道。特别是,这一挑战进一步加剧了PLMs在少样本场景下的性能下降。

ef2bca9f4ea9847bb8e3b5ba50eb6034.png

图1 分布视角

为了进一步理解PLMs在少样本场景下的缺陷背后的隐式和内在原因,该论文从分布视角重新审视了PLMs下游推理的操作原理。在图1(a) 展示的没有提示的传统推理范式中,一些样本可能包含直接干扰PLMs推理的信息。该论文将这一现象归因于这样一个事实:干扰样本同时属于PLMs知识嵌入空间中的多个域分布,而模型无法在没有包含域判别信息的提示的情况下确定所需要的域。因此,过多的概念知识虽然可以赋予PLMs理解通用概念的能力,但也可能干扰对特定任务的推理。对于图1(b)和(c) 中展示的具有可训练提示的推理范式,具有有限训练样本的下游域中所包含的信息可能会导致PLMs的知识歧义,而相应完整域中包含的信息可以有效地应对这一问题。该论文推测,有限的训练样本导致可训练的提示学习到目标域的有偏分布,该分布仅包含部分信息并与目标域的实际分布不一致,从而导致协变量偏移问题,因此仍然为PLMs提供有歧义指导。为此,该论文探索以去偏方式近似下游任务的完整训练域,然后通过域抽象生成判别性提示,从而为PLMs提供去歧义指导。

方法

c5e527fa02c7ba84033cf35a9360be9e.png

图2 模型框架图

具体来说,该论文提出了一种称为BayesPrompt的新方法,其首先利用已知分布来近似下游域的去偏真实分布,然后从近似分布中均匀采样代表性特征以生成对PLMs的提示。基于以上操作,BayesPrompt的行为可以被视为去偏域抽象。分布近似是通过使用Stein变分梯度下降(SVGD)实现的,这是一种通用的贝叶斯推断算法。由于在实践中观察到选择传统的高斯分布作为已知分布会退化对下游域分布的近似,因此构建了高斯混合模型(GMM)来拟合样本分布。然后,利用所得到的分布和样本表示来初始化SVGD算法的目标分布和粒子。通过SVGD的迭代更新得到一组新粒子集,其近似于目标分布。通过从近似的目标分布中采样获得包含域判别信息的提示,其可以减轻来自与域无关知识的干扰。

该论文以关系抽取(RE)任务为例详细描述了BayesPrompt的应用。首先,将训练样本𝑥𝑖输入到编码器中以获取其表示𝑖;然后,构建一个高斯混合模型来对表示分布进行建模,并得到输出 Pμ , Pσ  和 Pπ ,它们分别表示每个高斯分量的均值向量、协方差矩阵和权重。接着,采用SVGD来近似下游域的去偏真实分布。由 Pμ , Pσ  和 Pπ 确定的高斯混合分布作为 SVGD 算法的目标分布,训练样本的表示作为 SVGD 的初始粒子集e04059f0778ae298a1d64200abc65cab.png,M等于样本的数量。通过迭代更新,得到近似于下游域去偏真实分布的结果粒子集669b3a4504b7271842fefdbea7e8d8ba.png。通过从结果粒子集中均匀采样,得到潜在知识ω,其代表了一个能为PLMs提供去歧义指导的去偏域抽象。因此,对于为关系抽取任务构建的提示,使用潜在知识ω以及嵌入在关系标签中的语义知识来初始化可学习的连续tokens。为了将初始化的tokens与周围上下文充分关联,该论文采用了交叉熵损失进行进一步的优化:

33fbdc7700a1ff5f9f5e95f81f31b195.png

理论

回到最初的问题:能否用域自适应(Domain Adaptation)解决提示学习问题?

该论文提供了Prompt-Tuning与Domain Adaptation之间区别与联系的理论见解:

1. Prompt-Tuning与Domain Adaptation之间的区别

Domain Adaptation是指从源数据分布中学习一个在不同(但相关)目标数据分布上表现良好的模型。然而,这个目的与BayesPrompt的目的存在差距。BayesPrompt的方法旨在拟合少样本域的分布,但并没有对齐目标少样本域和PLMs域的分布。这一行为背后的直觉是,PLMs域的分布服从高斯分布,但少样本域的分布不是高斯分布,因此,任意地对齐分布以微调PLMs会降低其捕获判别性信息的能力。

2. Domain Adaptation中关于共享标签空间的理论假设是否适用于Prompt-Tuning?

在Prompt-Tuning场景中,下游域可以被视为目标域,PLMs域的特定子集可以被视为源域,即在PLMs域的特定子集与下游域之间进行域分布对齐,二者具有共享标签。然而,下游域可以由离散数据界定,而PLMs域的特定子集可能无法确定,因此无法直接利用传统的Domain Adaptation方法来实现BayesPrompt的目标。

那么,BayesPrompt在理论上是否有效?该论文定义X表示从下游数据集所对应分布P(X)中独立同分布采样出的随机变量,其通过预训练语言模型f(∙)获得潜在特征Z。在域分布的视角上,该论文假设存在两个域,用DPLM表示包含在PLM中的信息所对应的域,DDS表示下游数据集所对应的域。因此,在少样本推理上提示PLMs的任务可在形式上被转换为通过利用一个学得好的提示隐式地使下游域DDS适应PLMs域DPLM的特定子集ḊPLM。根据PLMs的传统推理设置,该论文假设PLMs域的特定子集ḊPLM和下游域DDS共享一个标签函数𝓛:Z→Y,Y表示相应的标签。此外,论文定义𝓗为表示一组预测函数的假设空间,且∀h∈𝓗,h∶Z→Y。因此,在PLMs域的特定子集ḊPLM所对应的分布2b234f95f3eecf2ca87938eac453deec.png和下游域DDS所对应的分布078c3cd64d075a8ecc583b555fffe968.png上,假设空间中的一个假设h与标签函数𝓛之间的差异可以分别由以下公式度量:

7508ccf42f8187123d0d4262acf6bd09.png

74afd748c10cbfdbe318934cc767371e.png


进而得出以下命题:

c1e228f07256484e505449032dde48d0.png

该论文将提示PLMs的操作原理视为隐式Domain Adaptation,因此所提出的方法遵循命题C.1中的原则。

由于目标下游域DDS(Z)的完整分布可以被分为多个组成分布,根据命题C.1中的三角不等式条件,这一行为理论上可以通过以下推论得到验证:

e0ed9b2d9eb29a2068b7ff0aeeb0aae1.png

根据推论C.2,通过在训练过程中连接候选分布,得到PLMs域的特定子集与下游域所对应的分布差异 abd2a0cb77054dfb5ea588c66367f972.png 的上界 9ac64988e05c931b6caa27e7888ab013.png + b699c7187621bff172317d5705f1feb8.png

下面通过进一步的理论验证证明与基准方法相比,BayesPrompt在PLMs的下游推理上获得了更紧致的分类误差上界:

2678f269b0ada351335a03c0191feeed.png

基于定理C.3可以得出:最小化所使用的损失函数可以隐式地减小分布差异,即 f386113cd90a6f4fdb8e5dcbc4cafcf4.png ,从而收紧𝐷𝐷𝑆上的分类误差上界。

实验

实验结果表明了BayesPrompt的有效性。在少样本学习设置中,该论文执行了1-shot、5-shot和16-shot的实验以评估BayesPrompt在低资源场景下的有效性。表1中报告了不同方法在不同基准数据集上的F1值和标准差。结果表明,平均而言,在基准数据集中,BayesPrompt比KnowPrompt高出了3.24%,比RetrievalRE高出了1.29%。

表1 少样本数据集设置下的实验结果

96a13f278fc6818feb50d4f87a520d48.png

表2 全量数据集设置下的实验结果

8ef8be9e2fcf8bb2c711e217ffbaf16b.png

在全量数据集设置下进行的实验进一步表明,与KnowPrompt相比,BayesPrompt的平均性能提升了0.4%,而与RetrievalRE相比提升了0.2%,这进一步突显了BayesPrompt的优势。

7ed00806f337ea9fea39c5fcf76e097b.png9ec9f6680fb54a53ca4a94ffb01b5037.png

图3 消融实验结果

对于去偏真实分布的近似,该论文综合考虑了高斯分布和高斯混合模型作为候选的已知分布。图3中左图的实验结果表明,采用高斯混合模型的方法实现了相对可观和有效的性能。右图展示了判别性提示的效果。具体而言,在TACRED数据集上的1-shot设置中,当移除判别性提示时,性能从22.5%下降到20.2%,这表明了判别性提示对少样本推理是有效的。

往期精彩文章推荐

eafbfdc86a8ffe16592dce82c59c0371.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

2707ef5d100ff32453c7a9fde1dd79f4.png

我知道你

在看

~

7e52c7131685b8f3b40636e1ef100523.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/720581.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

广东Lenovo SR588服务器维修升级硬盘内存

本案例描述了对联想SR588服务器进行硬件升级的过程,包括更换固态硬盘作为系统盘,以及增加内存容量至128GB。升级后,服务器性能得到显著提升,同时通过重新配置RAID阵列和操作系统的重新安装,确保了系统的稳定性和数据的…

STM32 NAND FLASH知识点

1.NAND FLASH的简介 NAND FLASH 的概念是由东芝公司在 1989 年率先提出,它内部采用非线性宏单元模式,为固态大容量内存的实现提供了廉价有效的解决方案。 NAND FLASH 存储器具有容量较大,改写速度快等优点,适用于大量数据的存储&…

如何利用Flutter来写后端 服务端应用

前言 Flutter是谷歌推出的一款跨平台开发框架,现在属于此领域star最多的框架,其被广泛应用于构建前台界面,但或许很少人知道,他也可以写后端应用。 本文主角 flutter非常著名的getx库推出的get server jonataslaw/get_server:…

实验01-STP+链路聚合+VRRP实验

1.实验拓扑 2 实验需求 根据拓扑图配置IP地址。交换机之间通过STP防环为了防止SW2-SW3之间聚合的高效链路被STP 阻塞,请配置SW2 为网络中的主根,SW3为网络中的备份根桥。通过VRRP实现网关冗余,网关在SW2和SW3上,其中VLAN10的网关…

【3GPP】【核心网】【5G】5G核心网协议解析(一)(超详细)

1. 5G核心网概念 5G核心网是支撑5G移动通信系统的关键组成部分,是实现5G移动通信的重要基础设施,它负责管理和控制移动网络中的各种功能和服务。它提供了丰富的功能和服务,支持高速、低时延、高可靠性的通信体验,并为不同行业和应…

前端监控为什么采用GIF图片做埋点?

一、什么是埋点监控 前端监控是开发人员用来跟踪和维护应用程序表现层的运行状况的过程和工具。它主要包括三种类型:数据监控、性能监控和异常监控。 1、数据监控 主要是为了收集跟用户相关的数据,例如用户设备类型、浏览器版本、页面浏览量(…

GIS之深度学习05:VisualStudio安装教程

在安装CUDA前,建议先安装VisualStudio,以防报错 VisualStudio安装步骤简单,但时间较长。。。。。。 正文开始: VisualStudio官网:Visual Studio: IDE and Code Editor for Software Developers and Teams 点击右上角…

XUbuntu22.04之解决:仓库xxx没有数字签名问题(二百一十七)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

Gitlab: PHP项目CI/CD实践

目录 1 说明 2 CI/CD 2.1 部署方式一:增量部署 2.1.1 目标服务器准备 2.2.2 Gitlab及Envoy脚本 2.2 部署方式二:镜像构建与部署 2.2.1 推送到私有化容器仓库 准备工作 脚本 要点 2.2.2 推送到hub.docker.com 准备工作 脚本 3 参考&#x…

1905_ARMv7-M的堆栈寄存器

1905_ARMv7-M的堆栈寄存器 全部学习汇总: g_arm_cores: ARM内核的学习笔记 (gitee.com) ARMv7-M实现了2种堆栈,分别是MSP和PSP。复位的时候默认是MSP,而当前是哪种可以通过CONTROL.SPSEL寄存器的bit来查看。 SP寄存器的最低2bit,S…

⭐每天一道leetcode:27.移除元素(简单;vector)

⭐今日份题目 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的顺序可以改变。你不需要考虑数组中…

大模型基础应用框架(ReACT\SFT\RAG)创新及零售业务落地

如何将大语言模型的强大能力融入实际业务、产生业务价值,是现在很多公司关注的焦点。在零售场,大模型应用也面临很多挑战。本文分享了京东零售技数中心推出融合Agent、SFT与RAG的大模型基础应用框架,帮助业务完成大模型微调、部署和应用&…

Linux 安装k8s

官网 常见的三种安装k8s方式 1.kubeadm 2.kops:自动化集群制备工具 3.kubespray: 提供了 Ansible Playbook 下面以kubeadm安装k8s kubeadm的安装是通过使用动态链接的二进制文件完成的,目标系统需要提供 glibc ##使用 ss 或者 netstat 检测端…

搞流量,就这点事!

资产还是负债?赚钱之前想明白! 如果说你有一个产品,大概率的情况是,如果产品被更多人看到,那么最终购买的人也会多一些。结果就是,你的利润更多。所以,在产品没问题的情况下,流量越多…

【学习心得】响应数据加密的原理与逆向思路

一、什么是响应数据加密? 响应数据加密是常见的反爬手段的一种,它是指服务器返回的不是明文数据,而是加密后的数据。这种密文数据可以被JS解密进而渲染在浏览器中让人们看到。 它的原理和过程图如下: 二、响应数据加密的逆向思路 …

MATLAB 绘制带填充配色的雷达图--附案例代码

MATLAB 绘制带填充配色的雷达图 目录 MATLAB 绘制带填充配色的雷达图摘要1. 准备数据2. 绘制雷达图3. 设置填充颜色4. 案例代码及结果4. 结语 摘要 在MATLAB 中,可以使用多种方式绘制美观的雷达图。本文将介绍如何通过详细案例和代码说明,在MATLAB中绘制…

MCU设计--M3内核整体功能说明

整体架构 内核特性 CM3内核支持3级流水哈佛结构 :数据和指令隔离Blanked SP :两个堆栈,一个堆栈只允许系统操作,另一个堆栈开放给用户。Handler and Thread modes低延迟中断进入和退出支持非对齐操作 嵌套中断向量 最大支持1-240…

前端+php:实现提示框(自动消失)

效果 php部分&#xff1a;只展示插入过程 <?php//插入注册表中$sql_insert "INSERT INTO regist_user(userid,password,phone,email)VALUES (" . $_POST[UserID] . "," . CryptPass($_POST[Password]) . "," . $_POST[Phone] . ",&qu…

【AI视野·今日NLP 自然语言处理论文速览 第八十期】Fri, 1 Mar 2024

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 1 Mar 2024 Totally 67 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling Authors G…

从零开始学习Netty - 学习笔记 -Netty入门【协议设计和解析】

2.协议设计和解析 协议 在计算机中&#xff0c;协议是指一组规则和约定&#xff0c;用于在不同的计算机系统之间进行通信和数据交换。计算机协议定义了数据传输的格式、顺序、错误检测和纠正方法&#xff0c;以及参与通信的各个实体的角色和责任。计算机协议可以在各种不同的层…