极少数据就能微调大模型,一文详解LoRA等方法的运作原理

原文:极少数据就能微调大模型,一文详解LoRA等方法的运作原理

最近和大模型一起爆火的,还有大模型的微调方法。

这类方法只用很少的数据,就能让大模型在原本表现没那么好的下游任务中“脱颖而出”,成为这个任务的专家。

而其中最火的大模型微调方法,又要属LoRA。

但包括LoRA在内,这类方法的核心原理究竟是什么?它和大模型之间的关系又是什么?我们具体来看。

一、前言

先从最近大火的LoRA(《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGEMODELS》)说起。

该文章在ICLR2022中提出,说的是利用低秩适配(low-rankadaptation)的方法,可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。

LoRA是怎么去微调适配下游任务的?

流程很简单,LoRA利用对应下游任务的数据,只通过训练新加部分参数来适配下游任务。

而当训练好新的参数后,利用重参的方式,将新参数和老的模型参数合并,这样既能在新任务上到达fine-tune整个模型的效果,又不会在推断的时候增加推断的耗时。

LoRA的示意图如下:

图中蓝色部分为预训练好的模型参数,LoRA在预训练好的模型结构旁边加入了A和B两个结构,这两个结构的参数分别初始化为高斯分布和0,那么在训练刚开始时附加的参数就是0。

A的输入维度和B的输出维度分别与原始模型的输入输出维度相同,而A的输出维度和B的输入维度是一个远小于原始模型输入输出维度的值,这也就是low-rank的体现(有点类似Resnet的结构),这样做就可以极大地减少待训练的参数了。

在训练时只更新A、B的参数,预训练好的模型参数是固定不变的。在推断时可以利用重参数(reparametrization)思想,将AB与W合并,这样就不会在推断时引入额外的计算了。

而且对于不同的下游任务,只需要在预训练模型基础上重新训练AB就可以了,这样也能加快大模型的训练节奏。

由于本文不具体介绍LoRA,所以详细信息可以查看LoRA原文。我们只需要知道LoRA文章后续的实验已经论证该方法的有效性。

那么进一步思考,为什么LoRA的这种思路能work得不错呢?

答案就是接下来要讲的本征维度(Intrinsic dimension)了。

这点LoRA原文也提到过,该文章灵感来源于下面两篇文章:

1、MEASURING THE INTRINSIC DIMENSION OF OBJECTIVE LANDSCAPES,发表在ICLR2018,为了方便接下来该论文称为【论文1】

2、INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGEMODEL FINE-TUNING,发表在ACL2021,为了方便接下来该论文称为【论文2】

二、本征维度是什么?

本征维度的概念在【论文1】中提出。

训练一个神经网络往往包含如下几步:

1、对于一个给定的数据集,先设计网络的结构和选择对应的loss2、对网络中的参数进行随机的初始化3、训练网络使得loss越来越低

而训练阶段可以认为是在一个固定的目标图(objective landscape)上,寻找出有效的路径。

这里解释一下为什么是固定的目标图。因为在数据集和网络结构固定下来后,待优化的问题就已经定义好了,所以目标图也就是确定的了。

如下图所示:

那么对于一个参数量为D的模型

,我们训练该模型,也就意味着在D维空间上寻找有效的解。文章认为D可能是冗余的,可能实际上只需要优化其中的d个参数就可以找到一个有效的解。

用公式表示如下:

其中

表示D维的优化参数,

表示随机初始化的一个参数并且在训练时是不进行更新的,P是一个随机初始化的D×d大小的矩阵且训练时也不进行更新,

表示待优化的d维参数。

也就是说可以在训练网络时只更新d维参数,就可以达到该网络应有的效果。那么这个d就是所谓的该模型的本征维度。

这里讲完可能还有点晕,我们看一下如下这张图:

上图中,蓝色部分为初始化好的网络参数

,绿色为

,红色为

。网络训练的时候只训练红色部分,其它参数都是固定的。d就是本征维度。

上面讲的只更新d维参数,让网络达到应有的效果,那么什么应有的效果呢?文章定义,在只更新d维参数的情况下,网络效果达到训练原始模型时效果的90%时,那么就认为达到了“应有的效果”,并且d就为本征维度。

例如在做mnist这个数字分类任务时,如果原始模型精度能到0.9,那么在只更新d维参数的时候,精度能够达到90%×0.9=0.81,就认为这时候的d为本征维度记为。

三、使用本征维度思考大模型微调的有效性

【论文2】将之前提出的本征维度用来思考大模型微调的有效性,为什么现在用几百或者几千张图片就可以对大模型进行有效的微调?

根据【论文1】阐述,对于某一类问题,在一定精度上(比如达到90%的精度)有本征特征的存在。对于大模型而言,进行本征维度的测试就能知道在解决某一类下游问题时,需要调整多少参数就能近似的解决当前的问题。

如果真的有实验能证明仅仅调整少数的参数就能很好的解决下游问题,那么也就能回答上述问题,即对大模型做少量的微调(调整少量的参数),就能解决当前的问题。

下面无特殊说明的话,“文章”指的都是【论文2】

3.1 对于大模型而言,是否存在本征维度?

同【论文1】一样,【论文2】也利用公式

来进行模型的训练,即训练时只调整d维参数

。但与【论文1】的实验有点不同的是,【论文1】中

是随机初始化的,而【论文2】中

是预训练好的参数。

【论文2】首先选择BERT-Base\BERT-Large\RoBERTa-Base\RoBERTa-Large四个模型,并选择GLUE benchmark中的MRPC和QQP两个数据集(两个数据集都是用来测试句子对是否相同意义的任务)。

上下两个子图分别表示MRPC和QQP两个任务,每个子图有四条实线表示四个模型的准确率,四条虚线表示达到fine-tune整个模型90%的准确率的值,横坐标表示训练d维的大小。从图中可以看出两个任务,四个不同的模型,只需要训练较小的d维参数就可以达到90%的精度。本征维度这个概念在大模型中是成立的。

所以在训练某个下游任务时,只需要训练少量参数就能达到不错的效果了。这时文章开头的问题就已经解决了。但是作者做了一些其他的实验,发现了一些有意思的结论。

3.2 预训练的好坏与本征维度的关系

文章提出这样一个假设,预训练模型能够隐式地降低模型在NLP各个任务的本征维度。

基于这个猜想,文章做了下面实验,在预训练RoBERTa-base模型的时候,每隔10K保存下对应的预训练模型,然后测试保存下来的预训练模型在MRPC、QQP、Yelp Polarity、SST-2、MNLI、ANLI六个数据集本征维度。

结果如下:

可以看出,在不同数据集上有相同的趋势,就是预训练次数越多,模型在各个任务上的本征维度越低。实验并没有特意去优化所谓的本征维度,只是预训练久一点而已。所以印证了预训练模型的表征能力越强(训练得越好),本征维度越小。

3.3 预训练模型参数与本征维度的关系

本来在做预训练参数与本征维度关系的时候,需要统一模型的结构,这样更有说服力。但是作者说,这样要训练很多大模型的实验,为了更方便的对比文章根据已有的结构来做实验。从实验结果的趋势来看,不同结构也能得到有效的结论。

文章利用已有的预训练模型,在MRPC数据集上计算本征维度。

实验结果如下:

上图中纵坐标表示本征维度的值,横坐标表示模型的参数量。从图中的趋势可以明显看出,模型越大本征维度越小,即越强的模型本征维度越低。

3.4 本征维度与泛化能力的关系

上面介绍了fine-tune(3.1)、预训练(3.2)和本征维度的关系,但本征维度与泛化能力的关系还没有验证。即我们现在知道了让本征维度小的方式,但是本征维度小了,泛化能力就能上去吗?

文章又做了下面的实验,把3.2保存下来的模型,在对应的的本征维度上,进行不同数据集的测试,结果如下:

可以看出本征维度低的模型,训练出来的模型准确率是更高的。也就是说本征维度越低,泛化性能越好。

回到引言的问题:为什么LoRA思路能work?

因为大模型存在本征维度的概念,只需要调整少量参数就能在下游任务上得到很好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/611060.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第87讲:XtraBackup备份工具的核心技术要点及全库备份、恢复案例

文章目录 1.XtraBackup备份工具的简介2.XBK备份工具的安装3.XBK备份工具的使用语法4.XBK备份前的准备5.使用XBK对全库进行备份5.1.XBK备份全库数据的语法格式5.2.使用XBK进行全库备份5.3.查看XBK备份的数据文件5.4.备份过程中生产的XBK文件 6.模拟故障案例并使用XBK恢复备份的数…

openssl3.2 - 官方dmeo学习 - server-arg.c

文章目录 openssl3.2 - 官方dmeo学习 - server-arg.c概述笔记备注END openssl3.2 - 官方dmeo学习 - server-arg.c 概述 TLS服务器, 等客户端来连接; 如果客户端断开了, 通过释放bio来释放客户端socket, 然后继续通过bio读来aceept. 笔记 对于开源工程, 不可能有作者那么熟悉…

Python操作excel-读取、表格填充颜色区分

1.场景分析 遇到一个需要读取本地excel数据,处理后打入到数据库的场景,使用java比较重,python很好的解决了这类问题 2.重难点 本场景遇到的重难点在于: 需要根据表格内的背景颜色对数据进行筛选 读取非默认Sheet 总是出现Value…

day-05 删除子串后的字符串最小长度

思路 通过不断地检查是否含有"AB"或"CD"&#xff0c;如果有则将其从字符串中删除&#xff0c;直到"AB"或"CD"都不存在时&#xff0c;返回字符串的长度 解题方法 //检测是否有"AB" for(int i0;i<len-1;i){ if(s.charAt(i…

Python画国旗

前言 今天&#xff0c;我们来用turtle库来绘制国旗 一、美国国旗 国旗的形状是长方形;国旗的长宽之比为19:10&#xff0c;美国国旗由红、白、蓝三色组成;画面格局由两部分组成&#xff0c;旗的左上方蓝底上排列着50颗白色的星&#xff0c;6颗一排与5颗一排相间排列&#xff…

创建一个郭德纲相声GPTs

前言 在这篇文章中&#xff0c;我将分享如何利用ChatGPT 4.0辅助论文写作的技巧&#xff0c;并根据网上的资料和最新的研究补充更多好用的咒语技巧。 GPT4的官方售价是每月20美元&#xff0c;很多人并不是天天用GPT&#xff0c;只是偶尔用一下。 如果调用官方的GPT4接口&…

K8S存储卷和数据卷

容器内的目录和宿主机的目录进行挂载 容器在系统上的生命周期是短暂的&#xff0c;delete&#xff0c;k8s用控制器创建的pod&#xff0c;delete相当于重启&#xff0c;容器的状态也会恢复到初始状态&#xff0c;一旦回到初始状态&#xff0c;所有的后天编辑的文件都会消失 容器…

年轻人2023消费图鉴,媒介盒子为你揭秘

回顾近一年的消费&#xff0c;发现大家差不多都是“扣扣嗖嗖的花了很多钱”&#xff0c;如果总结2023年的大众消费关键词&#xff0c;那一定是更加“理性”&#xff0c;据艾瑞咨询《2023年中国消费者洞察白皮书》显示&#xff0c;“精细化”成为2023年的消费关键词&#xff0c;…

十二、QProgressBar的简单使用与样式优化(Qt5 GUI系列)

目录 一、设计需求 二、实现代码 三、代码解析 四、总结 五、扩展(自定义QProgressBar样式) 一、设计需求 在很多应用程序中&#xff0c;在执行费时操作时都会展示一个进度条来展示操作进行的进度。常见的场景&#xff0c;如&#xff1a;拷贝操作、安装操作以及卸载操作。…

Unity组件开发--AB包打包工具

1.项目工程路径下创建文件夹&#xff1a;ABundles 2.AB包打包脚本&#xff1a; using System.Collections.Generic; using System.IO; using UnityEditor; using UnityEditor.SceneManagement; using UnityEngine; using UnityEngine.SceneManagement;public class AssetBundle…

Vue入门三(表单控制|购物车案例|v-model进阶|与后端交互|计算属性|监听属性|Vue生命周期)

文章目录 一、表单控制二、购物车案例三、v-model进阶四、与后端交互跨域问题解决&#xff0c;三种交互方法跨域问题详解1-CORS&#xff1a;后端代码控制&#xff0c;上面案例采用的方式1) 方式一&#xff1a;后端添加请求头2) 方式二&#xff1a;编写中间件3) 方式三&#xff…

代理IP连接不上?网速过慢?自查与解决方法

当您使用代理时&#xff0c;您可能会遇到不同的代理错误代码显示代理IP连不通、访问失败、网速过慢等种种问题。 在本文中中&#xff0c;我们将讨论您在使用代理IP时可能遇到的常见错误、发生这些错误的原因以及解决方法。 一、常见代理服务器错误 当您尝试访问网站时&#…

Mysql系列-1.Mysql基本使用

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring源码、JUC源码、Kafka原理、分布式技术原理、数据库技术&#x1f525;如果感觉博主的文章还不错的…

RT-Thread基于AT32单片机的485应用开发(二)

在上篇RT-Thread基于AT32单片机的485应用开发&#xff08;一&#xff09;中实现了RS485收发&#xff0c;但总觉得效率不高&#xff0c;函数封装也不完善。考虑到RS485总线应用都是主从式结构&#xff0c;比如工业领域常用的Modbus协议&#xff0c;都是以帧为单位进行收发&#…

【python】内存管理和数据类型问题

一、内存管理 Python有一个自动内存管理机制&#xff0c;但它并不总是按照期望的方式工作。例如&#xff0c;如果创建了一个大的列表或字典&#xff0c;并且没有删除它&#xff0c;那么这个对象就会一直占用内存&#xff0c;直到Python的垃圾回收器决定清理它。为了避免这种情…

【Verilog】运算符

系列文章 数值&#xff08;整数&#xff0c;实数&#xff0c;字符串&#xff09;与数据类型&#xff08;wire、reg、mem、parameter&#xff09; 系列文章算术运算符关系运算符相等关系运算符逻辑运算符按位运算符归约运算符移位运算符条件运算符连接和复制运算符 算术运算符 …

全志T113开发板Qt远程调试

1引言 通常情况下工程师在调试Qt程序时&#xff0c;需要频繁制作镜像烧录到核心板来测试Qt程序是否完善&#xff0c;这样的操作既费时又费力。这时我们可以通过QtCreator设备功能&#xff0c;定义设备后&#xff0c;在x86_64虚拟机上交叉编译qt程序&#xff0c;将程序远程部署到…

【机器学习前置知识】狄利克雷分布

在阅读本文前&#xff0c;建议先食用以下几篇文章以能更好地理解狄利克雷分布&#xff1a; 二项分布 Beta分布 多项分布 共轭分布 狄利克雷分布 狄利克雷分布(Dirichlet distribution)是Beta分布的扩展&#xff0c;把Beta分布从二元扩展到多元形式就是狄利克雷分布&#…

你Go代码写的像“鸭子”吗???

概 述 Go 语言也提供了接口类型&#xff0c;使得我们可以面向接口编程&#xff0c;将实现和接口分离。在我看来&#xff0c;软件的抽象之美也应该以此来表达&#xff0c;和 Java 语言不同的是 Go 并不是那么 “强制”&#xff0c;它使用了一种 鸭子类型 的方式让动态类型成为可…