LoRA: 大模型的低秩适配

图片

笔记整理:陈一林,东南大学硕士,研究方向为不确定知识图谱规则学习

链接:https://arxiv.org/abs/2106.09685

1、动机

自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练,然后对特定任务或领域进行适应性调整。随着我们预训练更大的模型,全量微调,即重新训练所有模型参数,变得不太可行。以GPT-3 175B为例 - 部署独立的微调模型实例,每个模型有175B个参数,成本过高。我们提出了低秩适应(Low-Rank Adaptation),简称LoRA,它冻结了预训练模型的权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,大大减少了用于下游任务的可训练参数数量。与使用Adam微调的GPT-3 175B相比,LoRA可以将可训练参数的数量减少10,000倍,并将GPU内存需求减少3倍。LoRA在RoBERTa、DeBERTa、GPT-2和GPT-3的模型质量上表现与微调相媲美甚至更好,尽管可训练参数更少,训练吞吐量更高,并且与Adapter不同,没有额外的推理延迟。本文还提供了关于语言模型适应中秩亏损的实证研究,这些研究有助于阐明LoRA的有效性。

2、特性

一个预训练模型可以用来构建许多LoRA模块,每个模块对应不同的任务,通过简单替换LoRA模块,模型就可以获得不同任务的微调效果。

LoRA不需要保存大部分参数的梯度和优化器状态,只需要优化注入的低秩矩阵,降低了3倍的硬件资源需求。

在部署时,由于LoRA注入的是简单的线性层,可以直接将LoRA的训练参数与预训练模型的冻结参数合并,没有任何推理延迟。

LoRA与目前的方法互不影响,可以与其配合使用,如prefix-tuning。

3、方法

神经网络有很多计算矩阵乘法的稠密层,这些层中的矩阵都是满秩的,但是在适应特定任务时,预训练语言模型表现出有更小的“本质秩”(instrisic rank),也就是即使将这些矩阵投影到更小的空间中,模型依然可以有效学习。受此启发,假设在微调过程中,预训练模型参数的更新量也有较小的“本质秩”,可以对其做低秩矩阵分解,公式化表达如下:

图片

其中,W0 ∈ Rd×k是预训练参数,∆W是参数更新量,B∈ Rd×r ,A∈ Rr×k,是分解后的低秩矩阵,满足r << min(d, k)。对A使用随机高斯初始化,对B使用零初始化,因此ΔW = BA在训练开始时为零。通过α/r缩放ΔWx,其中α是小于r的常数,这样在调整r时可以避免对超参数过多的重调。

图片

将LoRA用到Transformer中,主要是对Transformer架构中的自注意力模块注入参数,自注意力模块有四个权重矩阵,即WQ,WK,WV,WO,在训练下游任务时,只训练这四个权重矩阵,其余参数直接冻结。

4、资源占用情况

由于不需要存储被冻结参数的优化器状态,需要的显存为原来的1/3。在GPT-3 175B模型上,原先需要1.2TB的显存才可以训练,使用LoRA后只需要350GB即可,当r设置为4,且只调整query和value矩阵时,需要的显存进一步从350GB降至35MB。

5、实验

5.1 推理延迟对比

图片

表格解释:GPT-2中等模型的单次前向传递推理延迟,以毫秒为单位测量,平均值基于100次试验。使用NVIDIA Quadro RTX8000。"|Θ|"表示Adapter层中可训练参数的数量。AdapterL和AdapterH是适配器调整的两个变种。适配器层引入的推理延迟在在线、短序列长度场景中均比较明显。

5.2 GLUE数据集测试

图片

表格解释:RoBERTabase, RoBERTalarge, and DeBERTaXXL作为基座模型,配合不同的微调方式的效果,与LoRA方法进行对比。各项指标越高代表模型效果越好。

5.3 E2E 自然语言生成挑战

图片

表格解释:测试了GPT-2 medium和GPT-2 large配合不同微调方式的效果。各项指标越高代表模型效果越好。

5.4 GPT-3基座模型测试

图片

表格解释:测试了GPT-3配合不同微调方式的效果,LoRA的表现甚至超过全量微调。

6、总结

LoRA是一种有效的微调策略,既不引入推理延迟,也不减少输入序列长度,同时保持高模型质量。重要的是,当作为服务部署时,它可以通过共享绝大多数模型参数来快速切换任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/3222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVA10迭代更新

文章目录 1 概述2 语法层次的变化1_局部变量的类型推断 3 API层次的变化1_集合中新增copyOf创建只读集合2_Optional 新增了orElseThrow方法 4 其他1_垃圾回收器接口2_G1 并行 Full GC3_应用程序类数据共享(扩展 CDS 功能)4_实验性的基于 Java 的 JIT 编译器 1 概述 2018年3月21…

新能源汽车小米su7

小米su7汽车 function init() {const container document.querySelector( #container );camera new THREE.PerspectiveCamera( 20, window.innerWidth / window.innerHeight, 1, 50000 );camera.position.set( 0, 700, 7000 );scene new THREE.Scene();scene.background ne…

vue项目中基于fabric 插件实现涂鸦画布功能

vue项目中基于fabric 插件实现涂鸦画布功能 一、效果图二、安装依赖三、main.js引入四、主要代码 一、效果图 二、安装依赖 npm install fabric 三、main.js引入 import fabric from fabric Vue.use(fabric);四、主要代码 //封装成了一个组件 <template><el-dialogt…

FlashSpeech、ID-Animator、TalkingGaussian、FlowMap、CutDiffusion

本文首发于公众号&#xff1a;机器感知 FlashSpeech、ID-Animator、TalkingGaussian、FlowMap、CutDiffusion Gradient Guidance for Diffusion Models: An Optimization Perspective Diffusion models have demonstrated empirical successes in various applications and ca…

《MATLAB科研绘图与学术图表绘制从入门到精通》示例:绘制婴儿性别比例饼图

在MATLAB 中可以使用 pie 函数来创建饼图。饼图是一种展示不同部分占总体的相对比例的图表。 本示例从“婴儿出生数据.csv”文件读取婴儿出生数据&#xff0c;然后计算男性和女性婴儿的数量&#xff0c;使用MATLAB绘制饼图。 配套图书链接&#xff1a;https://item.jd.com…

AI图书推荐:AI驱动的图书写作工作流—从想法构思到变现

《AI驱动的图书写作工作流—从想法到变现》&#xff08;AI-Driven Book Creation: From Concept to Cash&#xff09;是Martynas Zaloga倾力打造的一本实用指南&#xff0c;它巧妙地将写作艺术与人工智能前沿技术相结合。此书不仅揭示了AI在图书出版领域的无限潜力&#xff0c;…

应用层协议 -- HTTPS 协议

目录 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 2、理解“加密” 二、对称加密 1、理解对称加密 2、对称加密存在的问题 三、非对称加密 1、理解非对称加密 2、中间人攻击 3、CA 证书和数字签名 四、总结 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 HTTPS 也是…

fatal: unable to access ‘https://github.com/alibaba/flutter_boost.git/

Git error. Command: git fetch stdout: stderr: fatal: unable to access ‘https://github.com/alibaba/flutter_boost.git/’: Failed to connect to github.com port 443 after 75005 ms: Couldn’t connect to server exit code: 128 GitHub (国际型)代码 分发平台/托管平…

Mycat(一)入门概述

文章目录 概述作用原理 Mycat1.x 与 Mycat2 功能对比1.x 与 2.0 功能对比图 Mycat2 相关概念概念描述 配置文件1、服务&#xff08;server&#xff09;2、用户&#xff08;user&#xff09;3、数据源&#xff08;datasource&#xff09;4、集群&#xff08;cluster&#xff09;…

车企的数智化“内功”,大模型帮修炼

文&#xff5c;白 鸽 编&#xff5c;王一粟 时隔4年回归的北京车展&#xff0c;遇上了中国智能汽车的热潮。 开年价格战的持续洗礼&#xff0c;不仅让一众中国车企都慌得一批&#xff0c;也让全球巨头特斯拉也面临一季度销量大跌局面。 与此同时&#xff0c;智能汽车还在…

C++初识内存管理和模版

目录 前言 1.C/C内存分布 2. C的内存管理方式 2.1 new/delete操作内置类型 2. new和delete操作自定义类型 3. operator new和operator delete函数 4. new和delete的实现原理 4.1 内置类型 4.2 自定义类型 5. malloc/free和new/delete的区别 6. 初识模版 6.1 泛型编…

ERROR: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

今天本来想在A服务器上传文件给B服务器的结果发现明明给root用户设置了密码就是远程登陆不了&#xff0c;后来才发现在容器中很多服务都是没有的&#xff0c;所以刚安装后忘记了修改配置文件&#xff0c;导致远程登陆失败。 报错&#xff1a; 解决方法&#xff1a; 在/etc/ssh…

申请高德地图,报错INVALID_USER_SCODE处理

配置上key后 报错&#xff1a; 解决&#xff1a;将应用类型修改为出行&#xff0c;问题解决 扩展&#xff1a;应用申请 进入应用管理&#xff0c;创建新应用&#xff08;这里我选了导航&#xff0c;就报了上边的错误&#xff09; 新应用中添加 key&#xff0c;服务平台选择…

static和extern关键字详解

目录 创作不易&#xff0c;如对您有帮助&#xff0c;还望一键三连&#xff0c;谢谢&#xff01;&#xff01;&#xff01; 回顾 1.作用域和声明周期 1.1作用域 1.2生命周期 2.static和extern 2.1extern 2.2static 2.2-1static修饰局部变量 2.2-2static修饰全局变量 创…

解决在服务器中减少删除大文件夹耗时太久的问题

在数据驱动的现代商业环境中&#xff0c;企业对服务器的高效运作有着极高的依赖性。然而&#xff0c;IT管理员们常常面临一个棘手的问题&#xff1a;删除服务器上的大型文件夹过程缓慢&#xff0c;这不仅降低了工作效率&#xff0c;还可能对用户体验造成负面影响。本文将介绍一…

2024 年 Rust 开发者路线图

Rust 近年来因其对性能、安全性和并发性的关注而广受欢迎。作为一名开发人员&#xff0c;掌握 Rust 可以为各种机会打开大门&#xff0c;包括 Web 开发。 在 github 上发现了这个优秀的路线图&#xff0c;由 Anshul Goyal 创建&#xff0c;它提供了一条全面的路径&#xff0c;概…

MIEC CS172(Prolog)

Chapter 1 and 2 Fact Facts: Facts are statements that areassumed to be true. The dot ‘.’ character must come at the end of a fact. Example: We want to tell “John likes Mary” : English interpretation The standard form of fact in Prolog Likes (john, ma…

怎么用AI绘画进行人物修复?

用过AI绘画生成人物图片的朋友们是不是都碰到过这样的问题&#xff1a;诡异的造型、崩坏的五官、离谱的手指头、乱七八糟的背景...指望AI一次性生成百分百完美的图貌似有点难啊。 现在AI绘画有了【脸部修复】【手部修复】功能&#xff0c;就能够轻松解决这些的问题了&#xff0…

Facebook的时间机器:回溯社交媒体的历史

1. 社交媒体的起源与早期模式 社交媒体的历史可以追溯到互联网的早期发展阶段。在Web 1.0时代&#xff0c;互联网主要是一个信息发布平台&#xff0c;用户主要是被动地接收信息。但随着Web 2.0的兴起&#xff0c;互联网逐渐转变为一个互动和参与的平台&#xff0c;社交媒体应运…

2024.4.23 关于 LoadRunner 性能测试工具详解 —— VUG

目录 引言 LoadRunner 三大组件之间的关系 LoadRunner 脚本录制 启动并访问 WebTours 脚本录制 编译 运行&#xff08;回放&#xff09; LoadRunner 脚本加强 事务插入 插入集合点 插入检查点 参数化 ​编辑 打印日志 引言 问题&#xff1a; 此处为啥选择使用 Lo…