LoRA:低秩自适应

LoRA:低秩自适应

本章节是对轻松上手微调大语言模型——QLORA篇中提到的LoRA的原理解释。

背后动机

现今模型的参数量变得越来越大,对预训练模型进行全微调变得越来越不可行。为了解决这个问题有了LoRA(Low-Rank Adaption)的诞生。将可训练的秩分解矩阵注入到每个模型中架构的层,极大的减少下游任务的训练参数量。以GPT-3 175B微调为例,相较于以Adam微调的GPT-3 175B, LoRA 可以减少10000倍训练参数,并且所需的GPU内存减少3倍。

LORA的优势:

  • LoRA 通过大幅减少可训练参数的数量,使微调更加高效。
  • 原始预训练权重保持冻结状态,这意味着您可以拥有多个轻量级、便携式 LoRA 模 型,用于在其之上构建的各种下游任务。
  • LoRA可以与其他许多方法结合使用,比如Prefix-tuning。
  • 使用 LoRA 微调的模型的性能与完全微调的模型的性能相当

思想

在这里插入图片描述

假设我们有权重位 W 0 W_0 W0密集层,以梯度 ∇ W 0 \nabla W_0 W0更新。则新的权重为:
W 1 = W 0 + ∇ W 0 W_1=W_0+\nabla W_0 W1=W0+W0
经过 n n n次梯度下降得到:
W 2 = W 1 + ∇ W 1 W 3 = W 2 + ∇ W 2 ⋮ W n = W n − 1 + ∇ W n − 1 = W 0 + ∑ i = 0 n − 1 ∇ W i = W 0 + ∇ W W_2=W_1+\nabla W_1\\ W_3=W_2+\nabla W_2\\ \vdots\\ W_n=W_{n-1}+\nabla W_{n-1}=W_0+\sum_{i=0}^{n-1}\nabla W_i=W_0+\nabla W W2=W1+W1W3=W2+W2Wn=Wn1+Wn1=W0+i=0n1Wi=W0+W
因为现在的大模型一般是过参数化的,所以我们可以使用两个秩(r)比较低的两个矩阵 B A BA BA来拟合。

LoRA 可以应用于神经网络中权重矩阵的任何子集,以减少可训练参数的数量。然而,为了简单性和进一步的参数效率,LoRA 通常仅应用于 Transformer 模型中的注意力块。 LoRA 模型中可训练参数的数量取决于更新矩阵的大小,而更新矩阵的大小主要由秩 r 和原始权重矩阵的形状决定。

注意:由于LoRA实质上就是在原权重矩阵的基础上,加上了我们训练得到的新权重,而原始模型参数保持不变。故此,对于不同的任务,可以只保存训练的LoRA权重也就是上文提到的 ∇ W = B A \nabla W=BA W=BA,而不必多次保存原始模型,当用于不同任务时,只需卸载当前的LoRA权重,加载相应得LoRA权重即可。

一些实验性的结果

是否应该对所有参数都微调?

在这里插入图片描述

表中的 W q , W k , W v , W o W_q,W_k,W_v,W_o Wq,Wk,Wv,Wo分别表示自注意力机制的查询、键、值和输出权重参数。
从表中可看出,将所有参数都放入 ∇ W q \nabla W_q Wq ∇ W k \nabla W_k Wk会导致性能显著降低,而同时采用 ∇ W q \nabla W_q Wq ∇ W k \nabla W_k Wk会得到最好的结果。这表明,即使是4的秩也能捕获 ∇ W \nabla W W中足够多的信息,以至于采用更多的权重矩阵比采用秩更大的单一类型的权重更好。

LoRA的秩如何挑选?

在这里插入图片描述

原论文作者认为增大r并不能覆盖一个更有意义的子空间,一个低秩的适应矩阵是足够的。

LoRA原论文地址:arxiv:https://arxiv.org/pdf/2106.09685

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux命令行登录百度网盘下载文件

1、linux系统中已安装有python环境,安装bypy库和requests库安装方法如下: pip install requests -i https://pypi.doubanio.com/simple pip install bypy -i https://pypi.doubanio.com/simple # 这里我是直接使用如下命令安装的 rambop360:~$ sudo pip3…

Nginx制作下载站点

使用nginx制作一个类似nginx官网的下载站点 如何制作一个下载站点,首先需要ngx_http_autoindex_module模块 该模块处理以斜杠(“/”)结尾的请求,并生成目录列表。 nginx编译的时候会自动加载该模块,但是该模块默认是关闭的,需要使用下来指令…

3 FreeRTOS移植(从FREERTOS官网移植进自己的工程)

3 FreeRTOS移植 1 获取FreeRTOS源码(熟悉)1.1 介绍源码内容1.2 FreeRTOS内核1.2.1 Demo文件夹1.2.2 Source文件夹1.2.2.1 portable文件夹 2 FreeRTOS手把手移植(掌握)(重要)2.1 移植步骤 3 系统配置文件说明…

GraphHopper-map-navi_路径规划、导航(web前端页面版)

文章目录 一、项目地址二、踩坑环境三、问题记录3.1、graphhopper中地图问题3.1.1. getOpacity不存在的问题3.1.2. dispatchEvent不存在的问题3.1.3. vectorLayer.set(background-maplibre-layer, true)不存在set方法3.1.4. maplibre-gl.js.map不存在的问题3.1.5. Uncaught Ref…

学习记录:ESP32控制舵机 FREERTOS BLE

控制舵机 PWM信号 PWM信号是一种周期性变化的方波信号,它有两个关键参数: 周期(Period):一个完整的PWM信号的时间长度,通常用秒(s)或毫秒(ms)表示。占空比…

【音视频SDL2入门】创建第一个窗口

文章目录 前言创建窗口的流程需要使用的函数1. 初始化 SDL 库2. 创建 SDL 窗口3. 获取与窗口关联的表面SDL_FillRect 函数介绍4. 更新窗口表面5. 延迟一定时间6. 销毁窗口并退出 SDL 库示例代码总结 前言 SDL2(Simple DirectMedia Layer)是一个跨平台的…

Flask jsonify 格式化 DateTime

前言 搜索发现 提供的 代码都不能实现 以下 是我的环境 Python 3.10.14 Flask 3.0.3 Werkzeug 3.0.3 解析 Flask 的 Json 方法是由 flask.json.provider.DefaultJSONProvider 代理实现 调用 flask.json.provider._default 做具体的格式化 思路: 掩盖原方法 指向 …

C++ STL remove, remove_if 用法

一&#xff1a;功能 移除序列中&#xff08;满足给定条件&#xff09;的元素&#xff0c;该操作并不是真的将元素删除&#xff0c;而是序列的size不变&#xff0c;只是更新了迭代器&#xff0c;该函数会返回最后一个未删除元素的位置。 二&#xff1a;用法 #include <vect…

FFmpeg解复用器如何从封装格式中解析出不同的音视频数据

目录 1、ffmpeg介绍 2、FFMPEG的目录结构 3、FFmpeg的格式封装与分离 3.1、数据结构 3.2、封装和分离(muxer和demuxer) 3.2.1、Demuxer流程 3.2.2、Muxer流程 4、总结 4.1、播放器 4.2、转码器 C++软件异常排查从入门到精通系列教程(专栏文章列表,欢迎订阅,持续…

微服务上(黑马)

文章目录 微服务011 认识微服务1.1 单体架构1.2 微服务1.3 SpringCloud 2 微服务拆分2.1 熟悉黑马商城2.2 服务拆分原则2.2.1.什么时候拆2.2.2.怎么拆 2.3 拆分服务2.3.1 拆分商品管理功能模块2.3.2 拆分购物车功能模块 2.4 远程调用2.4.1 RestTemplate2.4.2.远程调用 2.5 总结…

顺序表算法题

在学习了顺序表专题后&#xff0c;了解的顺序表的结构以及相关概念后就可以来试着完成一些顺序表的算法题了&#xff0c;在本篇中将对三道顺序表相关的算法题进行讲解&#xff0c;希望能对你有所帮助&#xff0c;一起加油吧&#xff01;&#xff01;&#xff01; 1.移除元素 2…

nginx转发netty长链接(nginx负载tcp长链接配置)

首先要清楚一点&#xff0c;netty是长链接是tcp连接不同于http中负载在http中配置server监听。长连接需要开启nginx的stream模块(和http是并列关系) 安装nginx时注意开启stream&#xff0c;编译时加上参数 --with-stream &#xff08;其他参数根据自己所需来加&#xff09; …

如何做code review(嵌入式行业)

1. 什么是Code Review 2. Code Review利弊 2.1. 利 降低错误风险提升编码能力方便负责人把控项目 2.2. 弊 影响工作效率执行不到位&#xff0c;反而导致意义缺失 3. 代码规范 code review的标准体现 4. Code Review流程 5. 问题与规避方案

把本地项目推送到远程仓库

笔记背景&#xff1a;刚刚在本地创建了一个新项目 project&#xff0c;需要推送到git 在git上创建一个名为 project 的远程仓库&#xff0c;创建完成后现在远程仓库是空的本地打开 project 项目&#xff0c;初始化git仓库 git init把当前工作目录中所有变动&#xff08;包括新…

脊髓损伤的小伙伴锻炼贴士

Hey小伙伴们~&#x1f44b; 今天要跟大家聊一个超燃又超温馨的话题&#xff01;&#x1f31f; 对于我们脊髓损伤的小伙伴们来说&#xff0c;保持身体活力&#xff0c;不仅是健康的小秘诀&#xff0c;更是拥抱美好生活的超能量哦&#xff01;&#x1f4aa; #脊髓损伤# 首先&…

Cache 替换策略--PLRU算法详解

一、引言 LRU&#xff08;Least Recently Used&#xff09;是 cache 的经典替换策略之一&#xff0c;但当 Cache 的路数比较大时&#xff08;多路组相连结构&#xff09;&#xff0c;实现 LRU 的硬件开销就会变得很大。现代处理器一般会考虑使用 PLRU&#xff08;pseudo-LRU&a…

一文带你搞懂C++运算符重载

7. C运算符重载 C运算符重载 什么是运算符重载 运算符重载赋予运算能够操作自定义类型。 运算符重载前提条件&#xff1a; 必定存在一个自定义类型 运算符重载实质: 就是函数调用 友元重载 类重载 在同一自定义类型中&#xff0c;一个运算符只能被重载一次 C重载只能重载…

人工智能与机器学习原理精解【5】

文章目录 最优化基础理论特征值&#xff08;Eigenvalue&#xff09;特征向量&#xff08;Eigenvector&#xff09;特征值和特征向量的重要性计算方法特征值一、特征值分解的定义二、特征值分解的算法三、特征值分解的例子 正定矩阵Hessian矩阵的特征值Hessian矩阵的含义Hessian…

记Redis 被攻击,数据被定时清除的问题

问题描述 搞自己项目的时候&#xff0c;在云服务器上部署了redis&#xff0c;没有设密码&#xff0c;结果用了几天发现数据老是丢失&#xff0c;排查了过期时间以及内存大小都没有问题&#xff0c;然后注意到了几个陌生的backup1、buckup2、backup3、backup4数据&#xff1a; …