LORA_ LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

paper: https://arxiv.org/pdf/2106.09685.pdf
code: https://github.com/microsoft/LoRA

摘要

作者提出了低秩自适应,或称LoRA,它冻结了预先训练的模型权值,并将可训练的秩分解矩阵注入变压器架构的每一层,大大减少了下游任务的可训练参数的数量。
学习到的过度参数化模型实际上存在于一个较低的内在维度上。作者假设模型适应过程中权重的变化也具有较低的“内在秩”,这导致了作者提出的低秩适应(LoRA)方法。LoRA允许作者通过优化适应过程中密集层变化的秩分解矩阵来间接训练神经网络中的一些密集层,同时保持预先训练的权值冻结,如图1所示。
image.png

方法

一个神经网络包含许多密集的层,它们可以执行矩阵乘法。这些层中的权重矩阵通常具有全秩。Aghajanyan等人在2020年的一项研究发现,即预训练语言模型在面向特定任务时显示出一种特殊的属性:它们具有低“内在维度”。这意味着,尽管这些模型可能包含数百万到数十亿的参数,代表着极其高维的参数空间,但当它们适应或学习新的特定任务时,实际上只需要一个相对较小的参数子集。简单来说,模型能够在这样一个由较少参数构成的“更小的子空间”内有效地学习和适应。受此启发,作者假设权重的更新在适应过程中也有一个较低的“内在秩”。对于预先训练的权值矩阵 W 0 ∈ R d × k W_0∈R^{d×k} W0Rd×k,作者用低秩分解 W 0 + ∆ W = W 0 + B A W_0 +∆W=W_0+BA W0+W=W0+BA表示后者来约束其更新,其中 B ∈ R d × r B∈R^{d×r} BRd×r A ∈ R r × k A∈R^{r×k} ARr×k和秩 r ≪ m i n ( d , k ) r \ll min(d,k) rmin(d,k)。在训练过程中, W 0 W_0 W0被冻结,不接收梯度更新,而A和B包含可训练的参数。注意, W 0 W_0 W0 ∆ W = B A ∆W=BA W=BA都与相同的输入相乘,它们各自的输出向量按坐标求和。对于 h = W 0 x h = W_0x h=W0x,作者修改后的前向公式为: h = w 0 x + △ W x = w 0 x + B A x h=w_0x+\bigtriangleup Wx=w_0x+BAx h=w0x+Wx=w0x+BAx。如图1所示,首先初始化(对A使用高斯初始化,B初始化为0),所以 ∆ W = B A ∆W=BA W=BA在训练开始时为零。然后作者用 α r \frac{\alpha}{r} rα缩放 ∆ W x ∆Wx Wx(即相乘),其中α是r范围的一个常数,固定 α \alpha α一开始的 r r r,将 r r r作为超参数调整。当作者改变r时,这种缩放有助于减少重新调优超参数的需要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/746172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

alibaba druid 数据库连接池入门介绍

Apache druid Druid是Java语言中最好的数据库连接池。Druid能够提供强大的监控和扩展功能。 快速开始 maven <dependency><groupId>com.alibaba</groupId><artifactId>druid</artifactId><version>1.2.15</version> </depend…

python实现websocket

WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议。它允许客户端和服务器之间进行实时数据传输&#xff0c;而不是像 HTTP 协议那样&#xff0c;每次请求都需要建立新的连接。WebSocket 协议最初是由 HTML5 定义的&#xff0c;旨在提供一种更有效的替代方案&#xff0c;…

Python爬虫实战入门:豆瓣电影Top250(保你会,不会来打我)

文章目录 需求所需第三方库requests模块lxml模块了解 lxml模块和xpath语法xpath语法-基础节点选择语法 实战教程完整代码 需求 目标网站: https://movie.douban.com/top250 需求: 爬取电影中文名、英文名、电影详情页链接、导演、主演、上映年份、国籍、类型、评分、评分人数, …

AIGC笔记--关节点6D位姿按比例融合

1--核心代码 6D位姿一般指平移向量和旋转向量&#xff0c;Maya软件中关节点的6D位姿指的是相对平移向量和欧拉旋转向量&#xff1b; 为了按比例融合两个Pose&#xff0c;首先需要将欧拉旋转向量转换为旋转矩阵&#xff0c;在将旋转矩阵转换为四元数&#xff0c;利用球面线性插值…

springboot项目自定义切面增强方法功能(springboot记录日志)

说明 背景&#xff1a;记录系统接口日志入库&#xff0c;包含接口方法、入参、回参、响应时间、操作人、操作时间等信息。 方案&#xff1a;添加自定义切面处理 一、自定义切面注解 package com.gstanzer.supervise.annotation;import com.gstanzer.supervise.enums.Busine…

中宣部防沉迷系统PHP版本(管局防沉迷验证-PHP-全版本-接口测试样例)

现在对接游戏&#xff0c;无论是登录还是支付都是要去对接防沉迷实名认证接口&#xff0c;但前期的话你要登录网络游戏防沉迷实名认证系统进行接口测试&#xff0c;$appid &#xff0c;$bizId&#xff0c;$key去接口测试页面找&#xff08;正式上线在密钥管理&#xff09;&…

【LeetCode每日一题】2864. 最大二进制奇数

一.题目要求 给你一个 二进制 字符串 s &#xff0c;其中至少包含一个 ‘1’ 。 你必须按某种方式 重新排列 字符串中的位&#xff0c;使得到的二进制数字是可以由该组合生成的 最大二进制奇数 。 以字符串形式&#xff0c;表示并返回可以由给定组合生成的最大二进制奇数。 注…

基于jsp+mysql+Spring+mybatis的SSM汽车保险理赔管理系统设计和实现

基于jspmysqlSpringmybatis的SSM汽车保险理赔管理系统设计和实现 博主介绍&#xff1a;多年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐…

vue3速查笔记

文章目录 一、创建Vue3.0工程1.使用 vue-cli 创建2.使用 vite 创建 二、常用 Composition API1.拉开序幕的setup2.ref函数3.reactive函数4.Vue3.0中的响应式原理vue2.x的响应式Vue3.0的响应式 5.reactive对比ref6.setup的两个注意点7.计算属性与监视1.computed函数2.watch函数3…

find_package 总结

本文参考&#xff1a;“轻松搞定CMake”系列之find_package用法详解 原理 find_package 即在指定目录CMAKE_MODULE_PATH 或 CMAKE_PREFIX_PATH查找对应的cmake文件。 find 模式 Module模式(默认)&#xff1a;查询Findxxx.cmake配置文件, 在CMAKE_MODULE_PATH 目录Config模式…

UGUI Text 重写Spacing字体间距

using UnityEngine; using UnityEngine.UI;[AddComponentMenu("UI/Effect/UGUITextSpacing")] [RequireComponent(typeof(UnityEngine.UI.Text))]//Text组件是必须的 public class UGUITextSpacing : BaseMeshEffect {public enum HorizontalAligmentType{Left,Cente…

Linux系统运维脚本:如何检测出Linux的僵尸进程、并清除僵尸进程

目 录 一、僵尸进程的定义及其危害 1、僵尸进程的定义 2、僵尸进程的危害 二、如何检测linux的僵尸进程 1、使用Top命令&#xff1a; 2、使用ps命令&#xff1a; 三、如何清除linux的僵尸进程 1. 确保父进程正确回收子进程 2. 重启父进程 3. 使用ini…

Mysql数据库“消失”的对象校验

文章目录 一、前言二、问题三、问题排查四、解决方式1.存储过程和函数的definer&#xff1a;2.修改event的definer:3.修改view的definer&#xff1a; 五、结束语 一、前言 最近在配合系统开发商进行上线的过程中&#xff0c;遇到了一个问题&#xff0c;从这个问题上&#xff0…

[SaaS] 家作->装修设计师

淘宝设计AI&#xff0c;人人都能成为装修设计师构建用户对未来家的想象&#xff0c;是家装家居多年来持续探索的方向&#xff0c;如今我们用AI帮助用户“更快、更好、更简单”看到自己未来的家。https://mp.weixin.qq.com/s/Pk1xztEd17JefXp79FHKNA其实就是个商品白底图inpaint…

SQLiteC/C++接口详细介绍-sqlite3类(一)

快速跳转文章列表&#xff1a;SQLite—系列文章目录 上一篇&#xff1a;SQLiteC/C接口简介 下一篇&#xff1a;SQLiteC/C接口详细介绍&#xff08;二&#xff09; 引言&#xff1a; SQLite C/C 数据库接口是一个流行的SQLite库使用形式&#xff0c;它允许开发者在C和C代码中嵌…

WPF布局、控件与样式

视频来源&#xff1a;https://www.bilibili.com/video/BV1HC4y1b76v/ 布局 常用布局属性 HorizontalAlignment&#xff1a;用于设置元素的水平位置VerticalAlignment&#xff1a;用于设置元素的垂直位置Margin&#xff1a;指定元素与容器的边距Height&#xff1a;指定元素的…

如何在Flutter中实现网络请求

在Flutter中实现网络请求有很多模块&#xff0c;可以使用http模块&#xff0c;也可以使用dio模块。 具体的用法在https://pub.dev/上面有&#xff0c;我们以前的的项目中用的是Dio库&#xff0c;它支持get post put delete还支持文件的上传下载。 import ‘package:dio/dio.d…

LeetCode hot100-11

239. 滑动窗口最大值给你一个整数数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。返回 滑动窗口中的最大值 。我的解法会超时&#xff0c;就比最暴力解法优化了一点点吧…

如何解决awtk动态图锯齿状

打开awtk安装目录sdk->awtk->awtk_config.py,找到该位置 VGCANVAS NANOVG # VGCANVASNANOVG_PLUS if OS_NAME Windows: TK_ROOT TK_ROOT.replace(\\, \\\\) NANOVG_BACKEND GLES2 else: NANOVG_BACKEND GL3 # VGCANVASCAIRO 注释掉 # NANOVG_BACKENDGLES2 # N…

uni-app开发介绍以及代码案例

uni-app是一个使用Vue.js开发所有前端应用的框架&#xff0c;它允许开发者编写一套代码&#xff0c;然后将其发布到iOS、Android、Web&#xff08;响应式&#xff09;、以及各种小程序&#xff08;如微信、支付宝、百度等&#xff09;等多个平台。uni-app在开发者数量、案例、跨…