PEFT LoRA 介绍(LoRA微调使用的参数及方法)

一 PEFT LoRA 介绍

官网简介如下图:

翻译过来是:低秩自适应(LoRA)是一种PEFT方法,它将一个大矩阵在注意层分解成两个较小的低秩矩阵。这大大减少了需要微调的参数数量。

说的只是针对注意力层,其实我自己平时微调操作注意力层+多层感知机层,感觉所有层都可以微调。在阿里的千问开源的模型文档上也看到微调的并不只有注意力层,不知道微调加入其它层效果会不会更好?

二  PEFT LoRA 参数

 1 PEFT LoRA 参数

    PEFT LoRA 所有的参数说明如下:

r (int)
# Lora 注意力维度(“秩”)。target_modules (Optional[Union[List[str], str]])
# 要应用适配器的模块名称。
# 如果指定了此参数,则仅替换具有指定名称的模块。
# 传递字符串时,将执行正则表达式匹配。
# 传递字符串列表时,将执行精确匹配或检查模块名称是否以任何传递的字符串结尾。
# 如果指定为‘all-linear’,则选择所有线性/Conv1D模块,不包括输出层。
# 如果未指定,则根据模型架构选择模块。
# 如果架构未知,则会引发错误——在这种情况下,应手动指定目标模块。lora_alpha (int)
# Lora 缩放的 alpha 参数。lora_dropout (float)
# Lora 层的 dropout 概率。fan_in_fan_out (bool)
# 如果要替换的层存储权重格式为 (fan_in, fan_out),则设置为 True。
# 例如,gpt-2 使用的 Conv1D 存储权重格式为 (fan_in, fan_out),因此应设置为 True。bias (str)
# LoRA 的偏置类型。可以是 ‘none’,‘all’ 或 ‘lora_only’。
# 如果是 ‘all’ 或 ‘lora_only’,则相应的偏置将在训练期间更新。
# 请注意,这意味着即使禁用适配器,模型也不会生成与未适配的基础模型相同的输出。use_rslora (bool)
# 设置为 True 时,使用 Rank-Stabilized LoRA,将适配器缩放因子设置为 lora_alpha/数学.sqrt(r)。
# 因为这被证明效果更好。否则,将使用 lora_alpha/r 的原始默认值。modules_to_save (List[str])
# 除适配器层外要设置为可训练并在最终检查点中保存的模块列表。init_lora_weights (bool | Literal["gaussian", "olora", "pissa", "pissa_niter_[number of iters]", "loftq"])
# 如何初始化适配器层的权重。
# 传递 True(默认值)会使用微软参考实现中的默认初始化。
# 传递 ‘gaussian’ 会使用按 LoRA 秩缩放的高斯初始化。
# 设置初始化为 False 会导致完全随机初始化,不推荐使用。
# 传递 ‘loftq’ 使用 LoftQ 初始化。传递 ‘olora’ 使用 OLoRA 初始化。
# 传递 ‘pissa’ 使用主奇异值和奇异向量适应(PiSSA)初始化,比 LoRA 收敛更快,最终性能更佳。
# ‘pissa_niter_[number of iters]’ 使用基于快速 SVD 的 PiSSA 初始化,[number of iters] 表示执行 FSVD 的子空间迭代次数,必须是非负整数。
# 当设置为 16 时,可以在几秒内完成 7B 模型的初始化,训练效果大致相当于使用 SVD。layers_to_transform (Union[List[int], int])
# 要转换的层索引。
# 如果传递了整数列表,则会对列表中指定的层索引应用适配器。
# 如果传递单个整数,则会对该索引处的层应用转换。layers_pattern (str)
# 层模式名称,仅在 layers_to_transform 不为 None 时使用。rank_pattern (dict)
# 层名称或正则表达式到与默认 r 指定的秩不同的秩的映射。alpha_pattern (dict)
# 层名称或正则表达式到与 lora_alpha 指定的默认 alpha 不同的 alpha 的映射。megatron_config (Optional[dict])
# Megatron 的 TransformerConfig 参数,用于创建 LoRA 的并行线性层。
# 可以这样获取:core_transformer_config_from_args(get_args()),这两个函数来自 Megatron。
# 这些参数将用于初始化 Megatron 的 TransformerConfig。
# 当要将 LoRA 应用于 megatron 的 ColumnParallelLinear 和 RowParallelLinear 层时,需要指定此参数。megatron_core (Optional[str])
# 要使用的 Megatron 核心模块,默认为 "megatron.core"。loftq_config (Optional[LoftQConfig])
# LoftQ 的配置。
# 如果不为 None,则使用 LoftQ 量化骨干权重并初始化 Lora 层,同时传递 init_lora_weights='loftq'。
# 请注意,在这种情况下,不应传递量化模型,因为 LoftQ 会自行量化模型。use_dora (bool)
# 启用 “权重分解低秩适应”(DoRA)。
# 此技术将权重更新分解为两个部分:幅度和方向。
# 方向由普通 LoRA 处理,幅度由单独的可学习参数处理。
# 这可以在低秩下提高 LoRA 的性能。
# 目前,DoRA 仅支持线性和 Conv2D 层。DoRA 比纯 LoRA 引入更大的开销,因此建议在推理时合并权重。
# 更多信息,请参见 https://arxiv.org/abs/2402.09353。layer_replication (List[Tuple[int, int]])
# 通过根据指定的范围堆叠原始模型层来构建新的层堆栈。
# 这允许在不复制基础模型权重的情况下扩展(或缩小)模型。
# 新层将全部附有单独的 LoRA 适配器。runtime_config (LoraRuntimeConfig)
# 运行时配置(不保存或恢复)。

2 参数使用示例

    在一个基础模型上创建一个低秩的模型(要微调的模型):

from transformers import AutoModelForSeq2SeqLM
from peft import LoraModel, LoraConfig# 设置 LoRA 配置
config = LoraConfig(task_type="SEQ_2_SEQ_LM",  # 任务类型为序列到序列语言模型r=8,  # LoRA 的秩lora_alpha=32,  # LoRA 的缩放因子target_modules=["q", "v"],  # 目标模块列表lora_dropout=0.01,  # LoRA 层的 dropout 概率
)# 加载预训练的 T5 基础模型
model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")# 创建 LoRA 模型
lora_model = LoraModel(model, config, "default")

  配置低秩模型参数

import torch
import transformers
from peft import LoraConfig, PeftModel, get_peft_model, prepare_model_for_kbit_training# 设置 LoRA 参数
rank = ...
target_modules = ["q_proj", "k_proj", "v_proj", "out_proj", "fc_in", "fc_out", "wte"]
config = LoraConfig(r=4,  # LoRA 的秩lora_alpha=16,  # LoRA 的缩放因子target_modules=target_modules,  # 目标模块列表lora_dropout=0.1,  # LoRA 层的 dropout 概率bias="none",  # 无偏置task_type="CAUSAL_LM"  # 任务类型为因果语言模型
)# 设置量化配置
quantization_config = transformers.BitsAndBytesConfig(load_in_8bit=True)# 加载分词器
tokenizer = transformers.AutoTokenizer.from_pretrained("kakaobrain/kogpt",revision="KoGPT6B-ryan1.5b-float16",  # 或者使用 float32 版本:revision=KoGPT6B-ryan1.5bbos_token="[BOS]",  # 句子开头标记eos_token="[EOS]",  # 句子结束标记unk_token="[UNK]",  # 未知标记pad_token="[PAD]",  # 填充标记mask_token="[MASK]"  # 掩码标记
)# 加载预训练的 GPT-J 模型
model = transformers.GPTJForCausalLM.from_pretrained("kakaobrain/kogpt",revision="KoGPT6B-ryan1.5b-float16",  # 或者使用 float32 版本:revision=KoGPT6B-ryan1.5bpad_token_id=tokenizer.eos_token_id,  # 填充标记的 IDuse_cache=False,  # 不使用缓存device_map={"": rank},  # 设备映射torch_dtype=torch.float16,  # 使用 float16 类型quantization_config=quantization_config  # 量化配置
)# 准备模型进行 k-bit 训练
model = prepare_model_for_kbit_training(model)# 获取 LoRA 模型
lora_model = get_peft_model(model, config)

为什么要创建低秩模型,不解释直接引用论文的一部分说明如下:

        自然语言处理的一个重要范例是对一般领域数据进行大规模预训练,并适应特定的任务或领域。当我们预训练更大的模型时,重新训练所有模型参数的完全微调变得不太可行。以GPT-3 175B为例,部署独立的微调模型实例,每个实例都有175B参数,成本非常高。我们提出了低秩自适应(Low-Rank Adaptation, LoRA),它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer体系结构的每一层,从而大大减少了下游任务的可训练参数的数量。与经过Adam微调的GPT-3 175B相比,LoRA可以将可训练参数的数量减少10,000倍,GPU内存需求减少3倍。在RoBERTa、DeBERTa、GPT-2和GPT-3上,LoRA在模型质量方面的表现与微调相当或更好,尽管具有更少的可训练参数、更高的训练吞吐量,并且与适配器不同,没有额外的推理延迟。我们还对语言模型适应中的等级缺陷进行了实证研究,从而揭示了LoRA的有效性。我们发布了一个促进LoRA与PyTorch模型集成的包,并在此https URL上为RoBERTa、DeBERTa和GPT-2提供了我们的实现和模型检查点。

3 model低秩模型的方法

  1 add_weighted_adapter 

  add_weighted_adapter 增加适配器

   该方法的代码原形及参数说明 如下:

def add_weighted_adapter(self,adapters: list[str],weights: list[float],adapter_name: str,combination_type: str = "svd",svd_rank: int | None = None,svd_clamp: int | None = None,svd_full_matrices: bool = True,svd_driver: str | None = None,density: float | None = None,majority_sign_method: Literal["total", "frequency"] = "total",) -> None:"""该方法通过合并给定的适配器及其权重来添加新的适配器。使用 `cat` 合并类型时,应注意生成适配器的秩将等于所有适配器秩的总和。因此,混合适配器可能会变得过大,从而导致 OOM 错误。参数:adapters (`list`):要合并的适配器名称列表。weights (`list`):每个适配器的权重列表。adapter_name (`str`):新适配器的名称。combination_type (`str`):合并类型,可以是 [`svd`, `linear`, `cat`, `ties`, `ties_svd`, `dare_ties`, `dare_linear`,`dare_ties_svd`, `dare_linear_svd`, `magnitude_prune`, `magnitude_prune_svd`] 中的一个。使用 `cat` 合并类型时,生成适配器的秩等于所有适配器秩的总和(混合适配器可能会变得过大,导致 OOM 错误)。svd_rank (`int`, *可选*):SVD 输出适配器的秩。如果未提供,将使用合并适配器的最大秩。svd_clamp (`float`, *可选*):用于限制 SVD 分解输出的量化阈值。如果未提供,则不执行限制。默认为 None。svd_full_matrices (`bool`, *可选*):控制是计算完整 SVD 还是简化 SVD,从而影响返回的张量 U 和 Vh 的形状。默认为 True。svd_driver (`str`, *可选*):要使用的 cuSOLVER 方法名称。此关键字参数仅在 CUDA 上合并时有效。可以是 [None, `gesvd`, `gesvdj`, `gesvda`] 中的一个。更多信息请参阅 `torch.linalg.svd` 文档。默认为 None。density (`float`, *可选*):取值范围在 0 到 1 之间。0 表示所有值都被剪除,1 表示没有值被剪除。应与 [`ties`, `ties_svd`, `dare_ties`, `dare_linear`, `dare_ties_svd`, `dare_linear_svd`,`magnitude_prune`, `magnitude_prune_svd`] 一起使用。majority_sign_method (`str`):获取符号值幅度的方法,应为 ["total", "frequency"] 中的一个。应与 [`ties`, `ties_svd`, `dare_ties`, `dare_ties_svd`] 一起使用。"""

2 delete_adapter

  delete_adapter 删除适配器

 访方法代码原形如下:

def delete_adapter(self, adapter_name: str) -> None:"""Deletes an existing adapter.Args:adapter_name (str): Name of the adapter to be deleted."""
3 disable_adapter_layers

 disable_adapter_layers 禁用所有适配器。

  • 功能描述:当启用此功能时,模型中的所有适配器层将被禁用,模型将不再使用这些适配器进行推理或训练。此操作通常用于将模型恢复到没有适配器的状态,允许用户仅使用基础模型的功能。

  • 用途场景

    • 模型评估:在评估模型性能时,希望验证基础模型的原始性能,而不受适配器的影响。
    • 调试:在调试过程中,禁用适配器可以帮助识别适配器对模型输出的具体影响。
    • 资源管理:禁用适配器可以减少计算资源的消耗,尤其是在内存受限的环境中。
  • 实现机制:禁用适配器通常涉及调整模型的前向传播逻辑,确保适配器层的输出不被计算或直接返回基础模型的输出。

4 enable_adapter_layers

 enable_adapter_layers  与调用disable_adapter_layers方法相反,启用所有适配器,通常这两个方法配套使用。

5 merge_and_unload(常用)

  merge_and_unload 合并模型,最常用。

  参数解释如下:

progressbar (bool)
# 是否显示指示卸载和合并过程的进度条。safe_merge (bool)
# 是否启用安全合并检查,以检查适配器权重中是否存在潜在的 NaN 值。adapter_names (List[str], optional)
# 要合并的适配器名称列表。如果为 None,则合并所有活动适配器。默认为 None。

 merge_and_unload 方法原型:

def merge_and_unload(self, progressbar: bool = False, safe_merge: bool = False, adapter_names: Optional[list[str]] = None) -> torch.nn.Module:r"""This method merges the LoRa layers into the base model. This is needed if someone wants to use the base modelas a standalone model.Args:progressbar (`bool`):whether to show a progressbar indicating the unload and merge processsafe_merge (`bool`):whether to activate the safe merging check to check if there is any potential Nan in the adapterweightsadapter_names (`List[str]`, *optional*):The list of adapter names that should be merged. If None, all active adapters will be merged. Defaultsto `None`."""

  使用示例:

from transformers import AutoModelForCausalLM
from peft import PeftModel# 从预训练模型中加载基础模型
base_model = AutoModelForCausalLM.from_pretrained("tiiuae/falcon-40b")# PEFT 模型的 ID
peft_model_id = "smangrul/falcon-40B-int4-peft-lora-sfttrainer-sample"# 从预训练模型和 PEFT 模型 ID 中加载 PEFT 模型
model = PeftModel.from_pretrained(base_model, peft_model_id)# 合并 PEFT 模型并卸载不需要的部分
merged_model = model.merge_and_unload()
6 unload

  unload 与 merge_and_unload 相反,把合并后的模型还原到基本模型

LoRA官网-> https://huggingface.co/docs/peft/package_reference/lora

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/50218.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nacos2.x作为配置中心和服务注册和发现以及springcloud使用

目录 一、nacos是什么 二、windows下安装配置nacos 1、准备 2、安装nacos 3、配置nacos 4、启动并且访问nacos 三、springcloud使用nacos作为配置中心 四、springcloud使用nacos进行服务注册与发现 五、springcloud使用nacos进行服务消费 六、nacos的一些高级配置 1…

Ubuntu上编译多个版本的frida

准备工作 Ubuntu20(WSL) 略 安装依赖 sudo apt update sudo apt-get install build-essential git lib32stdc-9-dev libc6-dev-i386 -y nodejs 去官网[1]下载nodejs,版本的话我就选的20.15.1: tar -xf node-v20.15.1-linux-x64.tar.xz 下载源码 …

AbutionGraph时序(流式)图数据库开发文档地址

AbutionGraph-时序(流式)图数据库,官方开发文档(API)地址: http://www.thutmose.cn

JavaSE从零开始到精通(九) - 双列集合

1.前言 Java 中的双列集合主要指的是可以存储键值对的集合类型,其中最常用的包括 Map 接口及其实现类。这些集合允许你以键值对的形式存储和管理数据,提供了便捷的按键访问值的方式。 2. HashMap HashMap 是基于哈希表实现的 Map 接口的类&#xff0c…

java算法day23

java算法day23 121买卖股票的最佳时机55 跳跃游戏45 跳跃游戏Ⅱ763划分子母区间 121买卖股票的最佳时机 最容易想的应该就是两个for暴力枚举。但是超时 本题用贪心做应该是最快的。 先看清楚题,题目要求在某一天买入,然后在某一天卖出,要求…

MarkTool集合篇

MarkTool目前包含以下几种工具 1、TCP客户端 2、TCP服务端 3、UDP客户端 4、Web客户端 5、Web服务端 6、串口网口 7、PLC 8、获取本机设备 9、Log 10、密钥 11、系统设置 11-1、基本设置 11-2、角色设置 11-3、用户设置 11-4、log记录 开启软件需要找我解密&#…

S7-1200PLC通过111报文和EPOS模式实现位置轴轴控功能(FB284封装)

EASY_SINA_POS的详细使用介绍请参考下面文章链接: S7-1200PLC使用标准报文111和EPOS模式实现V90 PN总线伺服定位(Easy_SINA_Pos)_西门子sinapos-CSDN博客文章浏览阅读132次。文章浏览阅读7k次。先简单说下如何获取FB284,一般有2种方法,Startdrive软件可以操作大部分西门子的…

PostgreSQL使用(四)——数据查询

说明:对于一门SQL语言,数据查询是我们非常常用的,也是SQL语言中非常大的一块。本文介绍PostgreSQL使用中的数据查询,如有一张表,内容如下: 简单查询 --- 1.查询某张表的全部数据 select * from tb_student…

【Qt】QLabel常用属性相关API

QLabel是Qt框架中用于显示文本或图案的小部件。在Qt应用程序中,QLabel是用来呈现静态文本或图像给用户的重要部分 QLabel属性陈列 属性说明textQLabel中的文本内容textFormat 文本的格式 Qt::PlainText 纯文本Qt::RichText 富文本Qt::MarkdownText markdown…

【数据结构】排序算法(冒泡排序、插入排序、希尔排序、选择排序、堆排序、计数排序)

生命不可能有两次,但许多人连一次也不善于度过。💓💓💓 目录 ✨说在前面 🍋知识点一:排序的概念和应用 • 🌰1.排序及其概念 • 🌰2.排序的应用 • 🌰3.常见的排序算…

qt做的分页控件

介绍 qt做的分页控件 如何使用 创建 Pagination必须基于一个QWidget创建,否则会引发错误。 Pagination* pa new Pagination(QWidget*);设置总页数 Pagination需要设置一个总的页数,来初始化页码。 pa->SetTotalItem(count);设置可选的每页数量…

前端养成记-实现一个低配版简单版本的vue3表单自定义设计组件

简介: 通过使用了最新的vue3,vite2,TypeScript等主流技术开发,并配合使用vuedraggable 插件以及antd design vue 组件库实现低配版本的自定义表单设计组件; 项目地址:https://gitee.com/hejunqing/vue3-antdv-generator

PyTorch模型训练步步详解:从零开始构建深度学习流程

P y T o r c h 训练模型流程图 PyTorch训练模型流程图 P y T orc h 训练模型流程图

非凸T0算法,如何获取超额收益?

什么是非凸 T0 算法? 非凸 T0 算法基于投资者持有的股票持仓,利用机器学习等技术,短周期预测,全自动操作,抓取行情波动价差,增厚产品收益。通过开仓金额限制、持仓时长控制等,把控盈亏风险&…

学习笔记:MySQL数据库操作5

1. 触发器(Triggers) 触发器是数据库的一种高级功能,它允许在执行特定数据库操作(如INSERT、UPDATE、DELETE)之前或之后自动执行一段代码。 1.1 创建商品和订单表 商品表(goods) gid: 商品编号…

会话存储、本地存储,路由导航守卫、web会话跟踪、JWT生成token、axios请求拦截、响应拦截

1、会话存储、本地存储 前端浏览器中存储用户信息,会话存储、本地存储、cookie 会话存储(sessionStorage):会话期间存储,关闭浏览器后,数据就会销毁 sessionStorage.setItem("account",resp.d…

反射型与dom型的xss的区别【源码分析】

反射型 XSS 和 DOM 型 XSS 都属于跨站脚本攻击 (XSS) 的类型,它们的共同点是均能通过注入恶意脚本在用户浏览器中执行,不同点是dom型xss不经过服务器,而反射型是经过服务器的。但是,它们在攻击方式、执行过程和防御措施上有所不同…

Servlet2-HTTP协议、HttpServletRequest类、HttpServletResponse类

目录 HTTP协议 什么是HTTP协议 HTTP协议的特点 请求的HTTP协议格式 GET请求 POST请求 常用的请求头说明 哪些是GET请求,哪些是POST请求 响应的HTTP协议格式 常见的响应码说明 MIME类型说明 HttpServletRequest类 作用 常用方法 如何获取请求参数 po…

IP 泄露: 原因与避免方法

始终关注您的IP信息! 您的IP地址不仅显示您的位置,它包含几乎所有的互联网活动信息! 如果出现IP泄漏,几乎所有的信息都会被捕获甚至非法利用! 那么,网站究竟如何追踪您的IP地址?您又如何有效…

从0开始的STM32HAL库学习9

定时器输入捕获测频率 生成待测信号 配置环境 选择如上图所示 代码修改 在main函数中加入 HAL_TIM_PWM_Start(&htim2,TIM_CHANNEL_1); 测量信号频率 配置环境 如图所示打开TIM3定时器 1. 设置TI1FP1为ResetMode,即清空计数 2. 使用内部时钟 3. 通道 1 设置为输…