【深度学习】大模型中的LoRA的重要参数理解，dim维度和lora

【深度学习】大模型中的LoRA的重要参数理解，dim维度和lora_alpha

peft LoRA

LoRA（Low-Rank Adaptation）的重要参数如下：

init_lora_weights：用于初始化LoRA权重的方法，有几种选择：
- "kaiming_uniform"：默认的初始化方法，使用Kaiming均匀初始化权重A，权重B初始化为零。
- "gaussian"：使用高斯分布初始化权重A，权重B初始化为零。
- "pissa"：使用主奇异值和奇异向量初始化LoRA适配器，以加快收敛速度和提高性能。
- "pissa_niter_[number of iters]"：快速SVD方法，迭代次数决定误差和计算时间的平衡。
- False：不进行初始化，通常用于调试和测试。
target_modules：指定要应用LoRA的模块，可以是具体的层名称或使用“all-linear”应用于所有线性层。常用于QLoRA风格的训练。
lora_alpha：用于缩放每个前向传递中的适配器的固定标量，通常与rank相关联。
- 默认实现中，标量为 lora_alpha/r。
- Rank-stabilized LoRA（rsLoRA）中，标量为 lora_alpha/math.sqrt(r)。
layer_replication：用于层复制以扩展模型，例如将一个7B模型扩展到10B。指定复制的层序列，例如[[0,4], [2,5]]表示复制第0到第4层和第2到第5层。
use_rslora：是否使用Rank-stabilized LoRA，用于稳定适配器并提高性能。
- True：使用rsLoRA。
use_dora：是否使用Weight-Decomposed Low-Rank Adaptation (DoRA)，用于分解权重更新以改善低rank情况下的性能。
- True：使用DoRA。
lora_dropout：适配器的dropout率，用于防止过拟合。
r：LoRA的秩(rank)，即适配器的维度，影响参数的数量和适配器的表现。

示例代码如下：

from peft import LoraConfig# 使用Kaiming均匀初始化
config = LoraConfig(init_lora_weights="kaiming_uniform", target_modules="all-linear", lora_alpha=32, layer_replication=[[0,4], [2,5]], use_rslora=True, use_dora=False, lora_dropout=0.1, r=16)# 使用高斯分布初始化
config_gaussian = LoraConfig(init_lora_weights="gaussian", ...)# 使用PiSSA初始化
config_pissa = LoraConfig(init_lora_weights="pissa", ...)# 使用快速SVD的PiSSA初始化
config_pissa_fast = LoraConfig(init_lora_weights="pissa_niter_10", ...)# 使用Rank-stabilized LoRA
config_rs = LoraConfig(use_rslora=True, ...)# 使用Weight-Decomposed LoRA
config_dora = LoraConfig(use_dora=True, ...)

这些参数可以根据具体的需求进行调整，以优化模型的训练和性能表现。

dim维度和lora_alpha

LoRA（Low-Rank Adaptation）通过将全连接层的权重矩阵分解为两个低秩矩阵来减少参数数量并加快训练速度。让我们通过公式来详细解释LoRA的dim维度和lora_alpha。

1. 权重矩阵的低秩分解

假设我们有一个全连接层，其权重矩阵为 $\in \mathbb{R}^{d \times k}$ ，其中 $d$ 是输入维度， $k$ 是输出维度。LoRA将 $W$ 分解为两个低秩矩阵 $\in \mathbb{R}^{d \times r}$ 和 $\in \mathbb{R}^{r \times k}$ ，其中 $r$ 是分解的秩(rank)。