如何微调出自己的大模型—

如何微调出自己的大模型——LoRA原理解析

1、前言

上一篇文章，我们已经讲了隐扩散模型——Stable Diffusion生成大模型。这种大模型，参数量及其之大。你没有足够的算力资源，就只能够使用人家已经训练好的大模型。既然没有办法训练属于自己的模型，那我们就想，是否可以在别人已经训练好的大模型的基础上，用我们自己的训练数据，对模型进行微调，从而得到我们想要的模型。

参考论文：

①LoRA: Low-Rank Adaptation of Large Language Models (arxiv.org)

②Online Embedding Compression for Text Classification using Low Rank Matrix Factorization (arxiv.org)

代码：github.com

视频：[如何微调出属于自己大模型？——LORA原理解析-哔哩哔哩]

2、引入

如果你使用过Stable Diffusion，应该看到过LoRA这个词。他其实就是一种微调方法。

在这个微调方法之前，其实已经存在一些微调方法，比如

①Fine-Tuning,FT： 在微调过程中，模型初始化为预训练的权重和偏置项，所有的模型参数都会进行梯度更新。一个简单的变体是只更新一些层而冻结其他层。

②Bias-only or BitFit： 只训练偏置向量，而冻结其他所有部分。

③Adapter tuning： 在自注意力模块和后面的残差连接之间插入一个适配器层。该适配器层有两个全连接层，中间有非线性的偏置。后面还存在一些新的变体。

另外论文还提到了Prefix-embedding tuning和Prefix-layer tuning。这两种我之前没见过，感兴趣的可以去看一下。

上述方法都或多或少的存在一些问题。如果模型的非常大。那么上述这些微调方法的计算成本将非常大。所以论文就提出了一种新的微调方法LoRA

Ps：这篇论文一开始提出来是应用在自然语言处理的。比如GPT，BERT这些模型。

3、LoRA

论文作者受到这篇论文Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (arxiv.org)的启发。该论文表明，预训练的语言模型在去适应某些特定的任务时（下游任务），是具有较低的内在维度的。也就是说，即使我们把它投射到较小的子空间，仍然能够高效的学习。

基于这个思想，论文假设权重微调变化的过程中也具有较低的秩（权重更新矩阵 $\Delta W$ 是低秩矩阵），从而提出Low-Rank Adaptation（LoRA）

什么叫做具有低的秩？我们从方程的角度出发
$2x+y=1\\x+y=0$
两个方程，两个未知量。我们可以求出对应的值 $x = 1, y = - 1$

那假如我们的方程长这样呢
$2x+y=1\\4x+2y=2$
我们绝对求不出，因为这两个方程是线性相关的。我们仔细看，第一个方程乘以2，就得到了第二个方程。因此，我们不难发现，这种存在相关性的方程之间，是无法求解的。也就是说，第二个方程实际上是无用的，因为它可以由第一个方程进行线性变化得到。

现在，我们假设有一份方程组
$\begin{cases}x+0\times y=0\\2x+0\times y=0\end{cases}$
我们把系数写成矩阵的形式
$\begin{pmatrix}1 & 0 \\2 & 0\end{pmatrix}$
像这种方式，由于第一行和第二行线性相关，所以这个矩阵的秩就等于1。而矩阵的维度是2x2。当矩阵的秩（记为r）远远小于行，列的维度，我们称该矩阵为低秩矩阵（当燃了，我这里举的例子，也没有远远小于…大家知道概念就行）。

我们做个微调假设更新，对一个参数层，有
$W'=W_0+W^{FT}$
$W^{FT}$ 是一个微调矩阵， $W^{'}$ 表示微调后的参数， $W_0$ 表示原始参数，假设 $W_0\in R^{d\times k}$ ，那么 $W^{FT}$ 也是一样的维度。对 $W^{FT}$ 进行奇异值分解
$W^{FT}=U_{d\times d}\Sigma_{d\times k}V_{k\times k}^T$
当 $W^{FT}$ 的秩远远小于d和k，则我们可以获取 $W^{FT}$ 的近似（选择前r个奇异值来压缩矩阵，如果矩阵的秩足够小，被丢弃的奇异值将为0或者较小，所以以下近似成立，该方法被称为低秩分解）
$W^{FT}\approx U_{d\times r}\Sigma_{r\times r}V^T_{r\times k}$
为什么可以选择前r个奇异值？因为 $\Sigma_{d\times k}$ 一般是从大到小排序的。奇异值越大，代表其对应的奇异向量越重要，越小则越不重要。

我们将奇异值分解压缩成两个矩阵相乘
$B=U_{d\times r}\\A=\Sigma_{r\times r}V_{r \times k}^T$
再说回来，假设权重微调变化的过程中也具有较低的秩。所以，可以通过低秩分解。来缩小可训练的参数维度。

我们用 $\Delta W$ 表示 $W^{FT}$ 低秩分解的结果。并用该低秩分解的结果去微调。于是就得到了论文里面结论
$W'=W_0+\Delta W=W_0+BA$
那么 $\in R^{d\times r},A \in R^{r\times k}$ ，B和A里面的参数是可学习的，r就是我们所选择的秩，并且 $\ll \min(d,k)$ 。而 $W_0$ 参数冻结。