大模型压缩-LoRAP

这里写目录标题

1.多头注意力和FFN的权重分布
2 多头矩阵的低秩分解
FFN无梯度通道剪枝

这篇文章 ¹期望找到一个“剪枝＋低秩分解”的路子，使结构化剪枝达到非结构化剪枝的性能。

1.多头注意力和FFN的权重分布

在这里插入图片描述

Fig. 1.1 多头注意力权重矩阵

从Fig.1.1可以看出多头注意力机制的qkvo矩阵表现出了稀疏性。
在这里插入图片描述

Fig. 1.2 FFN权重矩阵

然而从Fig.1.2可以看出FFN的 $W_{up}$ , $W_{down}$ , $W_{gate}$ 就没有这种表现。所以这篇文章指出用低秩分解来压缩多头注意力矩阵，用结构化剪枝来压缩FFN矩阵。

2 多头矩阵的低秩分解

对于一个权重 $W_{ij}$ ，用对应的输入激活 $X$ 的 $\ell_2$ 范数来评估其重要度，用式1来表示
$\mathbf{x}_{d_{in}}=(\|\mathbf{X}_{1}\|_{2},\|\mathbf{X}_{2}\|_{2},\cdots,\|\mathbf{X}_{d_{in}}\|_{2})\tag{1}$
式中， $\|\mathbf{X}_{1}\|_{j}$ 表示 $W_{:,j}$ 的重要度。用式2表示其损失，
$\min_{\mathbf{L},\mathbf{R}} \sum_{i,j}(W_{ij}-(\mathbf{LR})_{ij})^2\|\mathbf{X}_j\|_2\tag{2}$
把重要度分数定义为对角线矩阵 $\mathbf{D} = \mathrm{diag}(\mathbf{x}_{d_{in}})$ ，由公式2可变为公式3
$\min_{\mathbf{L},\mathbf{R}}\|\mathbf{WD}-\mathbf{LRD}\|_2\tag{3}$
对 $\mathbf{WD}$ 进行SVD分解，得到 $SVD(\mathbf{WD})=U\Sigma V$ ，令 $\mathbf{L} = \mathbf{U}\boldsymbol{\Sigma},\mathbf{R} = \mathbf{V}\mathbf{D}^{-1}$ ，为了压缩矩阵，保留权重矩阵 $\mathbf{L}$ , $\mathbf{R}$ 的前 $l$ 和 $r$ 个分量，得到 $\mathbf{L}_r=\mathbf{U}_r\mathbf{\Sigma}_r,\mathbf{R}_r=\mathbf{V}_r\mathbf{D}^{-1}$ ，在实验中，论文选择将75%的参数分配给 $W_v$ 和 $W_o$ 矩阵，而将剩下的25%分配给 $W_q$ 和 $W_k$ 矩阵，参数来自对不同矩阵不同压缩比下模型的性能如Fig.2.1。
在这里插入图片描述

Fig. 2.1 不同矩阵不同压缩比下模型的性能

FFN无梯度通道剪枝

用 $\ell_2$ 范数 $W_{i,:}$ 来评估矩阵第 $i$ 行的重要度，用公式4表示
$\Phi(\mathbf{W}_{i,:})=\|I(W_{i,1}),I(W_{i,2}),\cdots,I(W_{i,d_{in}})\|_{2}\tag{4}$
接下来考虑神经元之间的依赖关系，例如，在修剪下矩阵 $W_{down}$ 的第 $i$ 个输入信道时，应对门矩阵 $W_{gate}$ 和上矩阵 $W_{up}$ 中相应的输出信道进行相应的修剪。用公式5表示之间的依赖
$\mathbf{W}_i^{group}=\{\mathbf{W}_{i,:}^{up},\mathbf{W}_{i,:}^{gate},\mathbf{W}_{:,i}^{down}\}\tag{5}$
由此评价某一有依赖关系的结构的重要度
$C_{i}^{group}=\Phi(\mathbf{W}_{i,:}^{up})+\Phi(\mathbf{W}_{i,:}^{gate})+\Phi(\mathbf{W}_{:,i}^{down})\tag{6}$
作者发现最不重要的1%的参数在模型性能中起着至关重要的作用。所以剪枝要把最不重要的和最重要的保留，由公式6给出剪枝原则
$\mathbf{W}_{i}^{group}=\begin{cases}\mathbf{W}_{i}^{group},&\mathrm{if} C_{i}^{group} \mathrm{in} \mathrm{top}(p_{r}*100-1)\%,\\\mathbf{W}_{i}^{group},&\mathrm{if} C_{i}^{group} \mathrm{in} \mathrm{min} 1\% ,\\0.&\mathrm{otherwise}.\end{cases}\tag{6}$