LORA的AB矩阵是针对Transformer的多头还是MLP
Transformer中的矩阵是一个整体还是分开的每个小矩阵
在LORA(Low-Rank Adaptation)中,AB矩阵的应用位置和Transformer中的矩阵拆分方式如下:
1. LORA的AB矩阵作用对象
LORA的AB矩阵主要作用于Transformer的多头注意力模块和MLP模块的线性层。具体来说:
- 多头注意力部分:AB矩阵通常注入到查询(Q)、键(K)、值(V)的线性变换层中,以低秩分解的形式近似原始权重矩阵。
- MLP部分:AB矩阵也可注入到MLP的**输入层(将隐层维度映射到中间维度)和输出层(映射回隐层维度)**中。