LLM - 大模型 ScallingLaws 的迁移学习与混合训练(PLM) 教程(3)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/145212097

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Scaling Laws (缩放法则) 是大模型领域中，用于描述模型性能(Loss) 与模型规模N、数据量D、计算资源C 之间关系的经验规律，揭示在大模型中，随着模型参数数量、数据集大小和计算资源的增加，模型性能的变化模式，指导更高效地分配资源，优化模型训练过程，实现更好的性能。这些规律不仅有助于预测不同规模模型的表现，还能为模型设计和训练提供理论依据，是推动大模型发展和应用的重要理论基础。

在 PLM 的迁移学习中，预训练 CLM 迁移至 MLM，通过迁移缩放法则(Transfer Scaling Laws)，合理的分配训练资源，以达到性能最优。同时验证，混合训练(Mixing Training) CLM 与 MLM，不如从零开始训练。

系列文章：

大模型 ScallingLaws 的 C=6ND 公式推导
大模型 ScallingLaws 的 CLM 和 MLM 中不同系数
大模型 ScallingLaws 的迁移学习与混合训练

1. 从零开始与迁移学习

迁移缩放法则(Transfer Scaling Laws)：预训练 MLM，迁移至 CLM，随着模型规模增大，收益递减；预训练 CLM，迁移至 MLM，随着模型规模增大，收益增加。不同 FLOPs 下 CLM 和 MLM 的损失(Loss)曲线，表明迁移策略的 有效前沿(Efficiency Frontiers)，或 帕累托前沿(Pareto Frontier) 。如图：

Transfer

同时训练多个目标时，可能存促进或干扰，即 协同效应 问题，训练顺序也是关键因素，先训练 CLM 再训练 MLM，效果影响较大，反之，效果影响较小。

从零开始训练(Training from Scratch) $L(C_{s})$ 与 迁移学习(Transfer Learning) $L(C_{t})$ 的 Loss 与 C 的法则：

$L(C_{s}) = a_{s} \times C_{s}^{\alpha_{s}}，L(C_{t})=a_{t} \times C_{t}^{\alpha_{t}}$

计算量与 Loss 的相关参数：

Loss

例如，以 CLM 的计算量 $\times 10^{21}$ 为例，从头开始训练(CLM)的 Loss 与迁移学习(MLM to CLM)的 Loss，即：

$L(C_s) = 8.251 \times (1 \times 10^{21})^{-0.027} = 2.2362 \\ L(C_t) = 7.191 \times (1 \times 10^{21})^{-0.024} = 2.2531 \\ L(C_s) = 8.251 \times (3 \times 10^{19})^{-0.027} = 2.4582 \\ L(C_t) = 7.191 \times (3 \times 10^{19})^{-0.024} = 2.4507$

例如，以 MLM 的计算量 $\times 10^{21}$ 为例，从头开始训练(MLM)的 Loss 与迁移学习(CLM to MLM)的 Loss，即：

$L(C_s) = 10.125 \times (1 \times 10^{21})^{-0.034} = 1.9561 \\ L(C_t) = 11.133 \times (1 \times 10^{21})^{-0.038} = 1.7726$

因此，推导出 MLM 从零开始训练 $C_{s}$ 与从 CLM 迁移学习 $C_{t}$ 的达到最优 Loss 所需计算量的比例：

$C_{t} \propto C_{s}^{\frac{\alpha_{s}}{\alpha_{t}}} = C_{s}^{\frac{-0.034}{-0.038}} = C_{s}^{0.894} \\$

因此，最优的迁移学习策略：先使用 CLM 预训练，然后再训练 MLM。同时，CLM 与 MLM 的混合训练(Mixing Training) 或改变训练顺序(即先 MLM 后 CLM)，都没有带来显著的益处。推测原因是， MLM 仅专注于恢复被损坏(Mask) 的标记，不具有因果性，如果 MLM 以从左到右的方式，根据上文预测序列中间的片段，才可能加快训练速度。

关于 CLM 与 MLM 的 混合训练(Mixing Training) 目标的验证 Loss，在全部模型规模中，从零开始训练都比混合训练的验证损失更低，表明，混合训练不如针对每个单独目标的专门训练有效。参考：

Mix

2. CLM 迁移至 MLM 的 Tokens 比例

左侧：为 CLM 预训练分配的 % 计算量的有效困惑度，即，% 计算资源表示在 CLM 预训练，剩余计算资源在 MLM 微调。最优的 CLM 预训练 % 计算资源范围为 $[10, 20]$ ，拟合的 $\frac{D_{t}}{D_{t}+D_{f}}$ 在最优损失范围内下降。

右侧：从零开始训练的模型(红色) 与 从预训练 CLM 微调的模型(绿色) 的验证困惑度(PPL) 比较，表明从 CLM 微调在更少 Tokens 数量下，降低困惑度。

Transfer

以模型规模 $N = 85 M$ 为例，通过之前的公式，合理计算模型的计算量 $\times 10^{19}$ ，即：

$\begin{align} C_{CLM}(N) &= (\frac{N}{1.26*10^{-3}})^\frac{1}{0.578} \\ C_{CLM}(85 \times 1024^{2}) &= (\frac{85 \times 1024^{2}}{1.26 \times 10^{-3}})^{\frac{1}{0.578}} \\ &= 0.6 \times 10^{19} \\ C_{MLM}(N) &= (\frac{N}{6.19 \times 10^{-8}})^{\frac{1}{0.776}} \\ C_{MLM}(85 \times 1024^{2}) &= (\frac{85 \times 1024^{2}}{6.19 \times 10^{-8}})^{\frac{1}{0.776}} \\ &= 3.4 \times 10^{19} \end{align}$

合理数据量 $\times 10^{9}$ 是：

$\begin{align} D = \frac{C}{6N} = \frac{3.4 \times 10^{19}}{6 \times 85 \times 1024^{2}} = 63.58 \times 10^{9} = 60B \end{align}$

其中， $D_{t}$ 表示 CLM 预训练的 Tokens 数量， $D_{f}$ 表示 MLM 微调的 Tokens 数量，全部数据量即 $D_{t}+D_{f}$ 。

有效转移标记(Effectively Transferred Tokens, ETT)： $D_{t}$ 是模型规模相同，在 MLM 上从零开始训练，以达到与在 CLM 上预训练的模型，相同损失所需的额外数据。如果预训练的 CLM 模型中的标记数量超过 $D_{t}$ ，那么 CLM 预训练的计算就是多余的。如果能提前知道 $D_{t}$ ，可以指导 CLM 预训练的标记分配。

迁移缩放法则(Transfer Scaling Laws)，以模型规模 $N = 85 M$ ，微调数据 $D_{f}=48B$ 为例，计算预训练 $D_{t}=8.57B$ ，占比约 14.28%，属于 [10, 20] 之间，符合法则：

$\begin{align} D_{t} &= k \times \frac{1}{D_{f}^{\alpha}} \times \frac{1}{N^{\beta}} \\ &= 3.65 \times 10^5 \times \frac{1}{D_{f}^{-0.137}} \times \frac{1}{N^{-0.369}} \\ D_{t} &= 3.65 \times 10^5 \times \frac{1}{(48 \times 1024^3)^{-0.137}} \times \frac{1}{(85 \times 1024^2)^{-0.369}} \\ &= 9.2 \times 10^9 \approx 8.57B < 12B \end{align}$