文章目录
- 归一化方法
- 激活函数
- 位置编码
- 注意力机制
归一化方法
大语言模型的预训练过程中经常会出现不稳定的问题。为了应对这一问题,深度学习方法通常会采用特定的归一化策略来加强神经网络训练过程的稳定性。原始的 Transformer 模型主要使用了层归一化方法(Layer Normalization, LN)。随着研究工作的不断深入,基于层归一化的改进技术不断涌现,例如均方根层归一化(Root Mean Square Layer Normalization, RMSNorm)和 DeepNorm,这些新技术已经在一些大语言模型中得到应用。
LayerNorm,在早期的研究中,批次归一化(Batch Normalization, BN)是一种广泛采用的归一化方法。然而,该方法难以处理可变长度的序列数据和小批次数据。因此,相关研究提出了层归一化这一技术,针对数据进行逐层归一化。具体而言,层归一化会计算每一层中所有激活值的均值 𝝁 和方差 𝝈,从而 L a y e r N o r m (