手搓多模态-04 归一化介绍

在机器学习中，归一化是一个非常重要的工具，它能帮助我们加速训练的速度。在我们前面的SiglipVisionTransformer 中，也有用到归一化层，如下代码所示：

class SiglipVisionTransformer(nn.Module): ##视觉模型的第二层，将模型的调用分为了图像嵌入模型和transformer编码器模型的调用def __init__(self, config:SiglipVisionConfig):super().__init__()self.config = configself.embed_dim = config.hidden_sizeself.embeddings = SiglipVisionEmbeddings(config) ## 负责将图像嵌入成向量self.encoder = SiglipEncoder(config) ## 负责将向量编码成注意力相关的向量self.post_layer_norm = nn.LayerNorm(embed_dim, eps=config.layer_norm_eps) ## 层归一化def forward(self, pixel_values:torch.Tensor) -> torch.Tensor:"""
		pixel_values: [Batch_size,Channels,Height,Width]"""## [ Batch_size,Channels,Height,Width] -> [Batch_size,Num_Patches,Embedding_size] 
		hidden_states = self.embeddings(pixel_values) ## 将图像嵌入成向量# [Batch_size,Num_Patches,Embedding_size] -> [Batch_size,Num_Patches,Embedding_size]
		last_hidden_state = self.encoder(hidden_states) ## 将向量编码成注意力相关的向量# [Batch_size,Num_Patches,Embedding_size] -> [Batch_size,Num_Patches,Embedding_size]
		last_hidden_state = self.post_layer_norm(last_hidden_state)return last_hidden_state

这里的post_layer_norm 就是归一化层，所以本文将一起介绍归一化层。

归一化解决的问题：

归一化主要解决的是神经网络训练的过程中会出现的 “协变量偏移” 的问题。

协变量偏移（Covariate Shift）是指由于输入样本的分布不均匀导致神经网络第一层的输入会有剧烈变化，而第一层神经网络输入的剧烈变化又会导致神经网络第一层的输出产生剧烈变化，从而将影响传递到神经网络之后的每一层，导致每一轮迭代，神经网络输出层的输出都剧烈变化从而导致梯度非常不稳定，参数找不到一个稳定地优化方向，从而导致训练缓慢。

Batch Normalization

假设有一个 mini-batch 的输入，也就是：

：batch size
：通道数（对全连接层来说是特征维度）
：空间维度（在卷积层中）

其实本质上，Batch Normalization 希望让输入的特征变化得不再那么剧烈，它希望样本所有的特征都基于当前的批次做一次归一化，这样的话当前批次下的特征就不会剧烈变化了。

值得注意的是：对图像输入的Batch Normalization和对普通特征的Batch Normalization的计算略有差别，假定图像的输入是 [ N, C, H, W ]，那么计算公式如上所示，torch会对通道的维度进行归一化，让每一个通道的像素值通过该通道所有图片的像素值得到的平均值和方差做归一化，这是因为由于在图像处理的卷积神经网络里面，同一个通道共享同一个卷积核，故整个通道的所有像素值都看成一个特征。