【归一化技术】层归一化和批归一化

归一化技术在深度学习中被广泛应用，以加速训练过程、稳定模型收敛，并减少梯度消失或爆炸问题。

一、层归一化

**层归一化（Layer Normalization）**是一种归一化技术，广泛用于深度学习模型，尤其是在 Transformer 等自然语言处理和序列建模任务中，以加速训练、稳定模型收敛，并减少梯度消失或爆炸的问题。

层归一化是在每个样本的特征维度上计算均值和方差。在处理变长序列时效果更好，并且适合小批次甚至批次大小为 1 的情况。

假设输入张量的形状为 [batch_size, sequence_length, feature_dim]，层归一化会在每个特征维度 feature_dim 上进行归一化操作。

1. 计算公式

给定输入张量 x，对于第 i 个特征的每个样本，层归一化的计算公式为：

在这里插入图片描述

其中：

μ 和 𝜎2 分别是 x 在特征维度上的均值和方差。
γ 和 𝛽 是可学习的缩放和平移参数。
ϵ 是一个小常数，用于防止除零错误。

2. 示例

在 PyTorch 中，可以通过 nn.LayerNorm 来使用层归一化。初始化时需要指定特征维度大小，表示在该维度上进行归一化。

import torch
import torch.nn as nn# 假设特征维度大小为 64
feature_dim = 64
layer_norm = nn.LayerNorm(feature_dim)# 输入张量 (batch_size, sequence_length, feature_dim)
x = torch.randn(32, 10, feature_dim)# 应用层归一化
output = layer_norm(x)
print(output.shape)  # 输出: torch.Size([32, 10, 64])

在此示例中，LayerNorm 对每个样本的最后一个维度（即特征维度 feature_dim）进行归一化。

3. 优势

适用于变长序列：在 NLP 和序列建模任务中非常适用，因为它不依赖于批次大小。
稳定模型训练：在 Transformer 等深度网络中，层归一化帮助缓解梯度消失或梯度爆炸问题，加快模型收敛速度。

二、批归一化

批归一化（Batch Normalization）是一种深度学习中的归一化技术，用于加速模型训练、稳定模型收敛，并减轻梯度消失或梯度爆炸问题。它通过在每个批次的样本上计算均值和方差，然后对每层的激活值进行归一化，确保每层输出的激活值在训练过程中保持相对稳定的分布。

1. 计算步骤

假设我们在训练神经网络，某一层的输出张量（激活值）是 x，其形状为 [batch_size, num_features]。批归一化的计算步骤如下：

计算均值和方差：
- 对当前批次的所有样本在特征维度上计算均值 μ 和方差 σ2。
其中，m 是批次大小（batch_size），xi 是每个样本的激活值。
归一化：
- 使用均值和方差对每个激活值进行归一化，确保每层的激活值具有标准正态分布。
其中，𝜖 是一个小常数，用于防止除零错误。
缩放和平移：
- 引入可学习的缩放参数 γ 和偏移参数 𝛽，用于恢复模型的表达能力，使网络在归一化的基础上仍能灵活调整数据分布。
其中，γ 和 𝛽 是通过训练学习到的参数，用于控制归一化后的尺度和平移。

2. 示例

在 PyTorch 中，可以使用 nn.BatchNorm1d, nn.BatchNorm2d, 或 nn.BatchNorm3d 来实现批归一化。下面是一个简单的示例：

import torch
import torch.nn as nn# 定义批归一化层
batch_norm = nn.BatchNorm1d(num_features=4)# 输入张量 (batch_size, num_features)
x = torch.randn(8, 4)  # 批次大小为8，特征维度为4# 应用批归一化
output = batch_norm(x)
print(output)