深度学习查漏补缺：1.梯度消失、梯度爆炸和残差块

一、梯度消失

梯度消失的根本原因在于 激活函数的性质和链式法则的计算：

激活函数的导数很小：
- 常见的激活函数（例如 Sigmoid 和 Tanh）在输入较大或较小时，输出趋于饱和（Sigmoid 的输出趋于 0 或 1），其导数接近于 0。
- 在反向传播中，每一层的梯度都会乘以激活函数的导数。如果导数很小，乘积就会导致梯度逐渐变小。
链式法则的多次相乘：
假设网络有 nn 层，梯度从输出层传到第 ii 层时，会经历多次链式相乘：
- $\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial x_n} \cdot \frac{\partial x_n}{\partial x_{n-1}} \cdot \frac{\partial x_{n-1}}{\partial x_{n-2}} \cdots \frac{\partial x_{i+1}}{\partial x_i}$
  如果每一项的导数都小于 1（例如 0.5），那么多次相乘后梯度将变得非常小，接近于 0。
深层网络的结构：
层数越多，梯度消失的积累效应越明显，导致靠近输入层的权重几乎无法更新。

1.4 梯度消失带来的问题

网络无法有效学习：靠近输入层的权重无法更新，网络的学习能力只集中在靠近输出层的部分，导致模型性能受限。
训练时间增加：梯度很小，优化器调整参数的速度变慢，训练需要更多的时间。

二、梯度爆炸

1 梯度爆炸的现象

与梯度消失相反，当网络层数较深时，梯度在反向传播过程中可能会逐渐变大，甚至变得非常大。这种现象被称为梯度爆炸。

由于梯度过大，模型的参数更新幅度也会非常大，可能导致：

参数出现巨大波动，训练过程不稳定；
损失值（Loss）变得非常大，甚至出现 NaN；
模型无法收敛，最终无法学习任何规律。

2 为什么会发生梯度爆炸？

梯度爆炸的原因与梯度消失类似，主要是由于链式法则的多次相乘，但此时乘积中的值大于 1：

权重初始化不当：
- 如果网络的初始权重过大，在反向传播时，梯度的值也会变得很大。
- 例如，如果每层的权重初始化为 5，经过 10 层的链式积累，梯度可能会变成 $5^{10} = 9,765,625$
激活函数的导数较大：
- 如果激活函数的导数值很大，梯度在多次相乘后会迅速变大。
深层网络的结构：
- 网络层数越多，链式法则的积累效应越明显，导致梯度爆炸的概率增大。

3 梯度爆炸带来的问题

训练不稳定：梯度过大，导致参数更新过快，训练过程可能无法收敛。
损失发散：梯度爆炸会导致损失值发散，模型无法学习有效特征。

三、残差块

残差块（Residual Block）是深度学习中 ResNet（Residual Network） 网络的核心组件，它最早由微软研究院的何凯明（Kaiming He）等人在 2015 年提出。残差块通过引入跳跃连接（skip connection），解决了深层神经网络训练中的梯度消失、梯度爆炸和退化问题，使得网络能够训练得更深、性能更好。