神经网络中BP(back propagation)到底在干些什么

前言

想要理解神经网络的工作原理，反向传播(BP)是必须搞懂的东西。BP其实并不难理解，说白了就是用链式法则(chain rule)算算算。本文试图以某个神经网络为例，尽可能直观，详细，明了地说明反向传播的整个过程。

正向传播

在反向传播之前，必然是要有正向传播的。正向传播时的所有参数都是预先随机取的，没人能说这样的参数好不好，得要试过才知道，试过之后，根据得到的结果与目标值的差距，再通过反向传播取修正各个参数。下图就是一个神经网络，我们以整个为例子来说明整个过程

图1：神经网络图

我懒，此图取自参考文献[1]，图中的各个符号说明如下（顺序从下往上）：
$x_i$ ：输入样本中的第 $i$ 个特征的值
$v_{ih}$ ： $x_i$ 与隐层第 $h$ 个神经元连接的权重
$αh\alpha_h$ ：第h个隐层神经元的输入， $αh=∑i=1dvihxi\alpha_h=\sum_{i=1}^d v_{ih}x_i$
$b_h$ ：第h个隐层神经元的输出，某个神经元的输入和输出有关系 $f(αh)=bhf(\alpha_h)=b_h$ ，其中 $f (x)$ 为激活函数，比如Sigmoid函数 $f(x)=11+e−xf(x)=\dfrac{1}{1+e^{-x}}$
$w_hj$ ：隐层第 $h$ 个神经元和输出层第 $j$ 个神经元连接的权重
$βj\beta_j$ ：输出层第 $j$ 个神经元的输入， $βj=∑h=1qwhjbh\beta_j=\sum_{h=1}^q w_{hj}b_h$
$y_j$ ：第 $j$ 个输出层神经元的输出， $f(βj)=yjf(\beta_j)=y_j$ ， $f (x)$ 为激活函数
为了方便书写，我们假设截距项bias已经在参数 $w$ 和 $v$ 之中了，也就是说在输入数据的时候，我们增添了一个 $x_0=1$ ，由于我懒，图中没有画出来，但心里要清楚这一点。
相信看了图之后，神经网络的正向传播就相当简单明了了，不过，这里我还是啰嗦一句，举个例子，比如输出 $y_j$ 的计算方法为

$yj=f(βj)=f(∑h=1qwhjbh)=f(∑h=1qwhjf(αh))=f(∑h=1qwhjf(∑i=1dvihxi))y_j=f(\beta_j)=f(\sum_{h=1}^q w_{hj}b_h)=f(\sum_{h=1}^q w_{hj}f(\alpha_h))=f(\sum_{h=1}^q w_{hj}f(\sum_{i=1}^d v_{ih}x_i))$

反向传播

好了，通过正向传播，我们就已经得到了 $l$ 个 $y$ 的值了，将它们与目标值 $t$ ，也就是我们期望它们成为的值作比较，并放入损失函数中，记作 $L$ 。
损失 $L$ 可以自行选择，比如常见的均方误差 $L=12∑j=1l(yj−tj)2L=\dfrac{1}{2}\sum_{j=1}^l (y_j - t_j)^2$
利用这个误差，我们将进行反向传播，以此来更新参数 $w$ 和 $v$ 。更新时，我们采用的是梯度下降法，也就是

${w:=w+Δwv:=v+Δv\begin{cases}w := w + \Delta w \\ v := v + \Delta v\end{cases}$

其中， $Δw=−η∂L∂w\Delta w = -\eta \dfrac{\partial L}{\partial w}$ ， $Δv=−η∂L∂v\Delta v = -\eta \dfrac{\partial L}{\partial v}$ ， $η\eta$ 为学习率。
下面要做的工作就是计算出每个参数的梯度，这也就是链式法则发挥作用的地方了。
比如，我们要计算 $w_{hj}$ 。从网络结构中不难看出 $w_{hj}$ 影响了 $βj\beta_j$ 从而影响了 $y_j$ ，最终影响了 $L$ 所以我们有

$Δwhj=−η∂βj∂whj∂yj∂βj∂L∂yj\Delta w_{hj}=-\eta \dfrac{\partial \beta_j}{\partial w_{hj}} \dfrac{\partial y_j}{\partial \beta_j} \dfrac{\partial L}{\partial y_j}$

只要确定了损失函数 $L$ 和激活函数 $f (x)$ ，上面所有的都是可以算的，而且 $∂βh∂whj=bh\dfrac{\partial \beta_h}{\partial w_{hj}} = b_h$ 这点是显而易见的。并且， $∂yj∂βj=∂f(βj)∂βj\dfrac{\partial y_j}{\partial \beta_j} = \dfrac{\partial f(\beta_j)}{\partial \beta_j}$ 就是激活函数的导数。
同理， $v_{ih}$ 影响了 $αh\alpha_h$ ，从而影响了 $b_h$ ，从而影响了 $β1\beta_{1}$ ， $β2\beta_{2}$ ，…， $βl\beta_{l}$ ，从而影响了 $y_1$ ， $y_2$ ，…， $y_l$ ，最终影响了 $L$ 。

$Δvih=−η∂αh∂vih∂bh∂αh∑j=1l(∂βj∂bh∂yj∂βj∂L∂yj)\Delta v_{ih} = -\eta \dfrac{\partial \alpha_h}{\partial v_{ih}} \dfrac{\partial b_h}{\partial \alpha_h}\sum_{j=1}^l (\dfrac{\partial \beta_j}{\partial b_h} \dfrac{\partial y_j}{\partial \beta_j} \dfrac{\partial L}{\partial y_j})$

其中， $∂αh∂vih=xi\dfrac{\partial \alpha_h}{\partial v_{ih}}=x_i$ ， $∂βj∂bh=whj\dfrac{\partial \beta_j}{\partial b_h} = w_{hj}$ ， $∂yj∂βj=∂f(βj)∂βj\dfrac{\partial y_j}{\partial \beta_j} = \dfrac{\partial f(\beta_j)}{\partial \beta_j}$ 和 $∂bh∂αh=∂f(αh)∂αh\dfrac{\partial b_h}{\partial \alpha_h} = \dfrac{\partial f(\alpha_h)}{\partial \alpha_h}$ 是激活函数的导数。
至此，我们已经可以算出 $Δw\Delta w$ 和 $Δv\Delta v$ ，从而更新参数了。

关于激活函数的几点说明

从推出的公式中不难看出，随着反向传播向输出层这个方向的推进，激活函数的影响也就越来越来了。通俗一点来说，在计算 $Δwhj\Delta w_{hj}$ ，我们只乘了一个激活函数的导数，然而在计算 $Δvih\Delta v_{ih}$ 时，我们乘了多个激活函数的导数。

$Δwhj=−η∂βj∂whjf′(βj)∂L∂yj\Delta w_{hj}=-\eta \dfrac{\partial \beta_j}{\partial w_{hj}} f'(\beta_j) \dfrac{\partial L}{\partial y_j}$

$Δvih=−η∂αh∂vihf′(αh)∑j=1l(∂βj∂bhf′(βj)∂L∂yj)\Delta v_{ih} = -\eta \dfrac{\partial \alpha_h}{\partial v_{ih}} f'(\alpha_h) \sum_{j=1}^l (\dfrac{\partial \beta_j}{\partial b_h} f'(\beta_j) \dfrac{\partial L}{\partial y_j})$

不难推断出，如果隐层的层数更多的话，激活函数的影响还要更大。
一个比较传统的激活函数时Sigmoid函数，其图像如下所示。

图2：Sigmoid函数

不难发现，当 $x$ 比较大的时候，或比较小的时候， $f^{'} (x)$ 是趋近于0的，当神经网络的层数很深的时候，这么多个接近0的数相乘就会导致传到输出层这边的时候已经没剩下多少信息了，这时梯度对模型的更新就没有什么贡献了。那么大多数神经元将会饱和，导致网络就几乎不学习。这其实也是Sigmoid函数现在在神经网络中不再受到青睐的原因之一。
另一个原因是Sigmoid 函数不是关于原点中心对称的，这会导致梯度在反向传播过程中，要么全是正数，要么全是负数。导致梯度下降权重更新时出现 Z 字型的下降。
所以，就出现了ReLU这个激活函数 $f(x)=max⁡(0,x)f\left( x\right) =\max \left( 0,x\right)$ ，其图像如下图所示。