一般神经网络的微分与网络参数的初始化

(文章的主要内容来自电科的顾亦奇老师的 Mathematical Foundation of Deep Learning, 有部分个人理解)

一般深度神经网络的微分

上周讨论的前向和反向传播算法可以推广到任意深度神经网络的微分。
对于一般的网络来说，可能无法逐层分割，但仍然可以用流图来表示。因此，反向传播是通过从输出神经元开始、向后传递信息并在输入处结束来执行的。

更准确地说，给定从 $\mathbb{R}^{d}$ 到 $\mathbb{R}$ 的神经网络 $f (x; θ)$ 映射图，假设总共有 K 个神经元，我们用 $x_1, \dots ,x_d$ 和 $N_{d+1}, \dots ,N_{d+K}$ 标记输入。为了方便起见，神经元被标记为使得有向边总是从小索引到大索引。

我们用 $w_{i,j}$ 表示从神经元 $N_i$ （或输入 $x_i$ ）到神经元 $N_j$ 的边的权重。令 $P_j$ 为由神经元 $N_j$ 的直接前驱的索引组成的集合 $(d + 1 \leq j \leq d + K)$ 。类似地，令 $S_j$ 为由顶点 $x_j$ 或 $N_j$ 的直接后继索引组成的集合 $(1 \leq j < d + K)$ 。例如，在图 2.10 中， $P_7 = \{2,3,5,6\}$ ， $S_7 = \{9,10,11\}$ 。
在这里插入图片描述
现在，对于任何 $1 \leq j \leq d + K$ ，假设以下计算发生在 $N_j$ :
$\sigma _ { j } ( q _ { j } ) , \text{ } \text{ } q _ { j } = \sum _ { k \in P _ { j } } w _ { k , j } y _ { k } + b _ { j } , \text{for }\text{ } d + 1 \leq j \leq d + K . \tag{2.27}$

$\text{ }\text{ }\text{for }\text{ } 1 \leq j \leq d . \tag{2.28}$
其中 $σ_j$ 和 $b_j$ 是 $N_j$ 的激活函数和偏差。
恒等式（2.28）仅仅是为了符号方便。
请注意， $y_j$ 表示顶点 $N_j$ 或 $x_j$ 的输出值。
我们可以使用一种流程图来表示这个过程:
在这里插入图片描述

另外，我们将 $p _ { j }$ 表示为 $\frac { \partial f ( x ; \theta ) } { \partial q _ { j } }$ 表示为 $d + 1 \leq j \leq d + K$ .
使用链式法则，如果 $i ∈ S_j$ ，我们有 (对于节点 $N_j$ , f对其任意一个入度边 $w_{i,j}$ 偏导表示) (这里 $y_i$ 表示某个前导节点)
$\frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } } = \frac { \partial f ( x ; \theta ) } { \partial q _ { j } } \cdot \frac { \partial q _ { j } } { \partial w _ { i , j } } = p _ { j } \cdot y _ { i \cdot } \tag{2.29}$ $\frac { \partial f ( x ; \theta ) } { \partial b _ { j } } = \frac { \partial f ( x ; \theta ) } { \partial q _ { j } } \cdot \frac { \partial q _ { j } } { \partial b _ { j } } = p _ { j } . \tag{2.30}$
另外, $p_j$ 也可通过 $\frac { \partial f ( x ; \theta ) } { \partial q _ { j } } = \sum _ { k \in S _ { j } } \frac { \partial f ( x ; \theta ) } { \partial q _ { k } } \cdot \frac { \partial q _ { k } } { \partial y _ { j } } \cdot \frac { d y _ { j } } { d q _ { j } } \\ = \sigma _ { j } ^ { \prime } ( q _ { j } ) \cdot \sum _ { k \in S _ { j } } p _ { k } \cdot w _ { j , k } \text{ }\text{ }\text{ }\text{for }\text{ } d + 1 \leq j < d + K .\tag{2.32}$ 来计算.

同时, 我们有
$\frac { \partial f ( x ; \theta ) } { \partial x _ { j } } = \sum _ { k \in S _ { j } } \frac { \partial f ( x ; \theta ) } { \partial q _ { k } } \cdot \frac { \partial q _ { k } } { \partial y _ { j } } \cdot \frac { \partial y _ { j } } { \partial x _ { j } }\tag{2.33}$
因此，我们可以首先实现前向传播 (2.27)-(2.28)，它传递来自输入 $x_1, \dots, x_d$ 的信息到输出神经元 $N_{d+K}$
在此阶段，我们从小到大地计算并保存 $1,\dots, d+K$ 时的 ${y_j\}$ 和 ${q_j\}$ 。
接下来，我们实现反向传播 (2.29)-(2.32)，它从 $N_{d+K}$ 传递到输入。具体来说，我们依照 $d+K-1,\dots, d+1$ 计算 ${p_j\}$ 、 $\left\{ \frac { \partial f ( x ; \theta ) } { \partial w _ { i , j} } \right\} _ { i \in P j }$ 和 $\left\{ \frac { \partial f ( x ; \theta ) } { \partial b_j} \right\}$ . 最终, $1,\dots, d$ 时的 $\left\{ \frac { \partial f ( x ; \theta ) } { \partial x_j} \right\}$ 可被公式(2.33)计算
在这里插入图片描述

由路径制定的导数

更一般地，我们可以制定导数的封闭形式。
在图论意义上，将 $\mathcal{P}(j, n_1, n_2, \dots, n_k, d + K)$ 表示为从顶点 $N_j$ 或 $x_j$ 通过神经元 $N_{n_1}, N_{n_2}, \dots, N_{n_k}$ 到输出神经元 $N_{d+K}$ 的路径。
然后根据链式法则，对于任何 $d + 1 \leq j \leq d + K$ 且 $i ∈ P_j$ ，有
$\frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } } = y _ { i } \cdot \sum _ { \mathcal{P} ( j , n _ { 1 } , n _ { 2 } , \ldots , n _ { k } , d + K ) } \sigma _ { j } ^ { \prime } ( q _ { j } ) \cdot w _ { j , n _ { 1 } } \cdot \sigma _ { n _ { 1 } } ^ { \prime } ( q _ { n _ { 1 } } ) \cdot w _ { n _ { 1 } , n _ { 2 } } \cdot \sigma _ { n _ { 2 } } ^ { \prime } ( q _ { n _ { 2 } } ) \cdots w _ { n _ { k }, d+K } \cdot \sigma _ { d + K } ^ { \prime } ( q _ { d + K } ) ,\tag{2.34}$ 其中对从节点 $N_j$ 到 $N_{d+K}$ 的所有路径进行求和。类似地，对于 $1 \leq j \leq d$ ，有:
$\frac { \partial f ( x ; \theta ) } { \partial x_ j } = \sum _ { \mathcal{P} ( j , n _ { 1 } , n _ { 2 } , \ldots , n _ { k } , d + K ) } \sigma _ { j } ^ { \prime } ( q _ { j } ) \cdot w _ { j , n _ { 1 } } \cdot \sigma _ { n _ { 1 } } ^ { \prime } ( q _ { n _ { 1 } } ) \cdot w _ { n _ { 1 } , n _ { 2 } } \cdot \sigma _ { n _ { 2 } } ^ { \prime } ( q _ { n _ { 2 } } ) \cdots w _ { n _ { k }, d+K } \cdot \sigma _ { d + K } ^ { \prime } ( q _ { d + K } ) ,$ 其中对从 $x_j$ 到 $N_{d+K}$ 的所有路径进行求和.

假设 $f (x; θ)$ 的所有激活函数都是 sigmoid 函数。请注意，如果中间变量 $q_i$ 的模 $q_i|$ 较大，则 $σ^{\prime}_i (q_i)$ 项将接近于零。那么对于长路径，包含许多小乘数 $σ^{\prime}_i (q_i)$ 的右侧乘积将非常接近于零。因此，如果权重为 $w_{i,j}$ 的边距离输出神经元较远，则导数 $\frac { \partial f ( x ; \theta ) } { \partial w_{i , j} }$ 可能非常接近于零，甚至在实际计算中被机器精度下溢。

此外，假设我们有一个损失函数 $\mathcal{L}(f(x;θ))$ ，其中 $\mathcal{L}(\cdot)$ 是可微分的。当使用梯度下降法优化 $\mathcal{L}$ 时，我们计算的 $∇_{θ}\mathcal{L}$ 有以下分量： $\nabla _ { w _ { i , j } } \mathcal{L}= \mathcal{L}^ { \prime } ( f ( x ; \theta ) ) \cdot \frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } } .$ 因此， $\frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } }$ 的消失很可能会导致 $\nabla _ { w _ { i , j } } \mathcal{L}$ 的消失。在这种情况下，参数 $w_{i,j}$ 几乎无法通过梯度下降来改变，因此收敛速度会大大减慢。这种梯度消失的问题经常出现在使用 sigmoid 函数的深度神经元网络优化中。解决梯度消失问题的一种有效方法是使用残差神经网络（ResNets）。

权重初始化

在网络层数较少的情况下，将所有权重和偏差初始化为零，或者从零均值的均匀分布或高斯分布中进行采样，通常会提供足够令人满意的收敛结果。然而，在深度神经网络的情况下，权重的正确初始化会对最优算法的收敛方式产生显着影响。

权重太小/大可能会导致梯度消失或爆炸问题, 这可以从梯度表达式（2.34）中部分地认识到。
如果 $σ^{\prime}_j$ 是有限的并且权重 $w_{ji}$ 的值太小，则长路径的乘积将接近于零，从而导致梯度消失。
另一方面，对于 sigmoid 激活结果，如果 $w_{ji}|$ 较大， $\sum _ { k \in P _ { j } } w _ { k , j } y _ { k } + b _ { j }$ 也会很大，使得 $σ^{\prime}_j (q_j )$ 接近于零。

从前向传播的观点来看…

权重 $w_{ji}$ 如何的正确初始化?
现在假设信息通过前向传播从第 (ℓ − 1) 层传递到第 ℓ 层，即 $\ell } = \sigma _ { j } ^ { \ell} ( \sum _ { i = 1 } ^ { M _ { \ell - 1 } } w _ { j i } ^ { \ell } y _ { i } ^ {\ell - 1 } ) ,\tag{2.35}$
其中 j 是第 ℓ 层神经元的索引。这里我们省略了偏差 $b$ 。在实践中，偏差通常被初始化为零或均值为零的随机变量。为简单起见，我们假设 $\{w^ℓ_{ij}\}_{i,j}$ 和 $\{y^{ℓ−1}_i\}_i$ 是两组独立且同分布的均值为零的随机变量。
此外，在前向传播中， $y^{ℓ−1}_i$ 是通过先前的权重计算的，因此与当前的 $w^ℓ_{ij}$ 无关，因此它俩是相互独立的。

最终, 我们的目标是找到一种 $w^ℓ_{ij}$ 的分布，使得第 ℓ 层的输出与它的输入一样分散, 即 $\text{Var}(y^ℓ_j) = \text{Var}(y^{ℓ−1}_i )$ 。
我们首先引入以下结论

引理2.3: 如果 X 和 Y 是两个独立的随机变量且 $E [(X)] = E [(Y)] = 0$ ，则 $\text{Var}(XY ) = \text{Var}(X)\text{Var}(Y )$ 。
在这里插入图片描述
此外，令 $f$ 为可微函数。然后 $f (x)$ 在 $x = E [X]$ 处的线性近似给出 $\approx f ( E \left[ X \right] ) + f ^ { \prime } ( E \left[ X \right] ) ( x - E \left[ X \right] ) .$ 用随机变量 $X$ 替换变量 $x$ 会得到 $\approx f ( E \left[ X \right] ) + f ^ { \prime } ( E \left[ X \right] ) ( X - E \left[ X \right] ) .$ 因此, $\text{Var}( f ( X ) ) \approx \text{Var} ( f ^ { \prime } ( E \left[ X \right] ) ( X - E \left[ X \right] ) ) = f ^ { \prime } ( E \left[ X \right] ) ^ { 2 } \text{Var} ( X ) .$ 那么带入公式 (2.35) 的数值可知 ( $f\rightarrow\sigma$ , $X\rightarrow w _ { j i } ^ { \ell } y _ { i } ^ {\ell - 1 }$ , 且已知 $\ell }$ 和 ${\ell - 1 }$ 相互独立, 故 $\mathbb{E}(w _ { j i } ^ { \ell } y _ { i } ^ {\ell - 1 })$ 是可以分离的. 由假设可得, $\mathbb{E}(w _ { j i } ^ { \ell }) = \mathbb{E}( y _ { i } ^ {\ell - 1 })=0$ ):
在这里插入图片描述
(这里倒数第二个个式子到最后一个式子的原因, 我怀疑是在初始化中, 所有Weight的初始值都是相同的)
因为我们的目标是 $\text{Var}(y^ℓ_j) = \text{Var}(y^{ℓ−1}_i )$ , 因此需要 $\ell - 1 } ( ( \sigma _ { j } ^ {\ell} ) ^ { \prime } ( 0 ) ) ^ { 2 } \text{Var} ( w _ { j i } ^ { \ell } ) = 1$ 故有:
$\text{Var}( w ^ { \ell } _ { j i } ) = \frac { 1 } { M _ { \ell - 1 } \left( ( \sigma ^ { \ell } _ { j } ) ^ { \prime } ( 0 ) \right) ^ { 2 } } \tag{2.37}$

因此，我们得到两个有用的结论：

如果 $w^{\ell}_{ji}$ 是从正态分布中得出的, 那么 $\ell } \sim \mathcal{N} ( 0 , \frac { 1 } { M _ { \ell - 1 } ( ( \sigma _ { j } ^ { \ell } ) ^ { \prime } ( 0 ) ) ^ { 2 } } )$
如果 $w^{\ell}_{ji}$ 是从均匀分布中得出的, 因为 $U [- a, a]$ 的方差是 $\frac{a^2}{3}$ , 所以有 $\ell } \sim U \left[ - \frac { \sqrt { 3 } } { \sqrt { M _ { \ell - 1 } ( \sigma _ { j } ^ { \prime } ) ^ { \prime } ( 0 ) } } , \frac { \sqrt { 3 } } { \sqrt { M _ { \ell- 1 } ( \sigma _ { j } ^ { \ell} ) ^ { \prime } ( 0 ) } } \right]$

可以发现, 如果要实现网络两层输出值的方差一致, 只需要保证它们之间的边权的初始化服从上述分布即可.
同时, 通过观察方差本身的构成, 我们可以发现这种方差只与 “第一层的结点个数” 和 “第二层的激活函数在0处的导数” 有关.
在这里插入图片描述

从反向传播的观点来看…

另一种策略是从反向传播的角度推导的，也称为 Xavier 初始化 [5]。
我们预计: $\text{Var}( \frac { \partial f ( x ; \theta ) } { \partial w _ { i j } ^ { \ell - 1 } } ) = \text{Var} ( \frac { \partial f ( x ; \theta ) } { \partial w _ { i j } ^ { \ell } } )\tag{2.38}$

我们假设 $\{a_i , w^ℓ_{ji}\}_{i,j,ℓ}$ 中的所有权重都是独立且均值为零的同分布随机变量。另外，我们假设所有激活函数都是恒等的，则关系式 (2.22)-(2.25) 为 $,\tag{2.39}$ $\ell - 1 } = \sum _ { j = 1 } ^ { M _ { \ell } } p _ { j } ^ { \ell } w _ { j i } ^ { \ell} , \text{ for }\ \ell= L , L - 1 , \ldots , 2 \tag{2.40}$

通过回溯递归, $p_j^\ell$ 是由 $\{w^{\ell+1}_{ji}\}_{i,j} \cup \cdots \cup \left\{ w _ { j i } ^ { L } \right\} _ { i , j } \cup \left\{ a _ { i } \right\} _ { i }$ 确定的而非独立的 $\{w^\ell_{ji}\}_{i,j}$ 和 $\{y^{\ell-1}\}_i$ (这俩者是 $p_j^\ell$ 左侧的边权和输出).
因此, $\ell }$ 与 $\ell }$ 之间是彼此独立的, 故: $\mathbb{E} \left[ \sum _ { j = 1 } ^ { M _ { \ell } } p _ { j } ^ { \ell } w _ { j i } ^ { \ell } \right] = \sum _ { j = 1 } ^ { M _ { \ell } } \mathbb{E} \left[ p _ { j } ^ { \ell } \right] \mathbb{E} \left[ w _ { j i } ^ { \ell } \right] = 0 ,$ 因为所有权重都是均值为零的同分布随机变量, 故 $\mathbb{E}[w_{ji}^{\ell}]=0$ , 由上式可得， $\mathbb{E}[p^{ℓ−1}_i] = 0$ ，类似地， $\mathbb{E}[p^ℓ_i] = 0$ .

此外，由于 $\ell } = \sum _ { i = 1 } ^ { M _ { \ell - 1 } } w _ { j i } ^ { \ell } y _ { i } ^ { \ell - 1 }$ 且 $w^ℓ_{ji}$ 与 $y^{ℓ−1}_i$ 无关 (前向传播的结论)，故 $\mathbb{E}[ y _ { j } ^ { \ell } ] = \sum _ { i = 1 } ^ { M _ { \ell - 1} } \mathbb{E} [ w _ { j i } ^ { \ell } ] \mathbb{E} [ y _ { i } ^ { \ell - 1 } ] = 0.$

类似地, $\mathbb{E}[y_j^{\ell-1}]=\mathbb{E}[y_j^{\ell-2}]=0$ .

现在，对于 $ℓ \geq 2$ ，通过(2.29)，目标(2.38)可被写为 $\text{Var}(p_j^{\ell-1}y_i^{\ell-2}) = \text{Var}(p^\ell_j y_i^{\ell-1})$
使用引理 2.3 令: $\text{Var}( p _ { j } ^ { \ell- 1 } ) \text{Var}( y _ { i } ^ { \ell- 2 } ) = \text{Var}( p _ { j } ^ { \ell} ) \text{Var}( y _ { i } ^ { \ell- 1 } ) .$

如上所述，我们还期望 $\text{Var}(y^{ℓ−2}_i ) = \text{Var}(y^{ℓ−1}_i)$ (基于前向传播的目标)，因此下式必须成立 $\text{Var}( p _ { j } ^ { \ell - 1 } ) = \text{Var}( p _ { j } ^ { \ell } ). \tag{2.41}$
对(2.40)进行取方差的操作, 即 $\text{Var}(\cdot)$ . 以及引入引理2.3. 可得:
$\text{Var} ( p _ { i } ^ { \ell - 1 } ) = \sum _ { j = 1 } ^ { M _ { \ell } } \text{Var}( p _ { j } ^ { \ell } ) \text{Var} ( w _ { j i } ^ { \ell } ) = M _ { \ell} \text{Var}( p _ { j } ^ { \ell } ) \text{Var}( w _ { j i } ^ { \ell} ) ,\tag{2.42}$
其中我们使用了 $\{p^ℓ_j\}_j$ 同分布这一事实。结合（2.41）和（2.42），我们有 $\text{Var} ( w _ { j i } ^ { \ell} ) = \frac { 1 } { M _ { \ell } } .\tag{2.43}$
关系式(2.43)表示 $w^ℓ_{ji}$ 的方差与第ℓ层的宽度成反比。相比之下，在线性激活函数的假设下，关系式（2.37）变为 $\text{Var} ( w _ { j i } ^ { \ell} ) = \frac { 1 } { M _ { \ell - 1 } } ,\tag{2.44}$
这意味着 $w^ℓ_{ji}$ 的方差与 ℓ−1 层的宽度成反比.

现在，只有在 $M_ℓ = M_{ℓ−1}$ 的情况下 (即当任意两个连续层的宽度相同时)，（2.43）和（2.44）同时满足。由于这个条件限制太多，一个有利可图的折衷方案是取两者的调和平均值，在这种情况下有 $\text{Var} ( w _ { j i } ^ { \ell } ) = \frac { 2 } { M _ { \ell } + M _ { \ell - 1 } } .$

再次, 我们得到两个具有实际意义的结论:

如果 $w^{\ell}_{ji}$ 是从正态分布中得出的, 那么 $\ell } \sim \mathcal{N} ( 0 , \frac { 2 } { M _ { \ell } + M _ { \ell - 1 } } )$
如果 $w^{\ell}_{ji}$ 是从均匀分布中得出的, 因为 $U [- a, a]$ 的方差是 $\frac{a^2}{3}$ , 所以有 $\ell } \sim U \left[ - \frac { \sqrt { 6 } } { \sqrt { M _ { \ell} + M _ { \ell - 1 } } } , \frac { \sqrt { 6 } } { \sqrt { M _ { \ell}+ M _ { \ell- 1 } } } \right]$