前言

在有些博客推导神经网络的BP时，涉及到多次矩阵求导运算，尤其是反向传播时候，求的梯度结果被转置了，比如假设最后一层的输出为

y = σ (w \cdot x + b)

$y=\sigma\left(w\cdot x+b \right)\\$
那么

\partial y \partial w \partial y \partial x = σ' (w \cdot x + b) \cdot x T = σ' (w \cdot x + b) \cdot w T

$\begin{aligned} \frac{\partial y}{\partial w}&={\sigma}'\left(w\cdot x+b\right)\cdot x^T\\ \frac{\partial y}{\partial x}&={\sigma}'\left(w\cdot x+b\right)\cdot w^T \end{aligned}$
这两个式子到底正确不正确，这个就涉及到矩阵求导了，转没转置这个对推导细节也是蛮重要的，接下来就看看我个人认为比较重要的矩阵求导式子，不定期更新。最后再证明这两个式子的正确性。其实先说一下结论，如果你强抠矩阵求导法则来证明这两个式子，它们是完全错误的。

【PS】我现在怀疑这个与CNN中的卷积核翻转有关系，但是一个是转置，一个是翻转，貌似运算结果也不一样，下一篇博客更新为什么CNN正传和反传的时候卷积核必须有一个翻转，另一个没翻转。

部分关键结论列举

行向量对列向量求导

设 $Y$ 是 $n$ 维行向量， $X$ 是 $p$ 维列向量，则

\partial Y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 ⋮ \partial y 1 \partial x p \dots ⋱ \dots \partial y n \partial x 1 ⋮ \partial y n \partial x p ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial Y}{\partial X}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1}& \cdots & \frac{\partial y_n}{\partial x_1}\\ \vdots& \ddots & \vdots\\ \frac{\partial y_1}{\partial x_p}& \cdots & \frac{\partial y_n}{\partial x_p} \end{bmatrix}$

列向量对行向量求导

设 $Y$ 是 $m$ 维列向量，X是 $q$ 维行向量，则

\partial Y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 ⋮ \partial y m \partial x 1 \dots ⋱ \dots \partial y 1 \partial x q ⋮ \partial y m \partial x q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial Y}{\partial X}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_q} \\ \vdots & \ddots & \vdots\\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_q} \\ \end{bmatrix}$

行向量对行向量求导

设 $Y$ 是 $m$ 维的行向量， $X$ 是 $q$ 维的行向量，则

\partial Y \partial X = [\partial Y \partial x 1 \dots \partial Y \partial x q]

$\frac{\partial Y}{\partial X}=\begin{bmatrix} \frac{\partial Y}{\partial x_1} &\cdots & \frac{\partial Y}{\partial x_q} \end{bmatrix}$

列向量对列向量求导

设 $Y$ 是 $m$ 维的列向量， $X$ 是 $q$ 维的列向量，则

\partial Y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial X ⋮ \partial y m \partial X ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial Y}{\partial X}=\begin{bmatrix} \frac{\partial y_1}{\partial X}\\ \vdots\\ \frac{\partial y_m}{\partial X} \end{bmatrix}$

元素对矩阵的求导

设 $y$ 是一个元素，X的一个 $p\times q$ 的矩阵，那么

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 ⋮ \partial y \partial x p 1 \dots ⋱ \dots \partial y \partial x 1 q ⋮ \partial y \partial x p q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial y}{\partial X}= \begin{bmatrix} \frac{\partial y}{\partial x_{11}} &\cdots &\frac{\partial y}{\partial x_{1q}} \\ \vdots &\ddots &\vdots \\ \frac{\partial y}{\partial x_{p1}} &\cdots &\frac{\partial y}{\partial x_{pq}} \end{bmatrix}$

矩阵对行向量求导

设 $Y$ 是 $m\times n$ 的矩阵， $X$ 是 $q$ 维行向量，那么

\partial Y \partial X = [\partial Y \partial x i \partial Y \partial x 2 \dots \partial Y \partial x q]

$\frac{\partial Y}{\partial X}= \begin{bmatrix} \frac{\partial Y}{\partial x_i} &\frac{\partial Y}{\partial x_2}&\cdots &\frac{\partial Y}{\partial x_q} \end{bmatrix}$
意思就是矩阵对向量中的每个元素单独求导，涉及矩阵对元素的求导

矩阵对列向量求导

设 $Y$ 是 $m\times n$ 的矩阵， $X$ 是 $q$ 维列向量，那么

\partial Y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial X ⋮ \partial y m 1 \partial X \dots ⋱ \dots \partial y 1 n \partial X ⋮ \partial y m n \partial X ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial Y}{\partial X}= \begin{bmatrix} \frac{\partial y_{11}}{\partial X} & \cdots & \frac{\partial y_{1n}}{\partial X}\\ \vdots &\ddots&\vdots\\ \frac{\partial y_{m1}}{\partial X} & \cdots & \frac{\partial y_{mn}}{\partial X}\\ \end{bmatrix}$
涉及到元素对矩阵的求导

行向量对矩阵的求导

设 $Y$ 是 $n$ 维行向量， $X$ 是 $p\times q$ 的矩阵，那么

\partial Y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial Y \partial x 11 ⋮ \partial Y \partial x p 1 \dots ⋱ \dots \partial Y \partial x 1 q ⋮ \partial Y \partial x p q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial Y}{\partial X}= \begin{bmatrix} \frac{\partial Y}{\partial x_{11}} & \cdots & \frac{\partial Y}{\partial x_{1q}} \\ \vdots & \ddots & \vdots \\ \frac{\partial Y}{\partial x_{p1}} & \cdots & \frac{\partial Y}{\partial x_{pq}} \\ \end{bmatrix}$

列向量对矩阵求导

设 $Y$ 是 $m$ 维列向量， $X$ 是 $p\times q$ 的矩阵，那么

\partial Y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial X ⋮ \partial y m \partial X ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial Y}{\partial X}= \begin{bmatrix} \frac{\partial y_1}{\partial X}\\ \vdots\\ \frac{\partial y_m}{\partial X} \end{bmatrix}$

矩阵对矩阵求导

设 $Y$ 是 $m\times n$ 的矩阵， $X$ 是 $p\times q$ 的矩阵，那么

\partial Y \partial X = [\partial Y \partial x \cdot 1 \dots \partial Y \partial x \cdot q] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \cdot \partial X ⋮ \partial y m \cdot \partial X ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \cdot \partial x \cdot 1 ⋮ \partial y m \cdot \partial x \cdot 1 \dots ⋱ \dots \partial y 1 \cdot \partial x \cdot q ⋮ \partial y m \cdot \partial x \cdot q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{aligned} \frac{\partial Y}{\partial X}&= \begin{bmatrix} \frac{\partial Y}{\partial x_{\cdot 1}}\cdots \frac{\partial Y}{\partial x_{\cdot q}} \end{bmatrix}\\ &=\begin{bmatrix} \frac{\partial y_{1\cdot}}{\partial X}\\ \vdots\\ \frac{\partial y_{m\cdot}}{\partial X}\\ \end{bmatrix}\\ &=\begin{bmatrix} \frac{\partial y_{1\cdot}}{\partial x_{\cdot 1}}& \cdots & \frac{\partial y_{1\cdot}}{\partial x_{\cdot q}}\\ \vdots&\ddots&\vdots\\ \frac{\partial y_{m\cdot}}{\partial x_{\cdot 1}}& \cdots & \frac{\partial y_{m\cdot}}{\partial x_{\cdot q}} \end{bmatrix} \end{aligned}$
其实就是转换成向量对矩阵或者矩阵对向量的求导。

两个例子

矩阵对矩阵求导

设 $Y=\begin{bmatrix}a & b&c \\d &e&f\end{bmatrix}$ ， $X=\begin{bmatrix}u&x\\v&y\\w&z \end{bmatrix}$ ，根据求导法则得到

\partial Y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial [ a b c ] \partial ⎡ ⎣ ⎢ u v w ⎤ ⎦ ⎥ \partial [ d e f ] \partial ⎡ ⎣ ⎢ u v w ⎤ ⎦ ⎥ \partial [ a b c ] \partial ⎡ ⎣ ⎢ x y z ⎤ ⎦ ⎥ \partial [ d e f ] \partial ⎡ ⎣ ⎢ x y z ⎤ ⎦ ⎥ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial a \partial u \partial a \partial v \partial a \partial w \partial d \partial u \partial d \partial v \partial d \partial w \partial b \partial u \partial b \partial v \partial b \partial w \partial e \partial u \partial e \partial v \partial e \partial w \partial c \partial u \partial c \partial v \partial c \partial w \partial f \partial u \partial f \partial v \partial f \partial w \partial a \partial x \partial a \partial y \partial a \partial z \partial d \partial x \partial d \partial y \partial d \partial z \partial b \partial x \partial b \partial y \partial b \partial z \partial e \partial x \partial e \partial y \partial e \partial z \partial c \partial x \partial c \partial y \partial c \partial z \partial f \partial x \partial f \partial y \partial f \partial z ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{aligned} \frac{\partial Y}{\partial X}&=\begin{bmatrix} \frac{\partial\begin{bmatrix} a&b&c \end{bmatrix}}{\partial\begin{bmatrix} u\\v\\w \end{bmatrix}}&\frac{\partial\begin{bmatrix} a&b&c \end{bmatrix}}{\partial\begin{bmatrix} x\\y\\z \end{bmatrix}}\\ \frac{\partial\begin{bmatrix} d&e&f \end{bmatrix}}{\partial\begin{bmatrix} u\\v\\w \end{bmatrix}}&\frac{\partial\begin{bmatrix} d&e&f \end{bmatrix}}{\partial\begin{bmatrix} x\\y\\z \end{bmatrix}} \end{bmatrix}\\ &=\begin{bmatrix} \frac{\partial a}{\partial u} & \frac{\partial b}{\partial u} & \frac{\partial c}{\partial u} & \frac{\partial a}{\partial x} & \frac{\partial b}{\partial x} & \frac{\partial c}{\partial x} \\ \frac{\partial a}{\partial v} & \frac{\partial b}{\partial v} & \frac{\partial c}{\partial v} & \frac{\partial a}{\partial y} & \frac{\partial b}{\partial y} & \frac{\partial c}{\partial y} \\ \frac{\partial a}{\partial w} & \frac{\partial b}{\partial w} & \frac{\partial c}{\partial w} & \frac{\partial a}{\partial z} & \frac{\partial b}{\partial z} & \frac{\partial c}{\partial z} \\ \frac{\partial d}{\partial u} & \frac{\partial e}{\partial u} & \frac{\partial f}{\partial u} & \frac{\partial d}{\partial x} & \frac{\partial e}{\partial x} & \frac{\partial f}{\partial x} \\ \frac{\partial d}{\partial v} & \frac{\partial e}{\partial v} & \frac{\partial f}{\partial v} & \frac{\partial d}{\partial y} & \frac{\partial e}{\partial y} & \frac{\partial f}{\partial y} \\ \frac{\partial d}{\partial w} & \frac{\partial e}{\partial w} & \frac{\partial f}{\partial w} & \frac{\partial d}{\partial z} & \frac{\partial e}{\partial z} & \frac{\partial f}{\partial z} \end{bmatrix} \end{aligned}$

表达式对矩阵求导

设 $X=\begin{bmatrix}x_1 \\x_2 \\x_3 \end{bmatrix}$ 的 $n$ 维列向量， $W=\begin{bmatrix} w_{11}&w_{12}& w_{13} \\ x_{21}&x_{22}&x_{23} \end{bmatrix}$ ，假设 $F=(W\cdot X)^T$ ，求 $\frac{\partial F}{\partial X}$

F \partial F \partial X = (W \cdot X) T = [w 11 \cdot x 1 + w 12 \cdot x 2 + w 13 \cdot x 3 w 21 \cdot x 1 + w 22 \cdot x 2 + w 23 \cdot x 3] = [f 1 f 2] = [\partial f 1 \partial X \partial f 2 \partial X] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 \partial x 1 \partial f 1 \partial x 2 \partial f 1 \partial x 3 \partial f 2 \partial x 1 \partial f 2 \partial x 2 \partial f 2 \partial x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ w 11 w 12 w 13 w 21 w 22 w 23 ⎤ ⎦ ⎥ = W T

$\begin{aligned} F&=(W\cdot X)^T\\ &=\begin{bmatrix} w_{11}\cdot x_1+w_{12}\cdot x_2+w_{13}\cdot x_3& w_{21}\cdot x_1+w_{22}\cdot x_2+w_{23}\cdot x_3 \end{bmatrix}\\ &=\begin{bmatrix} f_1 &f_2\end{bmatrix}\\ \frac{\partial F}{\partial X}&=\begin{bmatrix} \frac{\partial f_1}{\partial X} & \frac{\partial f_2}{\partial X} \end{bmatrix}\\&=\begin{bmatrix} \frac{\partial f_1}{\partial x_1} &\frac{\partial f_2}{\partial x_1} \\ \frac{\partial f_1}{\partial x_2} &\frac{\partial f_2}{\partial x_2} \\ \frac{\partial f_1}{\partial x_3} &\frac{\partial f_2}{\partial x_3} \end{bmatrix}\\&=\begin{bmatrix} w_{11} & w_{21}\\ w_{12} & w_{22}\\ w_{13} & w_{23} \end{bmatrix}\\&=W^T \end{aligned}$

神经网络相关两个验证

前言中列了两个公式，关于结果是转置的原因，我们开证，先设置几个条件：

$w$ 是权重矩阵， $x$ 是列向量，表示输入样本。

W = [w 11 w 21 w 12 w 22 w 13 w 23] ； X = ⎡ ⎣ ⎢ x 1 x 2 x 3 ⎤ ⎦ ⎥

$W=\begin{bmatrix} w_{11}&w_{12}&w_{13}\\ w_{21}&w_{22}&w_{23} \end{bmatrix}； X=\begin{bmatrix} x_1\\ x_2\\ x_3 \end{bmatrix}$
求证：

\partial ( W \cdot X ) \partial X = W T; \partial ( W \cdot X ) \partial W = X T;

$\frac{\partial (W\cdot X)}{\partial X}=W^T;\quad\frac{\partial (W\cdot X)}{\partial W}=X^T;$

第一个证明

设

C = W \cdot X = [w 11 x 1 + w 12 x 2 + w 13 x 3 w 21 x 1 + w 22 x 2 + w 23 x 3] = [c 1 c 2]

$C=W\cdot X=\begin{bmatrix} w_{11} x_1+w_{12}x_2+w_{13}x_3\\ w_{21} x_1+w_{22}x_2+w_{23}x_3\\ \end{bmatrix}=\begin{bmatrix} c_1\\ c_2 \end{bmatrix}$
利用列向量对列向量的求导法则，可以得到

\partial C \partial X = ⎡ ⎣ ⎢ ⎢ \partial c 1 \partial X \partial c 2 \partial X ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial c 1 \partial x 1 \partial c 1 \partial x 2 \partial c 1 \partial x 3 \partial c 2 \partial x 1 \partial c 2 \partial x 2 \partial c 2 \partial x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ w 11 w 12 w 13 w 21 w 22 w 23 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{aligned} \frac{\partial C}{\partial X}=\begin{bmatrix} \frac{\partial c_1}{\partial X}\\ \frac{\partial c_2}{\partial X} \end{bmatrix} =\begin{bmatrix} \frac{\partial c_1}{\partial x_1}\\ \frac{\partial c_1}{\partial x_2} \\ \frac{\partial c_1}{\partial x_3}\\ \frac{\partial c_2}{\partial x_1} \\ \frac{\partial c_2}{\partial x_2}\\ \frac{\partial c_2}{\partial x_3} \end{bmatrix} =\begin{bmatrix} w_{11} \\ w_{12}\\ w_{13} \\ w_{21}\\ w_{22} \\ w_{23} \end{bmatrix} \end{aligned}$

所以说，第一个式子如果直接按照矩阵求导法则证明，是完全错误的。除非是

\partial ( ( W \cdot X ) T ) \partial X = W T

$\frac{\partial ((W\cdot X)^T)}{\partial X}=W^T$

第二个证明

不用证明了，如果 $W\cdot X$ 结果是向量的话， $\frac{\partial (W\cdot X)}{\partial W}=X^T$ 这个结论必定是错的，不论是依据行向量对矩阵求导还是列向量对矩阵求导，其结果矩阵不可能是 $X$ 的维度大小，肯定大很多，不信你按照上面的矩阵运算法则自己推导。

然后我解释一下为什么 $y=\sigma\left(w\cdot x+b \right)\\$ 能推到 $\frac{\partial y}{\partial w}={\sigma}'\left(w\cdot x+b\right)\cdot x^T$ ，以下纯属个人见解：

其实这一部分推导时候不能用矩阵求导方法，而是直接拆分。

注意，权重大小是 $j\times i$ 而非 $i\times j$ ，表示的是输出到输入的连接权重，而非输入到输出的连接权重，这个从 $W \times x+b$ 而非 $x\times W+b$ 很容易理解到

随后证明流程如下：

y j \partial y j \partial w j i = σ (\sum i w j i \cdot x i + b j) = σ' (\sum i w j i \cdot x i + b j) \cdot x i = σ' j \cdot x i

$\begin{aligned} y_j&=\sigma\left(\sum_i w_{ji}\cdot x_i+b_j\right)\\ \frac{\partial y_j}{\partial w_{ji}}&={\sigma}'\left(\sum_i w_{ji}\cdot x_i+b_j\right)\cdot x_i={\sigma}'_{j}\cdot x_i \end{aligned}$
然后我们将多个输出神经元

y $y$ 对权重的更新组合成矩阵和向量乘积的形式：

\partial y \partial W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial w 11 ⋮ \partial y 1 \partial w m 1 \dots ⋱ \dots \partial y n \partial w 1 n ⋮ \partial y n \partial w m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ σ' 1 \cdot x 1 ⋮ σ' m \cdot x 1 \dots ⋱ \dots σ' 1 \cdot x n ⋮ σ' m \cdot x n ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ σ' 1 ⋮ σ' m ⎤ ⎦ ⎥ ⎥ \cdot [x 1 \dots x n] = σ' \cdot X T

$\begin{aligned} \frac{\partial y}{\partial W}&=\begin{bmatrix} \frac{\partial y_1}{\partial w_{11}} & \cdots & \frac{\partial y_n}{\partial w_{1n}}\\ \vdots & \ddots & \vdots\\ \frac{\partial y_1}{\partial w_{m1}} & \cdots & \frac{\partial y_n}{\partial w_{mn}}\\ \end{bmatrix}\\ &=\begin{bmatrix} {\sigma}'_{1}\cdot x_1 &\cdots & {\sigma}_{1}'\cdot x_n\\ \vdots & \ddots & \vdots\\ {\sigma}'_{m}\cdot x_1 &\cdots & {\sigma}'_{m}\cdot x_n\\ \end{bmatrix}\\ &=\begin{bmatrix} {\sigma}'_{1}\\ \vdots\\ {\sigma}'_{m} \end{bmatrix} \cdot \begin{bmatrix} x_1&\cdots&x_n \end{bmatrix} \\&= {\sigma}'\cdot X^T \end{aligned}$
个人觉得用矩阵求导证明BP有很多漏洞不好做，所以最好的方法是拆分开，按下标证明，即证