（pytorch-深度学习）深度循环神经网络

深度循环神经网络

循环神经网络只有一个单向的隐藏层，在深度学习应用里，我们通常会用到含有多个隐藏层的循环神经网络，也称作深度循环神经网络。

下图演示了一个有 $L$ 个隐藏层的深度循环神经网络，每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。
在这里插入图片描述

具体来说

在时间步 $t$ 里，设小批量输入 $Xt∈Rn×d\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ （样本数为 $n$ ，输入个数为 $d$ ）
第 $ℓ\ell$ 隐藏层（ $ℓ=1,…,L\ell=1,\ldots,L$ ）的隐藏状态为 $Ht(ℓ)∈Rn×h\boldsymbol{H}_t^{(\ell)} \in \mathbb{R}^{n \times h}$ （隐藏单元个数为 $h$ ）
输出层变量为 $Ot∈Rn×q\boldsymbol{O}_t \in \mathbb{R}^{n \times q}$ （输出个数为 $q$ ），且隐藏层的激活函数为 $ϕ\phi$ 。

第1隐藏层的隐藏状态和之前的计算一样：
$Ht(1)=ϕ(XtWxh(1)+Ht−1(1)Whh(1)+bh(1)),\boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} + \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} + \boldsymbol{b}_h^{(1)}),$

其中权重 $Wxh(1)∈Rd×h\boldsymbol{W}_{xh}^{(1)} \in \mathbb{R}^{d \times h}$ 、 $Whh(1)∈Rh×h\boldsymbol{W}_{hh}^{(1)} \in \mathbb{R}^{h \times h}$ 和偏差 $bh(1)∈R1×h\boldsymbol{b}_h^{(1)} \in \mathbb{R}^{1 \times h}$ 分别为第1隐藏层的模型参数。

当 $\ell \leq L$ 时，第 $ℓ\ell$ 隐藏层的隐藏状态的表达式为

$Ht(ℓ)=ϕ(Ht(ℓ−1)Wxh(ℓ)+Ht−1(ℓ)Whh(ℓ)+bh(ℓ)),\boldsymbol{H}_t^{(\ell)} = \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} + \boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{hh}^{(\ell)} + \boldsymbol{b}_h^{(\ell)}),$

其中权重 $Wxh(ℓ)∈Rh×h\boldsymbol{W}_{xh}^{(\ell)} \in \mathbb{R}^{h \times h}$ 、 $Whh(ℓ)∈Rh×h\boldsymbol{W}_{hh}^{(\ell)} \in \mathbb{R}^{h \times h}$ 和偏差 $bh(ℓ)∈R1×h\boldsymbol{b}_h^{(\ell)} \in \mathbb{R}^{1 \times h}$ 分别为第 $ℓ\ell$ 隐藏层的模型参数。