（pytorch-深度学习）循环神经网络

循环神经网络

在 $n$ 元语法中，时间步 $t$ 的词 $w_t$ 基于前面所有词的条件概率只考虑了最近时间步的 $n - 1$ 个词。如果要考虑比 $t - (n - 1)$ 更早时间步的词对 $w_t$ 的可能影响，需要增大 $n$ 。
这样模型参数的数量将随之呈指数级增长。

循环神经网络并非刚性地记忆所有固定长度的序列，而是通过隐藏状态来存储之前时间步的信息。

不含隐藏状态的神经网络

一个含单隐藏层的多层感知机

给定样本数为 $n$ 、输入个数（特征数或特征向量维度）为 $d$ 的小批量数据样本 $X∈Rn×d\boldsymbol{X} \in \mathbb{R}^{n \times d}$ 。设隐藏层的激活函数为 $ϕ\phi$ ，那么隐藏层的输出 $H∈Rn×h\boldsymbol{H} \in \mathbb{R}^{n \times h}$ 计算为

$H=ϕ(XWxh+bh),\boldsymbol{H} = \phi(\boldsymbol{X} \boldsymbol{W}_{xh} + \boldsymbol{b}_h),$

其中隐藏层权重参数 $Wxh∈Rd×h\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$ ，隐藏层偏差参数 $bh∈R1×h\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$ ， $h$ 为隐藏单元个数。上式相加的两项形状不同，因此将按照广播机制相加。

把隐藏变量 $H\boldsymbol{H}$ 作为输出层的输入，且设输出个数为 $q$ （如分类问题中的类别数），输出层的输出为

$O=HWhq+bq,\boldsymbol{O} = \boldsymbol{H} \boldsymbol{W}_{hq} + \boldsymbol{b}_q,$

其中输出变量 $O∈Rn×q\boldsymbol{O} \in \mathbb{R}^{n \times q}$ , 输出层权重参数 $Whq∈Rh×q\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}$ , 输出层偏差参数 $bq∈R1×q\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}$ 。如果是分类问题，我们可以使用 $softmax(O)\text{softmax}(\boldsymbol{O})$ 来计算输出类别的概率分布。

含隐藏状态的循环神经网络

考虑输入数据存在时间相关性，假设 $Xt∈Rn×d\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ 是序列中时间步 $t$ 的小批量输入， $Ht∈Rn×h\boldsymbol{H}_t \in \mathbb{R}^{n \times h}$ 是该时间步的隐藏变量。

与多层感知机不同的是，这里我们保存上一时间步的隐藏变量 $Ht−1\boldsymbol{H}_{t-1}$ ，并引入一个新的权重参数 $Whh∈Rh×h\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$ ，该参数用来描述在当前时间步如何使用上一时间步的隐藏变量。
具体来说，时间步 $t$ 的隐藏变量的计算由当前时间步的输入和上一时间步的隐藏变量共同决定：
$Ht=ϕ(XtWxh+Ht−1Whh+bh)\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h)$

与多层感知机相比，这里多了了 $Ht−1Whh\boldsymbol{H}{t-1} \boldsymbol{W}{hh}$ 一项。

由上式中相邻时间步的隐藏变量 $Ht\boldsymbol{H}t$ 和 $Ht−1\boldsymbol{H}{t-1}$ 之间的关系可知，这里的隐藏变量能够捕捉截至当前时间步的序列的历史信息，就像是神经网络当前时间步的状态或记忆一样。因此，该隐藏变量也称为隐藏状态。

由于隐藏状态在当前时间步的定义使用了上一时间步的隐藏状态，上式的计算是循环的。使用循环计算的网络即循环神经网络（recurrent neural network）。

循环神经网络有很多种不同的构造方法。含上式所定义的隐藏状态的循环神经网络是极为常见的一种。在时间步 $t$ ，输出层的输出和多层感知机中的计算类似：

$Ot=HtWhq+bq\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol{b}_q$

循环神经网络的参数包括

隐藏层的权重 $Wxh∈Rd×h\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$ 、 $Whh∈Rh×h\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$ 和偏差 $bh∈R1×h\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$
输出层的权重 $Whq∈Rh×q\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}$ 和偏差 $bq∈R1×q\boldsymbol{b}_q \in \mathbb{R}^{1 \times q}$ 。
即便在不同时间步，循环神经网络也始终使用这些模型参数。因此，循环神经网络模型参数的数量不随时间步的增加而增长。

下图展示了循环神经网络在3个相邻时间步的计算逻辑。

在这里插入图片描述

在时间步 $t$ ，隐藏状态的计算可以看成是将输入 $Xt\boldsymbol{X}_t$ 和前一时间步隐藏状态 $Ht−1\boldsymbol{H}_{t-1}$ 连结后输入一个激活函数为 $ϕ\phi$ 的全连接层。
该全连接层的输出就是当前时间步的隐藏状态 $Ht\boldsymbol{H}_t$
模型参数为 $Wxh\boldsymbol{W}_{xh}$ 与 $Whh\boldsymbol{W}_{hh}$ 的连结，偏差为 $bh\boldsymbol{b}_h$ 。当前时间步 $t$ 的隐藏状态 $Ht\boldsymbol{H}_t$ 将参与下一个时间步 $t + 1$ 的隐藏状态 $Ht+1\boldsymbol{H}_{t+1}$ 的计算，并输入到当前时间步的全连接输出层。

隐藏状态中 $XtWxh+Ht−1Whh\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ 的计算等价于 $Xt\boldsymbol{X}_t$ 与 $Ht−1\boldsymbol{H}_{t-1}$ 连结后的矩阵乘以 $Wxh\boldsymbol{W}_{xh}$ 与 $Whh\boldsymbol{W}_{hh}$ 连结后的矩阵。

我们用一个具体的例子来验证这一点。

首先，我们构造矩阵X、W_xh、H和W_hh，它们的形状分别为(3, 1)、(1, 4)、(3, 4)和(4, 4)。
将X与W_xh、H与W_hh分别相乘，再把两个乘法运算的结果相加，得到形状为(3, 4)的矩阵。

import torchX, W_xh = torch.randn(3, 1), torch.randn(1, 4)
H, W_hh = torch.randn(3, 4), torch.randn(4, 4)
torch.matmul(X, W_xh) + torch.matmul(H, W_hh)

将矩阵X和H按列（维度1）连结，连结后的矩阵形状为(3, 5)。可见，连结后矩阵在维度1的长度为矩阵X和H在维度1的长度之和（ $1 + 4$ ）。
然后，将矩阵W_xh和W_hh按行（维度0）连结，连结后的矩阵形状为(5, 4)。最后将两个连结后的矩阵相乘，得到与上面代码输出相同的形状为(3, 4)的矩阵。

总结为：
$XtWxh+Ht−1Whh=[xtHt−1]∗[WxhWhh]\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}=\begin{bmatrix} x_t &H_{t-1}\end{bmatrix}*\begin{bmatrix} W_{xh} \\ W_{hh}\end{bmatrix}$

torch.matmul(torch.cat((X, H), dim=1), torch.cat((W_xh, W_hh), dim=0))

应用：基于字符级循环神经网络的语言模型

应用循环神经网络来构建一个语言模型

设小批量中样本数为1，文本序列为“想”“要”“有”“直”“升”“机”。

下图演示了如何使用循环神经网络基于当前和过去的字符来预测下一个字符。
在这里插入图片描述

在训练时

对每个时间步的输出层输出使用softmax运算
然后使用交叉熵损失函数来计算它与标签的误差。

由于隐藏层中隐藏状态的循环计算，时间步3的输出 $O3\boldsymbol{O}_3$ 取决于文本序列“想”“要”“有”。由于训练数据中该序列的下一个词为“直”，时间步3的损失将取决于该时间步基于序列“想”“要”“有”生成下一个词的概率分布与该时间步的标签“直”。

因为每个输入词是一个字符，因此这个模型被称为字符级循环神经网络（character-level recurrent neural network）。因为不同字符的个数远小于不同词的个数（对于英文尤其如此），所以字符级循环神经网络的计算通常更加简单。

《动手学深度学习》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/507973.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

（pytorch-深度学习）循环神经网络

循环神经网络

不含隐藏状态的神经网络

一个含单隐藏层的多层感知机

含隐藏状态的循环神经网络

应用：基于字符级循环神经网络的语言模型

相关文章

配置jupyter-pytorch深度学习环境

（pytorch-深度学习）SE-ResNet的pytorch实现

（pytorch-深度学习）循环神经网络的从零开始实现

（pytorch-深度学习）使用pytorch框架nn.RNN实现循环神经网络

（pytorch-深度学习）通过时间反向传播

（pytorch-深度学习）门控循环单元（GRU）

（pytorch-深度学习）长短期记忆（LSTM）

（pytorch-深度学习）深度循环神经网络

（pytorch-深度学习）双向循环神经网络

pytorch实现梯度下降、随机梯度下降-图像直观展示

小批量随机梯度下降

动量法解决梯度下降的一些问题

深度学习AdaGrad算法

深度学习优化算法：RMSProp算法

深度学习-参数与超参数

深度学习优化算法-AdaDelta算法

深度学习优化算法-Adam算法

pytorch命令式和符号式混合编程

深度学习-自动并行计算

pytorch多GPU计算