【NLP5-RNN模型、LSTM模型和GRU模型】

RNN模型、LSTM模型和GRU模型

1、什么是RNN模型

RNN（Recurrent Neural Network)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出

RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响

2、RNN模型的作用

因为RNN结构能够很好利用序列之间的关系，因此针对自然界具有连续性的输入序列，如人类的语言，语音等进行很好的处理，广泛应用于NLP领域的各项任务，如文本分类，情感分析、意图识别、及其翻译等。

以一个用户意图识别的例子对RNN运行过程进行简单的分析

第一步：用户输入了"what time is it?"我们首先需要对它进行基本的分词，因为RNN是按照顺序工作的，每次只接受一个单词进行处理。

第二步：首先将单词"what"输送给RNN，它将产生一个输出01.

第三步：继续将单词"time"输送给RNN，但此时RNN不仅仅利用"time"来产生输出02，还会使用来自上一层隐藏输出01作为输入信息。

第四步：重复这样的步骤，直到处理完所有单词。

第五步：最后，将最终的隐层输出05进行处理来解析用户意图。

3、RNN模型分类

我们将从两个角度对RNN模型进行分类，第一个角度是输入层和输出的结构，第二个角度是RNN的内部构造

按照输入和输出的结构进行分类

N vs N -RNN N vs 1 -RNN 1 vs N -RNN N vs M -RNN

按照RNN的内部构造进行分类

传统RNN LSTM BI-LSTM GRU BI-GRU

3.1、N vs N -RNN

它是RNN最基础的结构形式，最大的特点就是输入和输出序列是等长的。由于这个限制的存在，使其使用范围比较小，可用于生成等长度的合辙诗句

3.2、N vs 1 -RNN

有时候我们要处理的问题输入是一个序列，而要求输出的是一个单独的值而不是序列，应该怎么建模呢？我们只要在最后一个隐层输出h上进行线性变换就可以了，大部分情况下，为了更好的明确结果，还要使用sigmoid或者softmax进行处理。这种结构经常被应用在文本分类问题上。

3.3、1 vs N-RNN

如果输入不是序列而输出为序列的情况怎么处理呢？我们常采用的一种方式就是使该输入作用于每次的输出之上。这种结构可用于将图片生成文字任务等。

3.4、N vs M-RNN

这是一种不限输入输出长度的RNN结构，它由编码器和解码器两部分组成，两者的内部结构都是某类RNN，它也被称为seq2seq架构，输入数据首先通过编码器，最终输出一个隐含变量c，之后最常用的做法使使用这个隐含变量c作用在解码器进行解码的每一步上，以保证输入信息被有效利用。

seq2seq架构最早被提出应用于机器翻译，因为其输入输出不受限制，如今也是应用最广的RNN模型结构。在机器翻译、阅读理解、文本摘要等众多领域都进行了非常多的应用实践。

4、传统RNN模型

4.1、传统RNN内部结构图

结构图解释图

内部结构分析：

我们把目光集中在中间的方块部分，它的输入有两部分，分别是h(t-1)以及x(t),代表上一时间步的隐层输出，以及此时间步的输入，它们进入RNN结构体后，会"融合"到一起,这种融合我们根据结构解释可知，是将二者进行拼接，形成新的张量[x(t),h(t-1)],之后这个新的张量将通过一个全连接层（线性层），该层使用tanh作为激活函数，最终得到该时间步的输出h(t)，它将作为下一个时间步的输入和x(t+1)一起进入结构体，以此类推。

4.2、内部结构过程演示

根据结构分析得出内部计算公式

$ h_t =tanh(W_t[X_t,h_{t-1}]+b_t)$

4.3、激活函数tanh的作用

用于帮助调节流经网络的值，tanh函数将值压缩在-1 和1 之间。

4.4、Pytorch中传统RNN工具的使用：

位置：在torch.nn工具包中，通过torch.nn.RNN可调节

4.5、nn.RNN类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度的大小

num_layers:隐含层的数量

nonlinearity：激活函数的选择，默认是tanh

import torch
import torch.nn as nn
rnn = nn.RNN(5,6,1)
input = torch.randn(1,3,5)
h0 = torch.randn(1,3,6)
output,hn = rnn(input,h0)

4.6、nn.RNN类实例化对象主要参数解释

input:输入张量x

h0：初始化的隐层张量h

4.7、传统RNN的优势

由于内部结构简单，对计算资源要求低，相比之后我们要学习的RNN变体，LSTM和GRU模型，参数总量少了很多，在短序列任务上性能和效果都表现优异。

4.8、传统RNN的缺点

传统RNN在解决长序列之间的关联时，通过实践，证明经典RNN表现很差，原因是在进行反向传播的时候，过长的序列导致梯度的计算异常，发生梯度消失或爆炸。

4.9、什么是梯度消失或爆炸呢

根据反向传播算法和链式法则，梯度的计算可以简化为以下公式

$D_n = \sigma^,(z_1)w_1*\sigma^,(z_2)w_2*......\sigma^,(z_n)w_n$

其中sigmoid的导数值域是固定的，在[0,0.25]之间，而一旦公式中的w也小于1，那么通过这样的公式连乘后，最终梯度就会变得非常小，这种现象叫梯度消失，反之，如果我们认为的增大w的值，使其大于1，那么连乘够就可能造成梯度过大，称为梯度爆炸。

4.10、梯度消失或爆炸的危害：

如果在训练过程中发生了梯度消失，权重无法被更新，最终导致训练失败；梯度爆炸所带来的梯度过大，大幅度更新网络参数，在极端情况下，结果会溢出（NAN值）

5、LSTM模型

LSTM（Long Short-Term Memory)也称长短时记忆结构，它是传统的RNN的变体，与经典RNN相比能够有效捕捉长序列之间的语义关联，缓解梯度消失或爆炸现象。同事LSTM的结构更复杂，它的核心结构可以分为4个部分去解析：

遗忘门输入门细胞状态输出门

5.1、LSTM的内部结构图

5.2、遗忘门部分结构图与计算公式

5.3、遗忘门结构分析

与传统RNN的内部结构计算非常相似。首先将当前时间步输入x(t)与上一个时间步隐含状态h(t-1)拼接，得到[x(t),h(t-1)],然后通过一个全连接层做变换，最后通过sigmoid函数进行激活得到f(t),我们可以将f(t)看作门值，好比一扇门开合的大小程度，门值都将作用再通过该扇门的张量，遗忘门门值将作用的上一层的细胞状态，代表遗忘过去多少信息，又因为遗忘门门值是由x(t),h(t-1)计算得来的，因此整个公司意味着根据当前时间步输入和上一个时间步隐含状态h(t-1)来决定以往多少上一层的细胞状态所携带的过往信息。

5.4、遗忘门内部结构过程演示

5.5、激活函数sigmoid作用：

用于帮助调节流经网络的值，sigmoid函数将值压缩再0和1之间

5.6、输入门部门结构图与计算公式

输入门结构分析

我们看到输入门的计算公式有两个，第一个就是产生输入门门值的公式。它和遗忘门公式几乎相同，区别在于他们之后要作用的目标上。这个公司意味着输入信息有多少需要进行过滤，输入门的第二个公式是与传统的RNN的内部结构计算相同，对于LSTM来讲，它得到的是当前的细胞状态，而不是像经典RNN一样得到的是隐含状态

5.7、输入门结构过程演示

5.8、细胞状态更新图与计算公式

5.9、细胞状态更新分布

细胞更新的结构与计算公式非常容易理解，这里没有全连接层，知识将刚刚得到的遗忘门门值与上一个时间步得到的C(t-1)相乘，再加上输入门门值与当前时间步得到的未更新C(t)作为下一个时间步输入的一部分，整个细胞状态更新过程就是对遗忘门和输入门的应用。

5.10、输出门部分结构图与计算公式

5.11、输出门结构分析：

输出门部分的公式也是两个，一个是计算输出门的门值，它和遗忘门，输入门计算方式相同。第二个即使使用整个门值产生隐含状态h(t),他将作用在更新后的细胞状态C(t)上，并做tanh激活，最终得到h(t)作为下一个时间步输入的一部分。整个输出门的过程，就是为了产生隐含状态h(t)

5.12、输出门内部结构过程展示

6、BI-LSTM

BI-LSTM即双向LSTM，它没有改变LSTM本身任何的内部结构，知识将LSTM应用两次切方向不同，再将两次得到的LSTM结果进行拼接作为最终输出

6.1、BI-LSTM结构分析

我们看到图中对"我爱中国"这句话或者叫这个输入序列，进行了从左到右和从右到左两次LSTM处理，将得到的结果张量进行拼接作为最终输出。这种结构能够捕捉语法中一些特定的前置或后置特征。增强语义失联，但是模型参数和计算复杂度也随之增加了一倍，一般需要对语料和计算资源进行评估后决定是否使用该结构

6.2、pytorch中LSTM工具的使用

在torch.nn工具包中，通过torch.nn.LSTM调用

6.3、nn.LSTM类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度大小

num_layers:隐含层的数量

nonlinearity:激活函数的选择，默认是tanh

bidirectional:是否选择使用双向LSTM,如果为TRUE，则使用。默认不适用

6.4、nn.LSTM类实例化对象主要参数解释

input:输入张量

h0:初始化的隐层张量h

c0:初始化的细胞状态张量c

7、GRU模型

GRU（Gated Recurrent Unit)也称门控循环单元结构，他也是传统RNN的变体，同LSTM一样能够有效捕捉长序列之间的语义关联，缓解梯度消失或爆炸现象。同时它的结构和计算要比LSTM更简单，它的核心结构可以分为两个部分去解析

更新门重置门

7.1、GRU的内部结构图和计算公式

7.2、GRU的更新门和重置门结构图

7.3、内部结构分析

和之前分析过的LSTM中的门控一样，首先计算更新门和重置门的门值，分别时z(t)和r(t)，计算方法就时使用x(t)与h(t-1)拼接进行线性变换，再讲过sigmoid激活。之后更新门门值作用在了h(t-1)上，代表控制上一世纪步传来的信息有多少可以被利用。接着就是使用这个更新后的h(t-1)进行基本的RNN计算，即与x(t)拼接进行线性变化，经过tanh激活，得到新的h(t).最后重置门的门值会作用再新的h(t)，而1-门值会作用在h(t-1)上，随后将两者的结果相加，得到最终的隐含状态输出h(t)，这个过程意味着重置门有能力重置之前所有的计算，当门值趋于1时，输出就是新的h(t),而当门值趋于0时，输出就是上一时间步的h(t-1).

7.4、pytorch中GRU工具的使用

位置：在torch.nn工具包中，通过torch.nn.GRU可调用

7.5、nn.GRU类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度的大小

num_layers:隐含层的数量

nonlinearity:激活函数的选择，默认时tanh

bidierctional:是否选择使用双向LSTM,如果为true 则使用。默认不使用

7.6、nn.GRU类实例化对象主要参数解释

input:输入张量x

h0:初始化的隐层张量h

import torch
import torch.nn as nn
rnn = nn.GRU(5,6,2)
input = torch.randn(1,3,5)
h0 = torch.randn(2,3,6)
output,hn = rnn(input,h0)

7.7、GRU的优势

GRU和LSTM作用相同，在捕捉长序列语义关联时，能有效抑制梯度消失或爆炸，效果都优于传统RNN且计算复杂度相比LSTM要小。

7.8、GRU的缺点

GRU仍然不能完全解决梯度消失问题，同时其作用RNN变体，有着RNN结构本身的一大弊端，即不可并行计算，这在数据量和模型体量逐步增大的未来，是RNN发展的关键瓶颈

8、注意力机制

我们观察事物时，之所以能够快速判断一种事物（当然允许判断是错误的），是因为我们大脑能够很快把注意力放在事物最具辨识度的部分从而作出判断。而非是从头到尾的观察一遍事物后，才能有判断结果。正是基于这样的理论，就产生了注意力机制。

8.1、什么是注意力计算规则

他需要三个指定约输入Q（query)、K(key)、V(value)，然后通过计算公式得到注意力的结果，这个结果代表query在key和value作用下的注意力表示，当输入的Q=K=V时，称作自注意力计算规则。

当注意力权重矩阵和V都是三维张量且第一维代表为batch条数时，则作bmm运算。bmm时一种特殊的张量乘法运算

import torchinput =torch.randn(10,3,4)
mat2 = torch.randn(10,4,5)
res = torch.bmm(input,mat2)
res.size()

8.2、什么是注意力机制

注意力机制是注意力计算规则能够应用的深度学习网络的载体，同时包括一些必要的全连接层以及相关张量处理，使其与应用网络融为一体。使注意力计算规则的注意力机制称为自注意力机制

说明：

NLP领域中，当前的注意力机制大多数应用于seq2seq架构，即编码器和解码器模型

8.3、注意力机制的作用

在解码器端的注意力机制：能够根据模型目标有效的聚焦编码器的输出结果，当其作为解码器的输入时提升效果。改善以往编码器输出时但一定长张量，无法存储过多的情况

在编码端的注意力机制：主要解决表征问题，相当于特征提提取的过程，得到注意力表示，一般使用自注意力（self-attention)

8.4、注意力机制实现步骤

1、根据注意力计算规则，对Q,K,V进行相应的计算

2、根据第一步采用的计算方法，如果时拼接方法，则需要将Q与第二部的计算结果再进行拼接。如果是转置点积，一般是自注意力，Q与V相同。则不需要进行与Q的拼接。

3、最后为了使整个attention机制按照指定尺寸输出，使用线性层作用在第二步的结果上做一个线性变换，得到最终对Q的注意力表示。