【NLP5-RNN模型、LSTM模型和GRU模型】

RNN模型、LSTM模型和GRU模型

1、什么是RNN模型

RNN(Recurrent Neural Network)中文称为循环神经网络,它一般以序列数据为输入,通过网络内部的结构设计有效捕捉序列之间的关系特征,一般也是以序列形式进行输出

RNN的循环机制使模型隐层上一时间步产生的结果,能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响

2、RNN模型的作用

因为RNN结构能够很好利用序列之间的关系,因此针对自然界具有连续性的输入序列,如人类的语言,语音等进行很好的处理,广泛应用于NLP领域的各项任务,如文本分类,情感分析、意图识别、及其翻译等。

以一个用户意图识别的例子对RNN运行过程进行简单的分析

第一步:用户输入了"what time is it?"我们首先需要对它进行基本的分词,因为RNN是按照顺序工作的,每次只接受一个单词进行处理。

第二步:首先将单词"what"输送给RNN,它将产生一个输出01.

第三步:继续将单词"time"输送给RNN,但此时RNN不仅仅利用"time"来产生输出02,还会使用来自上一层隐藏输出01作为输入信息。

第四步:重复这样的步骤,直到处理完所有单词。

第五步:最后,将最终的隐层输出05进行处理来解析用户意图。

3、RNN模型分类

我们将从两个角度对RNN模型进行分类,第一个角度是输入层和输出的结构,第二个角度是RNN的内部构造

按照输入和输出的结构进行分类

N vs N -RNN N vs 1 -RNN 1 vs N -RNN N vs M -RNN

按照RNN的内部构造进行分类

传统RNN LSTM BI-LSTM GRU BI-GRU

3.1、N vs N -RNN

它是RNN最基础的结构形式,最大的特点就是输入和输出序列是等长的。由于这个限制的存在,使其使用范围比较小,可用于生成等长度的合辙诗句

3.2、N vs 1 -RNN

有时候我们要处理的问题输入是一个序列,而要求输出的是一个单独的值而不是序列,应该怎么建模呢?我们只要在最后一个隐层输出h上进行线性变换就可以了,大部分情况下,为了更好的明确结果,还要使用sigmoid或者softmax进行处理。这种结构经常被应用在文本分类问题上。

3.3、1 vs N-RNN

如果输入不是序列而输出为序列的情况怎么处理呢?我们常采用的一种方式就是使该输入作用于每次的输出之上。这种结构可用于将图片生成文字任务等。

3.4、N vs M-RNN

这是一种不限输入输出长度的RNN结构,它由编码器和解码器两部分组成,两者的内部结构都是某类RNN,它也被称为seq2seq架构,输入数据首先通过编码器,最终输出一个隐含变量c,之后最常用的做法使使用这个隐含变量c作用在解码器进行解码的每一步上,以保证输入信息被有效利用。

seq2seq架构最早被提出应用于机器翻译,因为其输入输出不受限制,如今也是应用最广的RNN模型结构。在机器翻译、阅读理解、文本摘要等众多领域都进行了非常多的应用实践。

4、传统RNN模型
4.1、传统RNN内部结构图

结构图解释图

内部结构分析:

我们把目光集中在中间的方块部分,它的输入有两部分,分别是h(t-1)以及x(t),代表上一时间步的隐层输出,以及此时间步的输入,它们进入RNN结构体后,会"融合"到一起,这种融合我们根据结构解释可知,是将二者进行拼接,形成新的张量[x(t),h(t-1)],之后这个新的张量将通过一个全连接层(线性层),该层使用tanh作为激活函数,最终得到该时间步的输出h(t),它将作为下一个时间步的输入和x(t+1)一起进入结构体,以此类推。

4.2、内部结构过程演示

根据结构分析得出内部计算公式

$ h_t =tanh(W_t[X_t,h_{t-1}]+b_t)$

4.3、激活函数tanh的作用

用于帮助调节流经网络的值,tanh函数将值压缩在-1 和1 之间。

4.4、Pytorch中传统RNN工具的使用:

位置:在torch.nn工具包中,通过torch.nn.RNN可调节

4.5、nn.RNN类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度的大小

num_layers:隐含层的数量

nonlinearity:激活函数的选择,默认是tanh

import torch
import torch.nn as nn
rnn = nn.RNN(5,6,1)
input = torch.randn(1,3,5)
h0 = torch.randn(1,3,6)
output,hn = rnn(input,h0)
4.6、nn.RNN类实例化对象主要参数解释

input:输入张量x

h0:初始化的隐层张量h

4.7、传统RNN的优势

由于内部结构简单,对计算资源要求低,相比之后我们要学习的RNN变体,LSTM和GRU模型,参数总量少了很多,在短序列任务上性能和效果都表现优异。

4.8、传统RNN的缺点

传统RNN在解决长序列之间的关联时,通过实践,证明经典RNN表现很差,原因是在进行反向传播的时候,过长的序列导致梯度的计算异常,发生梯度消失或爆炸。

4.9、什么是梯度消失或爆炸呢

根据反向传播算法和链式法则,梯度的计算可以简化为以下公式

D n = σ , ( z 1 ) w 1 ∗ σ , ( z 2 ) w 2 ∗ . . . . . . σ , ( z n ) w n D_n = \sigma^,(z_1)w_1*\sigma^,(z_2)w_2*......\sigma^,(z_n)w_n Dn=σ,(z1)w1σ,(z2)w2......σ,(zn)wn

其中sigmoid的导数值域是固定的,在[0,0.25]之间,而一旦公式中的w也小于1,那么通过这样的公式连乘后,最终梯度就会变得非常小,这种现象叫梯度消失,反之,如果我们认为的增大w的值,使其大于1,那么连乘够就可能造成梯度过大,称为梯度爆炸。

4.10、梯度消失或爆炸的危害:

如果在训练过程中发生了梯度消失,权重无法被更新,最终导致训练失败;梯度爆炸所带来的梯度过大,大幅度更新网络参数,在极端情况下,结果会溢出(NAN值)

5、LSTM模型

LSTM(Long Short-Term Memory)也称长短时记忆结构,它是传统的RNN的变体,与经典RNN相比能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。同事LSTM的结构更复杂,它的核心结构可以分为4个部分去解析:

遗忘门 输入门 细胞状态 输出门

5.1、LSTM的内部结构图
5.2、遗忘门部分结构图与计算公式
5.3、遗忘门结构分析

与传统RNN的内部结构计算非常相似。首先将当前时间步输入x(t)与上一个时间步隐含状态h(t-1)拼接,得到[x(t),h(t-1)],然后通过一个全连接层做变换,最后通过sigmoid函数进行激活得到f(t),我们可以将f(t)看作门值,好比一扇门开合的大小程度,门值都将作用再通过该扇门的张量,遗忘门门值将作用的上一层的细胞状态,代表遗忘过去多少信息,又因为遗忘门门值是由x(t),h(t-1)计算得来的,因此整个公司意味着根据当前时间步输入和上一个时间步隐含状态h(t-1)来决定以往多少上一层的细胞状态所携带的过往信息。

5.4、遗忘门内部结构过程演示
5.5、激活函数sigmoid作用:

用于帮助调节流经网络的值,sigmoid函数将值压缩再0和1之间

5.6、输入门部门结构图与计算公式

输入门结构分析

我们看到输入门的计算公式有两个,第一个就是产生输入门门值的公式。它和遗忘门公式几乎相同,区别在于他们之后要作用的目标上。这个公司意味着输入信息有多少需要进行过滤,输入门的第二个公式是与传统的RNN的内部结构计算相同,对于LSTM来讲,它得到的是当前的细胞状态,而不是像经典RNN一样得到的是隐含状态

5.7、输入门结构过程演示
5.8、细胞状态更新图与计算公式
5.9、细胞状态更新分布

细胞更新的结构与计算公式非常容易理解,这里没有全连接层,知识将刚刚得到的遗忘门门值与上一个时间步得到的C(t-1)相乘,再加上输入门门值与当前时间步得到的未更新C(t)作为下一个时间步输入的一部分,整个细胞状态更新过程就是对遗忘门和输入门的应用。

5.10、输出门部分结构图与计算公式
5.11、输出门结构分析:

输出门部分的公式也是两个,一个是计算输出门的门值,它和遗忘门,输入门计算方式相同。第二个即使使用整个门值产生隐含状态h(t),他将作用在更新后的细胞状态C(t)上,并做tanh激活,最终得到h(t)作为下一个时间步输入的一部分。整个输出门的过程,就是为了产生隐含状态h(t)

5.12、输出门内部结构过程展示
6、BI-LSTM

BI-LSTM即双向LSTM,它没有改变LSTM本身任何的内部结构,知识将LSTM应用两次切方向不同,再将两次得到的LSTM结果进行拼接作为最终输出

6.1、BI-LSTM结构分析

我们看到图中对"我爱中国"这句话或者叫这个输入序列,进行了从左到右和从右到左两次LSTM处理,将得到的结果张量进行拼接作为最终输出。这种结构能够捕捉语法中一些特定的前置或后置特征。增强语义失联,但是模型参数和计算复杂度也随之增加了一倍,一般需要对语料和计算资源进行评估后决定是否使用该结构

6.2、pytorch中LSTM工具的使用

在torch.nn工具包中,通过torch.nn.LSTM调用

6.3、nn.LSTM类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度大小

num_layers:隐含层的数量

nonlinearity:激活函数的选择,默认是tanh

bidirectional:是否选择使用双向LSTM,如果为TRUE,则使用。默认不适用

6.4、nn.LSTM类实例化对象主要参数解释

input:输入张量

h0:初始化的隐层张量h

c0:初始化的细胞状态张量c

7、GRU模型

GRU(Gated Recurrent Unit)也称门控循环单元结构,他也是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。同时它的结构和计算要比LSTM更简单,它的核心结构可以分为两个部分去解析

更新门 重置门

7.1、GRU的内部结构图和计算公式
7.2、GRU的更新门和重置门结构图
7.3、内部结构分析

和之前分析过的LSTM中的门控一样,首先计算更新门和重置门的门值,分别时z(t)和r(t),计算方法就时使用x(t)与h(t-1)拼接进行线性变换,再讲过sigmoid激活。之后更新门门值作用在了h(t-1)上,代表控制上一世纪步传来的信息有多少可以被利用。接着就是使用这个更新后的h(t-1)进行基本的RNN计算,即与x(t)拼接进行线性变化,经过tanh激活,得到新的h(t).最后重置门的门值会作用再新的h(t),而1-门值会作用在h(t-1)上,随后将两者的结果相加,得到最终的隐含状态输出h(t),这个过程意味着重置门有能力重置之前所有的计算,当门值趋于1时,输出就是新的h(t),而当门值趋于0时,输出就是上一时间步的h(t-1).

7.4、pytorch中GRU工具的使用

位置:在torch.nn工具包中,通过torch.nn.GRU可调用

7.5、nn.GRU类初始化主要参数解释

input_size:输入张量x中特征维度的大小

hidden_size:隐层张量h中特征维度的大小

num_layers:隐含层的数量

nonlinearity:激活函数的选择,默认时tanh

bidierctional:是否选择使用双向LSTM,如果为true 则使用。默认不使用

7.6、nn.GRU类实例化对象主要参数解释

input:输入张量x

h0:初始化的隐层张量h

import torch
import torch.nn as nn
rnn = nn.GRU(5,6,2)
input = torch.randn(1,3,5)
h0 = torch.randn(2,3,6)
output,hn = rnn(input,h0)
7.7、GRU的优势

GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN且计算复杂度相比LSTM要小。

7.8、GRU的缺点

GRU仍然不能完全解决梯度消失问题,同时其作用RNN变体,有着RNN结构本身的一大弊端,即不可并行计算,这在数据量和模型体量逐步增大的未来,是RNN发展的关键瓶颈

8、注意力机制

我们观察事物时,之所以能够快速判断一种事物(当然允许判断是错误的),是因为我们大脑能够很快把注意力放在事物最具辨识度的部分从而作出判断。而非是从头到尾的观察一遍事物后,才能有判断结果。正是基于这样的理论,就产生了注意力机制。

8.1、什么是注意力计算规则

他需要三个指定约输入Q(query)、K(key)、V(value),然后通过计算公式得到注意力的结果,这个结果代表query在key和value作用下的注意力表示,当输入的Q=K=V时,称作自注意力计算规则。

当注意力权重矩阵和V都是三维张量且第一维代表为batch条数时,则作bmm运算。bmm时一种特殊的张量乘法运算

import torchinput =torch.randn(10,3,4)
mat2 = torch.randn(10,4,5)
res = torch.bmm(input,mat2)
res.size()
8.2、什么是注意力机制

注意力机制是注意力计算规则能够应用的深度学习网络的载体,同时包括一些必要的全连接层以及相关张量处理,使其与应用网络融为一体。使注意力计算规则的注意力机制称为自注意力机制

说明:

NLP领域中,当前的注意力机制大多数应用于seq2seq架构,即编码器和解码器模型

8.3、注意力机制的作用

在解码器端的注意力机制:能够根据模型目标有效的聚焦编码器的输出结果,当其作为解码器的输入时提升效果。改善以往编码器输出时但一定长张量,无法存储过多的情况

在编码端的注意力机制:主要解决表征问题,相当于特征提提取的过程,得到注意力表示,一般使用自注意力(self-attention)

8.4、注意力机制实现步骤

1、根据注意力计算规则,对Q,K,V进行相应的计算

2、根据第一步采用的计算方法,如果时拼接方法,则需要将Q与第二部的计算结果再进行拼接。如果是转置点积,一般是自注意力,Q与V相同。则不需要进行与Q的拼接。

3、最后为了使整个attention机制按照指定尺寸输出,使用线性层作用在第二步的结果上做一个线性变换,得到最终对Q的注意力表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/755235.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第十四天|

144. 二叉树的前序遍历 已解答 简单 相关标签 相关企业 给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 示例 1: 输入:root [1,null,2,3] 输出:[1,2,3]示例 2: 输入:root [] 输出:[]示…

C++面向对象:virtual关键字的使用

virtual实现多态 类的多态特性是支持面向对象的语言最主要的特性&#xff0c;但是支持类并不能说明就是支持面向对象&#xff0c;能够解决多态问题的语言&#xff0c;才是真正支持面向对象的开发的语言。 C多态举例&#xff1a; #include <iostream> using namespace …

2404-mysql数据库笔记

DataBase-数据库 mariadbmysql https://doc.canglaoshi.org/ 一、SQL&#xff08;Structured Query Language&#xff09;结构化查询语言 1、用于访问和处理数据库的标准计算机语言 2、语法特点 &#xff08;1&#xff09;SQL对关键字的大小写不敏感(windows) &#xff08;…

AWS中所有与数据科学有关的服务一览表(MLS-C01)

本表包括AWS Global中的服务&#xff0c;部分服务在AWS China中还没有。 Amazon Sagemaker数据科学家的开发平台&#xff0c;含多个组件用于整个机器学习模型开发的各个阶段。 Amazon Transcribe 语音转文字&#xff0c;即ASR Amazon Translate 翻译 Amazon Textract 从PD…

蓝桥杯算法基础(24):多维数组与矩阵(4道小题)java版

题1:顺时针打印二维数组 static void print(int[][] matrix){int leftUpRow0,leftUpCol0,rightDownRowmatrix.length-1,rightDownColmatrix[0].length-1;while(leftUpRow<rightUpRow&&leftUpCol<rightDownCol){//在不是方阵的情况下&#xff0c;是扁平的时&#…

鼠标右键增加CMD打开快捷键(亲测有效)

1. 我们用regedit或者其他注册表编辑器定位到HKEY_CLASSES_ROOT\Directory\Background\shell\处&#xff0c;右击新建项“OpenCMDHere”&#xff0c;并在该项下&#xff0c;右击新建项“command”。 2.我们在右边OpenCMDHere项下&#xff0c;右击新建REG_DWORD类型整数值。设置…

AWS监控,AWS 性能监控工具

监控云部署的性能是 IT 环境正常运行的内在条件。AWS 云是一个架构良好的框架&#xff0c;管理员可以使用专用的AWS 性能监控工具增强服务的功能。执行AWS监视是为了跟踪在AWS环境中积极运行的应用程序工作负载和资源。AWS监视器跟踪各种AWS云指标&#xff0c;以帮助提高在其上…

Elasticsearch:全文搜索的利器

1. 简介 Elasticsearch是一个基于Lucene的分布式搜索引擎&#xff0c;能够支持准实时的数据检索NRT(near real-time),支持海量数据的处理&#xff0c;包括结构化和非结构化数据&#xff0c;提供强大的全文搜索能力&#xff0c;但是ES不仅仅是一个全文搜索引擎&#xff0c;他能…

递归算法c++

主页:(*∇&#xff40;*) 咦,又好了~ xiaocr_blog 算法概述&#xff1a;递归算法是一种直接或者间接调用自身函数或者方法的算法。说简单了就是程序自身的调用。 算法实质&#xff1a;递归算法就是将原问题不断分解为规模缩小的子问题&#xff0c;然后递归调用方法来表示问题的…

【小白笔记:JetsonNano学习(二)JetsonNano 安装开机问题屏幕进不去】

重新烧录sd卡后插入Jetson Nano后出现的界面显示烧录失败&#xff0c;如下所示&#xff1a; 将经过烧录之后的sd卡插入jetson nano之后出现以下的几个界面&#xff0c;表示烧录失败。 原因分析&#xff1a;烧录的tf卡为sd卡时候的格式化的格式不对&#xff0c;新建格式出错&am…

LeetCode 222.完全二叉树的节点个数

给你一棵 完全二叉树 的根节点 root &#xff0c;求出该树的节点个数。 完全二叉树 的定义如下&#xff1a;在完全二叉树中&#xff0c;除了最底层节点可能没填满外&#xff0c;其余每层节点数都达到最大值&#xff0c;并且最下面一层的节点都集中在该层最左边的若干位置。若最…

Hack The Box-Analytics

目录 信息收集 namp whatweb WEB 信息收集 feroxbuster RCE漏洞 提权 get user get root 信息收集 namp 端口信息探测┌──(root㉿ru)-[~/kali/hackthebox] └─# nmap -p- 10.10.11.233 --min-rate 10000 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-03-…

python adb脚本

Python调用adb shell ls&#xff0c;取前5个字符存放&#xff0c;并打印出来 import subprocess def run_adb_shell_command(command):# 设置adb的路径&#xff0c;根据您的实际情况进行修改 adb_path adb # 使用subprocess运行adb shell命令&#xff0c;并捕获输出 resu…

Python面向对象——架构设计【2】

练习1&#xff1a;打电话 请使用面向对象思想描述下列情景: 小明使用手机打电话,还有可能使用座机.... class People:def __init__(self,name):self.name namedef call_up(self,tool):print(self.name,end"")tool.call()class Tools:def __init__(self,way):self.wa…

OpenCV(八)——基本线条操作

基本线条操作 OpenCV中提供了基本的线条的操作&#xff0c;包括画直线、画矩形、画圆形等。 &#xff08;1&#xff09;画直线&#xff0c;在OpenCV中利用line()画直线&#xff0c;形式为image_with_line cv2.line(image, start_point, end_point, color, thickness)。line(…

智慧矿山新趋势:大数据解决方案一览

1. 背景 随着信息技术的快速发展和矿山管理需求的日益迫切&#xff0c;智慧矿山作为一种创新的矿山管理方式应运而生。智慧矿山借助先进的信息技术&#xff0c;实现对矿山生产、管理、安全等各方面的智能化、高效化、协同化&#xff0c;是矿山行业转型升级的必然趋势。 欢迎关…

Java 容器都有哪些?

Java容器是Java编程语言中用于存储和组织对象的数据结构。在Java中&#xff0c;容器类库提供了各种类型的容器&#xff0c;每种容器都有其特定的用途和适用场景。 1. 数组&#xff08;Array&#xff09; 数组是Java中最基本的容器类型之一&#xff0c;用于存储相同数据类型的…

【LabVIEW FPGA入门】并行执行

利用图形化编程的并行特性以及 FPGA 上 LabVIEW 图的真正并行实现&#xff0c;您可以通过将应用程序代码划分为更小的进程来进一步优化执行速度。与整个应用程序在一个循环中运行相比&#xff0c;这使得每个进程能够实现更高的循环速率和更高的应用程序整体执行速率。 …

Java语法学习八之认识String类

String类的重要性 在C语言中已经涉及到字符串了&#xff0c;但是在C语言中要表示字符串只能使用字符数组或者字符指针&#xff0c;可以使用标准库提供的字符串系列函数完成大部分操作&#xff0c;但是这种将数据和操作数据方法分离开的方式不符合面相对象的思想&#xff0c;而…

C++开发基础——函数模板

一&#xff0c;函数模板 1.基础概念 模板编程是C中泛型编程的基础。 一个模板可以是创建类或者函数的蓝图。 模板编程分两种&#xff0c;分别是算法抽象的模板、数据抽象的模板。算法抽象的模板以函数模板为主&#xff0c;数据抽象的模板以类模板为主。 基于函数模板生成的…