深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)

深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)

  • 前言
  • 循环神经网络(RNN)
    • RNNs(循环神经网络)训练和传统ANN(人工神经网络)训练异同点?
    • 为什么RNN 训练的时候Loss波动很大?
    • RNN中为什么会出现梯度消失?
    • 如何解决RNN中的梯度消失问题?
    • CNN VS RNN
    • Keras搭建RNN
  • 长短期记忆网络(LSTM)
    • LSTM结构推导,为什么比RNN好?
    • 为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?
    • LSTM中为什么经常是两层双向LSTM?
    • RNN扩展改进
      • Bidirectional RNNs
      • CNN-LSTMs
      • Bidirectional LSTMs
      • 门控循环单元(GRU)
    • LSTM、RNN、GRU区别?
    • LSTM是如何实现长短期记忆功能的?
    • LSTM的原理、写LSTM的公式、手推LSTM的梯度反向传播

前言

  • 本文是个人收集、整理、总结的一些人工智能知识点,由于本人水平有限,难免出现错漏,敬请批评改正。
  • 由于本文是对知识点的收集和整理,图片基本来源于网络,图片若侵权,可联系删除。
  • 更多精彩内容,可点击进入人工智能知识点专栏、Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

循环神经网络(RNN)

  • 核心思想:像人一样拥有记忆能力。用以往的记忆和当前的输入,生成输出。

  • RNN 和 传统神经网络 最大的区别:
    在于每次都会将前一次的输出结果,带到下一次的隐藏层中,一起训练。
    在这里插入图片描述

  • RNN应用场景:
    1.文本生成 2.语音识别 3.机器翻译 4.生成图像描述 5.视频标记
    在这里插入图片描述

  • 缺点:
    RNN 有短期记忆问题,无法处理很长的输入序列
    训练 RNN 需要投入极大的成本

  • RNN 是一种死板的逻辑,越晚的输入影响越大,越早的输入影响越小,且无法改变这个逻辑。

RNNs(循环神经网络)训练和传统ANN(人工神经网络)训练异同点?

相同点:都使用BP误差反向传播算法。
不同点:
RNNs网络参数W,U,V是共享的,而传统神经网络各层参数间没有直接联系。
对于RNNs,在使用梯度下降算法中,每一步的输出不仅依赖当前步的网络,还依赖于之前若干步的网络状态。

为什么RNN 训练的时候Loss波动很大?

​ 由于RNN特有的memory会影响后期其他的RNN的特点,梯度时大时小,学习率lr没法个性化的调整,导致RNN在train的过程中,Loss会震荡起伏,为了解决RNN的这个问题,在训练的时候,可以设置临界值,当梯度大于某个临界值,直接截断,用这个临界值作为梯度的大小,防止大幅震荡。

RNN中为什么会出现梯度消失?

梯度消失现象:累乘会导致激活函数导数的累乘,如果取tanh或sigmoid函数作为激活函数的话,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。
实际使用中,会优先选择tanh函数,原因是tanh函数相对于sigmoid函数来说梯度较大,收敛速度更快且引起梯度消失更慢。

如何解决RNN中的梯度消失问题?

1.选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“,但设定合适的阈值可以解决这个问题。
2.加入BN层,其优点:加速收敛.控制过拟合,可以少用或不用Dropout和正则。降低网络对初始化权重不敏感,且能允许使用较大的学习率等。
3.改变传播结构,LSTM结构可以有效解决这个问题。

CNN VS RNN

在这里插入图片描述

不同点
1.CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算
2.RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出。

Keras搭建RNN

在这里插入图片描述

长短期记忆网络(LSTM)

  • 长短期记忆网络(Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。

  • 三个门(遗忘门,输入门,输出门),两个状态(Ct,ht)
    在这里插入图片描述

    • 遗忘门
      ​ 作用对象:细胞状态 。
      ​ 作用:将细胞状态中的信息选择性的遗忘。
      Ft和Ct-1做点积操作,Ft确保Ct-1有哪些东西需要被遗忘掉
      在这里插入图片描述

    • 输入层门
      作用对象:细胞状态
      ​ 作用:将新的信息选择性的记录到细胞状态中。
      ​ 操作步骤:
      ​ 步骤一:sigmoid 层称 “输入门层” 决定什么值我们将要更新
      ​ 步骤二,tanh 层创建一个新的候选值向量加入到状态中
      在这里插入图片描述

    • 输出层门
      ​ 作用对象:隐层ht 作用:确定输出什么值。
      ​ 操作步骤:
      ​ 步骤一:通过sigmoid 层来确定细胞状态的哪个部分将输出。
      ​ 步骤二:把细胞状态通过 tanh 进行处理,并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。
      在这里插入图片描述

LSTM结构推导,为什么比RNN好?

推导forget gate,input gate,cell state, hidden information等的变化;因为LSTM有进有出且当前的cell information是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸。

为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?

sigmoid用在了各种gate上,产生0~1之间的值,一般只有sigmoid最直接了;
tanh用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。

LSTM中为什么经常是两层双向LSTM?

有些时候预测需要由前面若干输入和后面若干输入共同决定,这样会更加准确。

RNN扩展改进

Bidirectional RNNs

​ 将两层RNNs叠加在一起,当前时刻输出(第t步的输出)不仅仅与之前序列有关,还与之后序列有关。例如:为了预测一个语句中的缺失词语,就需要该词汇的上下文信息。Bidirectional RNNs是一个相对较简单的RNNs,是由两个RNNs上下叠加在一起组成的。输出由前向RNNs和后向RNNs共同决定。
在这里插入图片描述

CNN-LSTMs

该模型中,CNN用于提取对象特征,LSTMs用于预测。CNN由于卷积特性,其能够快速而且准确地捕捉对象特征。LSTMs的优点:能够捕捉数据间的长时依赖性。
在这里插入图片描述

Bidirectional LSTMs

有两层LSTMs。 一层处理过去的训练信息,另一层处理将来的训练信息。
通过前向LSTMs获得前向隐藏状态,后向LSTMs获得后向隐藏状态,当前隐藏状态是前向隐藏状态与后向隐藏状态的组合。
在这里插入图片描述

门控循环单元(GRU)

(14年提出)是一般的RNNs的变型版本,其主要是从以下两个方面进行改进。
1.以语句为例,序列中不同单词处的数据对当前隐藏层状态的影响不同,越前面的影响越小,即每个之前状态对当前的影响进行了距离加权,距离越远,权值越小。
2.在产生误差error时,其可能是由之前某一个或者几个单词共同造成,所以应当对对应的单词weight进行更新。GRUs的结构如下图所示。GRUs首先根据当前输入单词向量word vector以及前一个隐藏层状态hidden state计算出update gate和reset gate。再根据reset gate、当前word vector以及前一个hidden state计算新的记忆单元内容(new memory content)。当reset gate为1的时候,new memory content忽略之前所有memory content,最终的memory是由之前的hidden state与new memory content一起决定。
在这里插入图片描述
GRU(门控循环单元)也是一种循环神经网络(RNN)的变体,用于处理序列数据。与LSTM相比,GRU的结构相对简单,但它仍然能够有效地捕获序列数据中的长期依赖关系。

GRU的结构由两部分组成:更新门和重置门。更新门用于控制上一时刻隐藏状态对当前时刻隐藏状态的贡献程度,而重置门用于控制当前输入对当前时刻隐藏状态的更新程度。

在GRU中,更新门的作用类似于LSTM中的遗忘门和输入门,它决定了上一时刻隐藏状态对当前时刻隐藏状态的影响程度。重置门则控制着当前输入对当前时刻隐藏状态的更新程度。

GRU的公式如下:

  1. 更新门: z t = σ ( W z ∗ [ h t − 1 , x t ] + b z ) z_t = σ(W_z * [h_{t-1}, x_t] + b_z) zt=σ(Wz[ht1,xt]+bz)
  2. 重置门: r t = σ ( W r ∗ [ h t − 1 , x t ] + b r ) r_t = σ(W_r * [h_{t-1}, x_t] + b_r) rt=σ(Wr[ht1,xt]+br)
  3. 候选隐藏状态: h t ′ = t a n h ( W ∗ [ r t ∗ h t − 1 , x t ] + b ) h'_t = tanh(W * [r_t * h_{t-1}, x_t] + b) ht=tanh(W[rtht1,xt]+b)
  4. 最终隐藏状态: h t = ( 1 − z t ) ∗ h t − 1 + z t ∗ h t ′ h_t = (1 - z_t) * h_{t-1} + z_t * h'_t ht=(1zt)ht1+ztht

其中, W z 、 W r W_z、W_r WzWr是权重矩阵, b z 、 b r b_z、b_r bzbr是偏置项, σ σ σ是sigmoid激活函数, t a n h tanh tanh是双曲正切激活函数。

与LSTM类似,在训练过程中,我们需要计算损失函数(loss function)的值,然后通过反向传播算法(backpropagation)来更新权重和偏置项。GRU的梯度反向传播过程也涉及复杂的计算和动态规划技巧。

需要注意的是,虽然GRU相对于LSTM在结构上更为简单,但在某些任务上可能表现不如LSTM。因此,在实际应用中,选择LSTM或GRU应该根据具体任务和数据的特点来进行决策。

LSTM、RNN、GRU区别?

在这里插入图片描述

与LSTM相比,GRU内部少了一个”门控“,参数比LSTM少,但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候我们也就会选择更加实用的GRU。

LSTM是如何实现长短期记忆功能的?

LSTM(长短期记忆网络)通过引入门控机制来实现长期记忆功能。这些门控机制允许LSTM有选择地遗忘、更新和输出信息,从而有效地管理信息的流动。

具体来说,LSTM包含三个门控:遗忘门、输入门和输出门。遗忘门控制着输入x和上一层隐藏层输出h被遗忘的程度大小,即决定是否保留之前的信息。当输入的序列中没有重要的信息时,LSTM的遗忘门的数值接近于1,更新门的数据接近于0,此时过去的记忆会被保存,从而实现了长期的记忆功能。当输入的序列中出现了重要的信息时,LSTM应该把其存入记忆时,此时更新门的数值将接近于1。

输入门控制着输入x和当前计算的状态更新到记忆单元的程度大小。它由输入门(input gate)与tanh神经网络层和一个按位乘操作构成。记忆门决定了当前时刻的记忆状态有多少来自于之前的记忆。

输出门控制着输入x和当前输出取决于当前记忆单元的程度大小。输出门(output gate)与函数以及按位乘操作共同作用将细胞状态和输入信号传递到输出端。

总之,LSTM通过精心设计的门控机制来实现长期记忆功能,使得模型能够更好地捕捉序列数据中的长期依赖关系。

LSTM的原理、写LSTM的公式、手推LSTM的梯度反向传播

LSTM是一种特殊的循环神经网络(RNN),用于处理具有长期依赖关系的序列数据。它的核心思想是通过引入门控机制来控制信息的流动,从而避免长期依赖问题。LSTM的结构由细胞状态和输出向量两部分组成,通过遗忘门、输入门和输出门来控制信息的传递。

LSTM的公式如下:

  1. 遗忘门: f t = σ ( W f ∗ [ h t − 1 , x t ] + b f ) f_t = σ(W_f * [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)
  2. 输入门: i t = σ ( W i ∗ [ h t − 1 , x t ] + b i ) i_t = σ(W_i * [h_{t-1}, x_t] + b_i) it=σ(Wi[ht1,xt]+bi)
  3. 更新单元: c t = f t ∗ c t − 1 + i t ∗ t a n h ( W c ∗ [ h t − 1 , x t ] + b c ) c_t = f_t * c_{t-1} + i_t * tanh(W_c * [h_{t-1}, x_t] + b_c) ct=ftct1+ittanh(Wc[ht1,xt]+bc)
  4. 输出门: o t = σ ( W o ∗ [ h t − 1 , x t ] + b o ) o_t = σ(W_o * [h_{t-1}, x_t] + b_o) ot=σ(Wo[ht1,xt]+bo)
  5. 隐藏状态: h t = o t ∗ t a n h ( c t ) h_t = o_t * tanh(c_t) ht=ottanh(ct)

其中, W f 、 W i 、 W c W_f、W_i、W_c WfWiWc W o W_o Wo是权重矩阵, b f 、 b i 、 b c b_f、b_i、b_c bfbibc b o b_o bo是偏置项, σ σ σ是sigmoid激活函数, t a n h tanh tanh是双曲正切激活函数。

在训练过程中,我们需要计算损失函数(loss function)的值,然后通过反向传播算法(backpropagation)来更新权重和偏置项。LSTM的梯度反向传播过程如下:

  1. 根据当前输入x和前一时刻的隐藏状态 h t − 1 h_{t-1} ht1,计算当前时刻的各个门控值和隐藏状态 h t h_t ht
  2. 根据损失函数和隐藏状态 h t h_t ht,计算损失对权重和偏置项的梯度。
  3. 使用梯度下降或其他优化算法来更新权重和偏置项。
  4. 重复步骤1-3,直到达到收敛或指定的训练轮数。

需要注意的是,LSTM的梯度反向传播过程可能会涉及到复杂的计算和动态规划技巧,因为每个时间步的梯度都依赖于前面时间步的计算结果。在实际应用中,可以使用成熟的深度学习框架(如TensorFlow或PyTorch)来实现LSTM的训练和推断过程。

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入人工智能知识点专栏、Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/708.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VulBG: 构建行为图加强基于深度学习的漏洞检测模型

近年来,人们提出了基于深度学习(DL)的漏洞检测系统,用于从源代码中自动提取特征。这些方法在合成数据集上可以实现理想的性能,但在检测真实世界的漏洞数据集时,准确率却大幅下降。此外,这些方法…

OpenHarmony网络协议通信—nanopb

简介 nanopb是一种小代码量的协议缓冲区实现,适用于任何内存受限的系统。 下载安装 直接在OpenHarmony-SIG仓中搜索nanopb并下载。 使用说明 以OpenHarmony 3.1 Beta的rk3568版本为例 将下载的Nanopb库代码存在以下路径:./third_party/nanopb 修改添…

docker安装并跑通QQ机器人实践(3)-bs-nonebot搭建

NoneBot2 是一个现代、跨平台、可扩展的 Python 聊天机器人框架(下称 NoneBot),它基于 Python 的类型注解和异步优先特性(兼容同步),能够为你的需求实现提供便捷灵活的支持。同时,NoneBot 拥有大…

如何在 Netlify 上手动部署 React 和 TypeScript 项目

在本教程中,我将教你如何使用 Vite 在 Netlify 上手动部署 React 和 TypeScript 项目。我将向你展示一些快速简单的步骤,让你的项目能够立即运行。 要跟着本教程操作,有几个先决条件: 一个现有的 React 和 TypeScript 项目&…

bug(警告):[vue-router] Duplicate named routes definition: …

查看警告:[vue-router] Duplicate named routes definition——翻译[vue-router]重复命名路由定义 小编劝诫:当我们在开发过程中警告也一定不要忽略,虽然你在本地跑代码时这些警告影响项目的正常运行,但是会让你产生误区&#xff…

OSPGF高级实验综合

1.实验拓扑 二.实验要求 1、R4为ISP,其上只配置IP地址;R4与其他所直连设备间均使用公有IP; 2、R3-R5、R6、R7为MGRE环境,R3为中心站点; 3、整个OSPF环境IP基于172.16.0.0/16划分;除了R12有两个环回&#x…

深入理解JAVA垃圾收集器CMS,G1工作流程原理 GC流程图 什么社会触发Minor GC?触发MinorGC过程。Full GC 过程。

java CMS,G1垃圾收集器工作流程原理浅析 JVM内存空间基础知识点(基于JDk1.8) 1.方法区:逻辑概念,元空间,方法区主要用于存储类的信息、常量池、方法数据、方法代码等。方法区逻辑上属于堆的一部分&#xf…

java实现chatGPT SDK

搭建一个 ChatGPT-SDK 组件工程,专门用于封装对 OpenAI 接口的使用。由于 OpenAI 接口本身较多,并有各类配置的设置,所以开发一个共用的 SDK 组件,更合适我们在各类工程中扩展使用 整个流程为:以会话模型为出口&#x…

C++笔试强训day3

目录 1.简写单词 2.dd爱框框 3.除2! 1.简写单词 链接 我的思路超级简单,就是将输入的每个string存入vector,然后遍历每个string的第一个元素,如果为小写字母,就-32存入,若为大写,则直接存入。…

Docker in Docker的原理与实战

Docker in Docker(简称DinD)是一种在Docker容器内部运行另一个Docker实例的技术。这种技术允许用户在一个隔离的Docker容器中创建、管理和运行其他Docker容器,从而提供了更灵活和可控的部署选项。以下是DinD的主要特点: 隔离性&am…

Maven实战—搭建微服务 Maven 工程架构

需求案例:搭建一个电商平台项目,该平台包括用户服务、订单服务、通用工具模块等。 项目架构: 用户服务:负责处理用户相关的逻辑,例如用户信息的管理、用户注册、登录等。订单服务:负责处理订单相关的逻辑…

使用示例解释.NET中的Mocking是什么?

让我们踏上探索.NET软件开发中Mocking概念的旅程,让我们深入了解Mocking是多么简单易懂、易于访问。请与我一起穿越这个主题,我将涵盖以下内容: 理解Mocking:为何它对于构建强大的测试策略至关重要。探索一些最常见的Mocking库&a…

Ansible组件说明

1.Ansible Inventory 工作当中有不同的业务主机,我们需要在把这些机器信息存放在inventory里面,ansible默认的inventory的文件是/etc/ansible/hosts,也可以通过ANSIBLE_HOSTS环境变量来指定或者运行ansible和ansible-playbook的时候用-i参数临…

视频教程下载:用ChatGPT玩转海外抖音TikTok

CHATGPT for TikTok是一门前沿课程,旨在帮助您充分发挥TikTok广告活动的全部潜力。随着数字营销的爆炸性增长,企业需要使用先进的工具来保持竞争优势。在这门课程中,您将学习如何利用CHATGPT——一种先进的人工智能工具——来创建与目标受众产…

有没有手机上使用的库存软件

库存软件是一种仓库的信息管理系统,它主要针对出库与入库这些数据进行管理,传统的库存管理都是在电脑上安装一个专门的数据库管理系统进行管理,这也是一种比较成熟的管理方式,那么有没有手机上使用的库存软件。 手机上使用的库存软…

k8s配置configmap指定到容器的指定文件

我们需要将名称为walletkey.properties的文件做成configmap,然后将walletkey.properties文件单独挂载出来到/data/walletkey.properties,且不能覆盖/data目录,具体如下 1、创建configmap configmap文件内容 其中walletkey.properties: >-引…

python语言零基础入门——注释、print()函数、input()函数

目录 一、注释 1.块注释 2.行内注释 3.多行注释 二、打印变量 1.print()函数:输出/打印指定内容 2.input()函数:输入指定内容 三、编程题:个人名片 一、注释 1.块注释 以#开始,直到本行结束都是注释为了保证代码的可读性…

科技的崛起:国内机器视觉蓬勃发展

文 | BFT机器人 在工业4.0的浪潮下,随着科技的蓬勃发展,机器视觉逐渐走入大众视野,机器视觉产品的普及范围也越来越广。 大家知道机器视觉的由来吗? 机器视觉的由来可以追溯到20世纪70年代,美国麻省理工学院&#xff…

机器学习鸢尾花各种模型准确率对比

流程 获取数据集导入需要的包读取数据划分训练集和测试集调用各种模型比较准确率 获取数据集 链接:https://pan.baidu.com/s/1RzZyXsaiJB3e611itF466Q?pwdj484 提取码:j484 --来自百度网盘超级会员V1的分享导入需要的包 import pandas as pd impo…

华为机考入门python3--(17)牛客17- 坐标移动

分类:字符串 知识点: 正则匹配 re.match(pattern, move) 格式字符串,可以在字符串中直接引用变量 f"{x},{y}" 题目来自【牛客】 import re def is_valid_coordinate(move): # 使用正则表达式验证移动是否合法 # ^: …