LSTM长短期记忆网

 笔记来源——

【重温经典】大白话讲解LSTM长短期记忆网络 如何缓解梯度消失,手把手公式推导反向传播

 

LSTM网络结构

RNN结构

下面拉出一个单元结构进行讲解

C_{t-1}:记忆细胞,t-1时刻的记忆细胞

h_{t-1}:表示状态,t-1时刻的状态

正是这样经过了一个单元,我们输出了新的的状态跟记忆细胞

\sigma:门单元  

f_{t}:forget,遗忘门

i_{t}:更新门

o_{t}:输出门

公式推导

这里的小c_{t}就认为是我们的g_{t}

结构讲解

通过例子我们来理解一下

假设我们要考试,左边的时间部A是我们的高等数学,中间的时间部是我们的线性代数

假设我们要去考线性代数,X_{t}就相当于我们要去复习我们的线性代数,打个比方就是我们已经翻开了线性代数的课本以及习题开始复习。中间那些条条就相当于我们复习形成的记忆。最后上面的h_{t}就是我们要去考试,就是我们考试的一个分数。复习当中会形成我们新的记忆C_{t},会带着我们复习好的记忆拿去考试。最后下面的h_{t}就是我们考完试的这样的一个状态。

之后就好理解了,前一科,我们要去考高等数学,那么C_{t-1}就是我们考完高等数学的这样一个记忆。就是我们复习完之后所形成的跟高数有关的一些记忆。左下脚的h_{t-1}就是考完高数的这样一个状态。

然后我们就有一个目标,我们希望考完的每一个得分都有好的一个目标/成绩(上面的h_{t}),因为我们这里是一个有监督学习,我们需要有一个好的成绩来监督我们每一个参数的迭代更新。

遗忘门

假设我们的脑容量是有限的,我们在考完高等数学之后需要遗忘其相关内容给我们的线性代数留空间。

刚刚我们了解到我们需要X_{t}去复习我们的线性代数,第二步就是我们需要把线性代数没有关的内容遗忘掉,所以f_{t}就是遗忘掉我们过去积累下来的一些记忆。

如何操作?

我们知道f_{t}里面有所有的数都是介于0-1,例如[0,1,1,0,1],就是一个向量,通过跟这样的一个向量相乘,他就会把C_{t-1}向量里面对应的位置的一些记忆的内容给调整,是0就遗忘,是1就调整。

更新门

注:这里的小c_{t}就是之前说的g_{t}

这里i_{t}作用的对象就是g_{t},这里的g_{t}就相当于我们形成的新的记忆,但是这个新的记忆并不是全都有用,所以我们这里要有一个门要去选择性的提取。所以这里的i_{t}就是可以过滤掉没有用的记忆。

然后到这里就形成了我们新的记忆

这里的C_{t}就很容易理解了,这里的C_{t}就跟我们过去的记忆和当下生成的记忆有关系,将他们相加结合起来。

tanh是激活函数

输出门

这里分红色的tanh如何理解?

可以理解为:它可以将我们记忆的内容转化为答题的能力

因为我们复习到的东西很多很全面,最后我们考试的时候不可能将所有复习到的东西都考一遍,有可能只考到其中的一部分,所以我们这里的o_{t}的作用就是我们只需要用到其中的一部分的知识来进行答题。

RNN梯度消失回顾

什么是RNN?

RNN是递归神经网络(Recurrent Neural Network)的缩写。它是一种神经网络结构,专门用于处理序列数据,具有记忆和顺序处理的能力。

在传统的前馈神经网络中,每个输入与输出之间都是独立的,而RNN通过引入循环连接,允许信息在网络中传递并保持状态。

RNN的基本结构包括:

  1. 循环连接(Recurrent Connections):RNN中的每个时间步都有一个循环连接,使得网络可以在处理当前输入时考虑之前的信息。这种连接使得RNN能够处理任意长度的序列输入。

  2. 隐藏状态(Hidden State):在RNN的每个时间步,网络都会产生一个隐藏状态,用于存储之前时间步的信息。隐藏状态是RNN的记忆,使得网络能够在处理序列时保持上下文信息。

  3. 时间步(Time Steps):RNN处理序列数据时,会将输入序列分割成多个时间步。在每个时间步,网络接收一个输入,并生成一个输出和一个隐藏状态,然后将隐藏状态传递到下一个时间步。

  4. 递归单元(Recurrent Units):RNN中的递归单元通常采用LSTM(Long Short-Term Memory)单元或GRU(Gated Recurrent Unit)单元等结构,以解决传统RNN中的梯度消失和梯度爆炸等问题。

RNN在自然语言处理(如语言建模、机器翻译、情感分析)、时间序列分析(如股票预测、天气预测)和序列生成(如文本生成、音乐生成)等领域都有广泛的应用。

对于RNN梯度消失的这个问题,可以参考我这篇笔记

RNN循环神经网络及其梯度消失笔记

LSTM如何缓解梯度消失

可以看到我们的参数是非常多的

我们以W_{xf}参数为例,推导一下我们反向传播的过程

假设我们最右边就是t=3,中间t=2,最前面t=1

对三个位置的W_{xf}分别求导

这是我们求导的路径

不同路线的求偏导

简化方程

下面就是我们简化后的方程

由于要求第三个,但路径是非常多的,就没有写推导的方程了,就写了一下路径

合并一下同类项,并将这两个路径组合

把上面的这个路径简化为下面那样

我们继续把从C_{3}C_{2}的路继续简化

再表达为右边的公式

最后得到的就是右边的这些,而且我们发现了连乘项的出现,然后我们针对这个部分对其求一下

这个式子有一个特点,就是他是由4个部分进行相加的

这些参数是可以去调控他值的一个大小的,也就是说我们的模型可以通过学习去控制它值的一个大小的。从而去控制\frac{\partial C_{t}}{\partial C_{t-1}}的值的大小的。也就是说我可以去控制这些参数而去使得\frac{\partial C_{t}}{\partial C_{t-1}}处于比较接近于一个1的数。

我们可以知道,当我们的时间跨度越长的时候 ,我们的路径越长,中间的累乘项也会更多,这个部分就容易带来我们的梯度消失的可能,所以这个部分我们没有办法去把控。

但是这里我们的连乘项,可以灵活的去调控它的参数,去实现很多1*1*1的效果,就导致连乘的效果大大的削弱了,梯度消失的可能性就大大的降低了,所以就极大的缓解了梯度消失的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/723318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

稀碎从零算法笔记Day9-LeetCode:最后一个单词的长度

题型:字符串、反转字符串 链接:58. 最后一个单词的长度 - 力扣(LeetCode) 来源:LeetCode 题目描述(红字为笔者添加) 给你一个字符串 s,由若干单词组成,单词前后用一些空格字符隔…

【Azure 架构师学习笔记】- Azure Service Endpoint

本文属于【Azure 架构师学习笔记】系列。 前言 在做Azure 架构时,经常会被问到Service Endpoint这个点,那么这篇文章来介绍一下Service Endpoint(SE)。 Azure Service Endpoint 首先它是一个专用通道,在Azure 资源之…

面试准备:排序算法大汇总 C++

排序算法总结 直接插入排序 取出未排序部分的第一个元素&#xff0c;与已排序的部分从后往前比较&#xff0c;找到合适的位置。将大于它的已排序的元素向后移动&#xff0c;将该元素插入到合适的位置。 //1. 直接插入排序 void InsertionSort(vector<int>& nums){f…

力扣日记3.6-【回溯算法篇】51. N 皇后

力扣日记&#xff1a;【回溯算法篇】51. N 皇后 日期&#xff1a;2023.3.6 参考&#xff1a;代码随想录、力扣 51. N 皇后 题目描述 难度&#xff1a;困难 按照国际象棋的规则&#xff0c;皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将…

汽车级瞬态抑制TVS二极管优势特性及型号大全

汽车级瞬态抑制TVS二极管是一种高性能的防浪涌过电压电路保护元器件&#xff0c;能够在瞬态电压过高的情况下提供可靠的保护。它能够迅速响应并吸收过电压&#xff0c;将其导向地线&#xff0c;从而保护车辆的电子设备免受损坏。东沃汽车级TVS二极管具有以下几个关键优势&#…

javaWebssh文玩竞价管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh文玩竞价管理系统是一套完善的web设计系统&#xff08;系统采用ssh框架进行设计开发&#xff09;&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0…

如何生成带有CRC的bin文件

本文介绍如何生成带有CRC的bin文件。 MCU在上电运行时&#xff0c;通常需要校验程序是否正确&#xff08;有无篡改或烧录文件出错&#xff09;&#xff0c;一般的做法是在烧录文件&#xff08;通常是bin文件&#xff09;末尾追加CRC&#xff08;CRC-8&#xff0c;CRC-16&#…

GET 和 POST 请求:理解它们之间的区别和适用场景

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

黑马程序员HarmonyOS4+NEXT星河版入门到企业级实战教程 整理笔记 这篇就够了

素材来源视频&#xff1a;00.课程介绍_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Sa4y1Z7B1/?p1&vd_sourced0ea58f1127eed138a4ba5421c577eb1 鸿蒙开发工具&#xff1a;DevEco Studio 官网地址&#xff1a;https://developer.harmonyos.com/ 目录 一、常用…

环信 Vue2 uniapp Demo重构焕新!经典再升级!

项目背景 当前官网 uni-app vue2 Demo 地址 当前版本功能实现方式较混乱&#xff0c;代码逻辑晦涩难懂&#xff0c;不利于开发者参考或复用。此实战项目主要优化现有代码结构&#xff0c;以确保未来项目的可维护性和扩展性。 重构目标 本次重构中原始 Demo 代码逻辑完全重写…

H12-821_131

131.如图所示&#xff0c;R1、R2、R3和R4运行OSPF&#xff0c;缺省情况下该网络中选举________个DR。&#xff08;请填写阿拉伯数字&#xff09; 答案&#xff1a;3 注释&#xff1a; DR是链路上的概念&#xff0c;使用路由器接口的IP地址表示。链路的网络类型是广播网络类型或…

C语言经典算法-1

C语言经典算法讲解练习 文章目录 C语言经典算法讲解练习1.汉若塔2.费式数列3. 巴斯卡三角形4.三色棋5.老鼠走迷官&#xff08;一&#xff09;6.老鼠走迷官&#xff08;二&#xff09;7.骑士走棋盘8.八皇后9.八枚银币10.生命游戏 1.汉若塔 说明&#xff1a;河内之塔(Towers of …

Fiddler入门:下载、安装、配置、抓包、customize rules

一、fiddler下载安装 安装包下载链接&#xff1a;https://www.telerik.com/download/fiddler 随便选个用途&#xff0c;填写邮箱&#xff0c;地区选择China&#xff0c;勾选“I accept the Fiddler End User License Agreement”&#xff0c;点击“DownLoad for windows”&…

Python onnxruntime推理yolov5和yolov8(最简易版)

支持yolov5和yolov8双模型 其中ChtDeploy中代码如下&#xff1a; import onnxruntime import numpy as np import cv2class ChtDeploy():def __init__(self, img_path, onnx_path, iou_threshold0.45, conf_threshold0.3, detect_w640, detect_h 640):self.img cv2.imread(im…

mysql5.7.27安装图解教程和问题

mysql 5.7.27安装教程记录如下&#xff0c;分享给大家 下载文件&#xff1a; 1.下载步骤访问官方网站&#xff1a;https://www.mysql.com/ 选择Downloads下的Community 下载对应的版本点击上图的MySQL Community Server,进入下载界面&#xff1a; 找到MySQL Community Serve…

聚观早报 | ChatGPT新增朗读功能;vivo X Fold3细节曝光

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 3月6日消息 ChatGPT新增朗读功能 vivo X Fold3细节曝光 魅族21 PRO开启内测 Anthropic推出Claude 3系列 海底捞…

2024 CLion 激活,分享几个CLion 激活的方案

文章目录 CLion 公司简介我这边使用CLion 的理由CLion 最新变化主要更新AI Assistant 预览阶段结束 正式版CLion Nova 预览版更多 C 和 C 项目模型持续改进 C 代码深入了解您的代码嵌入式开发 项目模型Bazel for CLion 插件Meson 支持CMake 增强功能 _Assembly_&#xff08;程序…

HTML表单标签,文末领取面试资料

突破困境&#xff1a; 1. 提升学历 前端找工作&#xff0c;学历重要吗&#xff1f; 重要。谁要是告诉你不重要那一定是在骗你。现实情况是大专吃紧&#xff0c;本科够用&#xff0c;硕士占优&#xff0c;大专以下找到工作靠运气和真实力。 学历是硬伤&#xff0c;已经毕业的你…

SpringCloudGateway工作原理与链路图

SpringCloudGateway基本介绍 Spring Cloud Gateway 构建于Spring Boot 2.x、 Spring WebFlux和Project Reactor之上。因此,在使用 Spring Cloud Gateway 时,您可能不会应用许多熟悉的同步库(例如 Spring Data 和 Spring Security)和模式。 Spring Cloud Gateway 需要 Sprin…

Polar 到底给不给flag呢

Polar 到底给不给flag呢 开局直接给了源码 $flag flag{f73da0c8e7c774d488a6df0fec2890d9};是假的 变量覆盖&#xff0c;没啥好说的。举两个例子吧。 <?php $a "hello"; echo "$a"; //输出hello $$a"world"; echo "$…