LSTM长短期记忆网络

LSTM(长短期记忆网络)数学原理

LSTM(Long Short-Term Memory)是一种特殊的递归神经网络(RNN),解决了标准RNN中存在的梯度消失(Vanishing Gradient) 和**梯度爆炸(Exploding Gradient)**问题。它由 Hochreiter 和 Schmidhuber 在1997年提出,广泛应用于处理序列数据,如自然语言处理、时间序列预测等。


1. LSTM 的基本结构

LSTM的核心是引入了一个记忆单元(Memory Cell)和三个主要的门控机制,分别是:

  • 遗忘门(Forget Gate):决定是否丢弃之前的记忆。
  • 输入门(Input Gate):决定当前输入的信息是否加入记忆单元。
  • 输出门(Output Gate):决定从记忆单元输出多少信息到下一时刻的隐藏状态。

通过这些门控机制,LSTM能够选择性地保留重要的信息,抑制不重要的信息,进而解决长期依赖问题。


2. 数学原理与公式

在时间步 t t t,LSTM 主要包含以下数学操作:

2.1 遗忘门(Forget Gate)

遗忘门决定记忆单元中哪些信息需要被保留,哪些信息需要被丢弃。它通过Sigmoid激活函数实现,输出范围在 [ 0 , 1 ] [0,1] [0,1]

f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)

  • f t f_t ft:遗忘门的输出向量(维度与记忆单元相同)
  • W f W_f Wf:遗忘门的权重矩阵
  • h t − 1 , x t h_{t-1}, x_t ht1,xt:将前一时刻的隐藏状态 h t − 1 h_{t-1} ht1 和当前输入 x t x_t xt 进行拼接
  • b f b_f bf:遗忘门的偏置向量
  • σ \sigma σ:Sigmoid激活函数,输出在 ( 0 , 1 ) (0, 1) (0,1) 之间

2.2 输入门(Input Gate)

输入门决定当前输入的信息如何更新到记忆单元中,包括两个步骤:

  1. 候选记忆单元:通过 tanh ⁡ \tanh tanh 激活函数生成候选记忆。
  2. 输入门:通过 Sigmoid 决定候选记忆是否加入当前的记忆单元。

i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi[ht1,xt]+bi)
C ~ t = tanh ⁡ ( W C ⋅ [ h t − 1 , x t ] + b C ) \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) C~t=tanh(WC[ht1,xt]+bC)

  • i t i_t it:输入门的输出范围 ( 0 − 1 ) ( 0-1 ) (01)
  • C ~ t \tilde{C}_t C~t:候选记忆单元
  • W i , W C W_i, W_C Wi,WC:输入门和候选记忆的权重矩阵
  • b i , b C b_i, b_C bi,bC:偏置向量

2.3 更新记忆单元

当前时刻的记忆单元 C t C_t Ct 是由以下两个部分组成的:

  1. 遗忘门决定丢弃多少旧记忆 C t − 1 C_{t-1} Ct1
  2. 输入门决定增加多少候选记忆 C ~ t \tilde{C}_t C~t

C t = f t ⊙ C t − 1 + i t ⊙ C ~ t C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t Ct=ftCt1+itC~t

  • C t C_t Ct:当前时刻的记忆单元
  • f t ⊙ C t − 1 f_t \odot C_{t-1} ftCt1:保留的旧记忆
  • i t ⊙ C ~ t i_t \odot \tilde{C}_t itC~t:添加的候选记忆
  • ⊙ \odot :逐元素乘法(Hadamard积)

2.4 输出门(Output Gate)

输出门决定从记忆单元中输出多少信息,并通过 tanh ⁡ \tanh tanh 激活函数进一步处理:

o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo[ht1,xt]+bo)
h t = o t ⊙ tanh ⁡ ( C t ) h_t = o_t \odot \tanh(C_t) ht=ottanh(Ct)

  • o t o_t ot:输出门的输出范围 ( 0 − 1 ) ( 0-1 ) (01)
  • h t h_t ht:当前时刻的隐藏状态,也是LSTM的输出
  • W o W_o Wo:输出门的权重矩阵
  • b o b_o bo:输出门的偏置向量
  • tanh ⁡ ( C t ) \tanh(C_t) tanh(Ct):将记忆单元中的信息压缩到 [ − 1 , 1 ] [-1,1] [1,1]

3. LSTM 的工作流程总结

  1. 输入当前时刻的数据 x t x_t xt和前一时刻的隐藏状态 h t − 1 h_{t-1} ht1、记忆单元 C t − 1 C_{t-1} Ct1
  2. 遗忘门:决定丢弃多少旧记忆。
  3. 输入门:决定当前输入的信息如何加入记忆单元。
  4. 更新记忆单元 C t C_t Ct:根据遗忘门和输入门进行更新。
  5. 输出门:决定当前时刻的隐藏状态 h t h_t ht 输出多少信息。
  6. 传播到下一时刻 h t h_t ht C t C_t Ct被传递给下一时间步。

4. 解决梯度消失与爆炸问题

LSTM 解决了传统 RNN 的梯度消失问题,主要依靠 记忆单元门控机制

  1. 记忆单元 C t C_t Ct:通过逐元素加法(避免梯度多次相乘),使得记忆信息能够长期保存。
  2. 门控机制:通过遗忘门和输入门的动态调整,能够控制信息的流动,保留有用的信息,抑制无关的信息。
  3. 激活函数:在遗忘门、输入门和输出门中使用 Sigmoid 函数,保证输出在 ( 0 , 1 ) (0,1) (0,1) 之间,防止梯度爆炸。

5. LSTM 与标准 RNN 的对比

特点标准RNNLSTM
结构简单隐藏层引入记忆单元与门控机制
梯度问题容易梯度消失或爆炸能有效缓解梯度消失/爆炸问题
长时依赖问题无法捕捉长期依赖能有效学习长时依赖
计算复杂度相对较高

6. LSTM 的应用场景

  1. 自然语言处理(NLP):文本分类、语言建模、机器翻译等。
  2. 时间序列预测:股票价格、天气预测等。
  3. 语音识别:连续语音识别任务。
  4. 视频分析:视频帧之间的序列建模。
  5. 生成任务:文本生成、音乐生成等。

7. 小结

LSTM通过引入记忆单元门控机制,解决了标准RNN在长时依赖任务中的梯度消失问题。其核心包括遗忘门输入门输出门,动态控制信息的流动与保留,从而实现高效的序列建模。


如果你喜欢这篇文章,请点赞、评论和收藏!😊

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/64770.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FastApi教程

FastApi,一个用于构建 API 的现代、快速(高性能)的web框架。 FastApi是建立在Starlette和Pydantic基础上的,Pydantic是一个基于Python类型提示来定义数据验证、序列化和文档的库。Starlette是一种轻量级的ASGI框架/工具包&#x…

C++进阶-1-单继承、多继承、虚继承

C单继承详解 1. 基础概念 继承是面向对象编程中的一个核心概念,允许一个类(子类或派生类)继承另一个类(父类或基类)的属性和方法。单继承意味着一个类只能直接继承一个父类。这种简单的结构在许多情况下是足够的&…

C语言 文件操作——按行读写文件

目录 按行写文件 按行读文件 按行读写文件 按行写文件 int puts ( const char *s ); 将字符串 s 写入标准输出流 stdout ,并在其后添加一个换行符 按字符串(行) 写 文件 int fputs ( const char *s, FILE *fp); 将字符串 s 写入 fp 所…

轻松上手:使用 Vercel 部署 HTML 页面教程

😀 在学习前端的过程中,部署项目往往是一个令人头疼的问题。然而,Vercel 为我们提供了一个便捷且免费的解决方案。 Vercel 是一个强大的云平台,专门用于前端项目的部署和托管。它不仅支持多种前端框架和静态网站生成器&#xff0…

【AI系列】Paddle Speech安装指南

文章目录 环境依赖1. 安装Python1.1 下载Python安装包1.2 安装gcc1.3 安装依赖库1.4 编译和安装Python1.5 配置环境变量 2. 安装PaddlePaddle3. 安装PaddleSpeech4. 运行PaddleSpeech5. 解决常见问题5.1 错误:libssl.so.1.1解决方法: 5.2 错误&#xff1…

2-6-1 关于“QNX Neutrino 编程入门”的前言

阅读前言 本文以QNX系统官方的文档英文原版资料“Getting Started with QNX Neutrino: A Guide for Realtime Programmers”为参考,翻译和逐句校对后,对在QNX操作系统下进行应用程序开发及进行资源管理器编写开发等方面,进行了深度整理&…

【中标麒麟服务器操作系统实例分享】java应用DNS解析异常分析及处理

了解更多银河麒麟操作系统全新产品,请点击访问 麒麟软件产品专区:https://product.kylinos.cn 开发者专区:https://developer.kylinos.cn 文档中心:https://documentkylinos.cn 情况描述 中标麒麟服务器操作系统V7运行在 ARM虚…

StarRocks 排查单副本表

文章目录 StarRocks 排查单副本表方式1 查询元数据,检查分区级的副本数方式2 SHOW PARTITIONS命令查看 ReplicationNum修改副本数命令 StarRocks 排查单副本表 方式1 查询元数据,检查分区级的副本数 # 方式一 查询元数据,检查分区级的副本数…

基于Transformer的自编码器模型在故障检测中的应用

在现代工业和制造领域,故障检测是保证设备和生产线安全、高效运行的关键。传统的故障检测方法往往依赖于人工经验或规则,然而,这些方法的准确性和泛化能力有限。随着深度学习技术的迅速发展,越来越多的智能故障检测方法应运而生&a…

《XML》教案 第2章 使第4章 呈现XML文档

《XML》教案 第2章 使第4章 呈现XML文档 主讲人: 回顾上一章: [10分钟] 2 课程知识点讲解: 2 通过级联样式表转换XML文档:[15分钟] 3 通过可扩展样式表语言转换XML文档 :[5分钟] 4 嵌套 for 循环 :[20分钟] 5 本章总结…

HBase、Hive、Redis 和 MongoDB的对比

1. 数据库管理 操作HBaseHiveRedisMongoDB创建数据库N/A (HBase 没有数据库概念)CREATE DATABASE db_name;N/A (Redis 没有数据库命名功能)use db_name; (自动创建)查看数据库N/ASHOW DATABASES;INFO 查看全局信息show dbs;删除数据库N/ADROP DATABASE db_name CASCADE;N/Adb.…

Sigrity System Explorer Snip Via Pattern From Layout模式从其它设计中截取过孔模型和仿真分析操作指导

Sigrity System Explorer Snip Via Pattern From Layout模式从其它设计中截取过孔模型和仿真分析操作指导 Sigrity System Explorer Snip Via Pattern From Layout模式支持从其它设计中截取过孔模型用于仿真分析,同样以差分模板为例 具体操作如下 双击打开System Explorer软件…

数据结构_平衡二叉树

结点类 构造函数分为有参和无参,相同点都是初始化树高为1 class Node { public:int data; // 用于输出int val; // 数据域,用于排序int height; // 树高Node* left;Node* right;Node();Node(int v, int d);static int max(int a, int b); };Node::N…

2024年度个人总结

一转眼已经2024年度最后一个月了,今年基本没有在CSDN发布内容,包括其他平台(B站),倒是在其他地方(我的个人网站和V2EX)发布一些零碎的东西,主要是因为今年换了工作后太累了&#xff…

汽车IVI中控开发入门及进阶(42):OpenVG

概览: OpenVG是一个无版权、跨平台的API,它为高级用户界面和矢量图形库(如SVG)提供了一个低级硬件加速接口。OpenVG主要针对需要便携式加速高质量矢量图形以获得引人注目的用户界面和文本的消费电子产品、手持设备、可穿戴设备和汽车设备,同时使硬件加速能够在非常低的功…

基于微信小程序的消防隐患在线举报系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有实…

如何重新设置VSCode的密钥环密码?

故障现象: 忘记了Vscode的这个密码: Enter password to unlock An application wants access to the keyring “Default ke... Password: The unlock password was incorrect Cancel Unlock 解决办法: 1.任意terminal下,输入如下…

springcloud-gateway获取应用响应信息乱码

客户端通过springcloud gateway跳转访问tongweb上的应用,接口响应信息乱码。使用postman直接访问tongweb上的应用,响应信息显示正常。 用户gateway中自定义了实现GlobalFilter的Filter类,在该类中获取了上游应用接口的响应信息,直…

JS萤石云录像回放拖动进度条无法正常播放

问题描述: 本项目版本:vue2.6.12,webpack3.6.0,ezuikit-js0.7.2 在使用萤石云的JavaScript SDK做监控的直播、录像回放时,遇到部分设备的录像回放,无法根据控制面板的拖动进度条查看某时间段的录像。 官方…

2024.12.21辩论赛感受

背景 今天辩论赛的双方论点是: 正方:寒假留在研发中心的收获大 反方:寒假去做其他事情的收获 辩论赛,为了锻炼自己,选择了不想选择以及相对不好辩论的反方。出现的状况有一下几点: 1.发现自己脑子完全跟不…