回归算法|长短期记忆网络LSTM及其优化实现

本期文章将介绍LSTM的原理及其优化实现

在这里插入图片描述

在这里插入图片描述

序列数据有一个特点,即“没有曾经的过去则不存在当前的现状”,这类数据以时间为纽带,将无数个历史事件串联,构成了当前状态,这种时间构筑起来的事件前后依赖关系称其为时间依赖,利用这类依赖关系进行建模是对其进行学习的关键。

近年来,越来越多的神经网络模型被用于序列数据的预测,如股票、电力负荷、风电功率、心电信号等场景,并取得了不错的效果。

通常,神经网络模型可以分为两类:

一类是以BP神经网络为代表的神经网络,这类网络结构简单,但容易出现陷入局部极值、过拟合等问题,并且其并没有对于依赖关系进行利用;

另一类是更深层次、更高效的深度神经网络模型,如CNN、RNN、LSTM,这类网络是较为前沿和高效的预测模型,其能够拟合输入变量间的非线性复杂关系,并且对于RNN和LSTM来说,其能够克服传统神经网络没有记忆功能的问题,可以有效的根据历史信息进行学习和预测。相对于RNN,LSTM能避免RNN在长序列数据中出现的梯度消失或爆炸的问题,是最为流行的RNN(LSTM是在RNN基础上的改进),因此LSTM在序列数据学习中得到了广泛应用。

LSTM同样面临着隐含层神经元个数、学习率、迭代次数等超参数设置的问题,这些参数都将影响LSTM的预测精度,利用优化算法进行超参数的寻优比经验法更为科学高效,因此本文将详细介绍LSTM模型的原理及其优化实现。

00 目录

1 LSTM模型原理

2 优化算法及其改进概述

3 GWO-LSTM预测模型

4 代码目录

5 实验结果

6 源码获取

01 LSTM神经网络模型[1]

长短时记忆神经网络(LSTM)是Sepp Hochreiter和Jurgen Schmidhuber在1997年对递归神经网络(RNN)进行改进的算法。它旨在解决递归神经网络(RNN)产生的梯度消失问题,在长距离依赖任务中的表现也远好于RNN。LSTM模型的工作方式和RNN基本相同,但是LSTM模型实现了更为复杂的内部处理单元来处理上下文信息的存储与更新。

Hochreiter 等人主要引入了记忆单元和门控单元实现对历史信息和长期状态的保存,通过门控逻辑来控制信息的流动。后来Graves等人对LSTM单元进行了完善,引入了遗忘门,使得LSTM模型能够学习连续任务,并能对内部状态进行重置。

LSTM主要由三个门控逻辑(输入、遗忘和输出)实现。门控可以看作一层全连接层,LSTM对信息的存储和更新正是由这些门控来实现的。更具体地说,门控由Sigmoid函数和点乘运算实现。
在这里插入图片描述

这里分别使用i、f、o来表示输入门、遗忘门和输出门,O表示对应元素相乘,W和b分别表示网络的权重矩阵与偏置向量。在时间步为t时,LSTM隐含层的输入与输出向量分别为x,和h,,记忆单元为c,,输入门用于控制网络当前输入数据x,流入记忆单元的多少,即有多少可以保存到c,,其值为:

在这里插入图片描述

遗忘门是LSTM 的关键组成部分,可以控制哪些信息要保留哪些要遗忘,并且以某种方式避免当梯度随时间反向传播时引发的梯度消失和爆炸问题。遗忘门可以决定历史信息中的哪些信息会被丢弃,即判断上一时刻记忆单元ct-1中的信息对当前记忆单元ct的影响程度。
在这里插入图片描述

输出门控制记忆单元c,对当前输出值h,的影响,即记忆单元中的哪一部分会在时间步t输出。输出门的值及隐含层的输出值可表示为:
在这里插入图片描述

02 优化算法及其改进概述

前面的文章中作者介绍了许多种优化算法及其改进算法,

这里我们以灰狼优化算法为例,其他算法同理。作者的代码很多都是标准化的,其他文章里的算法替换起来也很容易。

03 GWO-LSTM预测模型

超参数在一定程度上会影响LSTM网络的拟合精度,因此必须获得适合不同特征数据的最佳超参数值。然而,目前还没有成熟的理论来获得合适的超参数值。因此,本文采用灰狼优化算法,得到LSTM的最佳网络超参数值,包括初始学习率、隐含层神经元数、批次大小和训练迭代次数,即[lr,L1,L2,Batch,k]。其中增加隐藏层数可提高模型的非线性拟合能力,但同时也使模型更复杂,预测时间随之增加,甚至引发过拟合问题﹐因此本文将隐藏层数选择的范围控制在2层。优化参数的约束条件设置如下:在这里插入图片描述

以MSE作为适应度,GWO-LSTM预测模型的流程图如下:在这里插入图片描述

04 实验结果

以均方根差(Root Mean Square Error,RMSE) 、平均绝对百分误差( Mean Absolute Percentage Error,MAPE) 、平均绝对值误差 ( Mean Absolute Error,MAE) 和可决系数(coefficient of determination,R^2)作为序列数据拟合的评价标准。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

图中MSGWO为作者前面改进的灰狼优化算法

05 源码获取

代码注释详细,一般只需要替换数据集就行了,注意数据的行是样本,列是变量,源码提供3个版本

1.免费版

其主要是LSTM预测模型,包含Matlab和Python的程序,对于需要进行一些简单预测或者是想学习LSTM算法的同学足够了。

在这里插入图片描述

获取方式——GZH(KAU的云实验台)后台回复:LSTM

2.付费版1

主要是GWO优化LSTM的预测模型,这个只包含了Matlab程序,包括BP、LSTM、GWO-LSTM的预测对比。因为最近比较忙,Python就没有出,程序的注释详细,易于替换,卡卡之前介绍过的智能优化算法都可以进行替换。

在这里插入图片描述
在这里插入图片描述

获取方式——GZH后台回复:GWOLSTM

3.付费版2

主要是MSGWO优化LSTM的预测模型,这个只包含了Matlab程序,包括BP、LSTM、GWO-LSTM、MSGWO-LSTM的预测对比,也即在结果展示中的图片,其中MSGWO即为卡卡前面的融合多策略的改进灰狼优化算法的文章,程序的注释详细,这部分程序包含了函数测试、预测模型两个部分,可以用来发这类方向的文章,当然你也可以在卡卡算法的基础上再作创新改进,比如预测模型上可以再对预测误差做一个预测模型进行级联,或者对改进的灰狼算法再引入别的修改策略等等。

在这里插入图片描述

在这里插入图片描述

获取方式——GZH后台回复:MSGWOLSTM

[1]游皓麟著.Python预测之美:数据分析与算法实战[M] .电子工业出版社

另:如果有伙伴有待解决的优化问题(各种领域都可),可以发我,我会选择性的更新利用优化算法解决这些问题的文章。

如果这篇文章对你有帮助或启发,可以点击右下角的赞/在看(ง •̀_•́)ง(不点也行)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/122507.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决:谷歌浏览器访问http时,自动转https访问的问题

问题背景:某个系统网站,之前一直用https域名访问,现在改成http域名后,用http访问,谷歌浏览器会自动跳转到https。 解决方法: 在浏览器中输入网址:chrome://net-internals/#hsts -》 在“Delete…

解决git action定时任务执行失败的方法

为了测试git action定时任务是否有效,你可能选择一个最近的时间测试, 但是发现怎么也触发不了,是不是觉得很苦恼。但是同样的时间,在第二天的定时任务又能成功运行。 这是什么原因? 原因就在上图,git act…

多测师肖sir_高级金牌讲师__接口测试之tonken (5.6)

接口测试之tonken 网站:http://shop.duoceshi.com/login?redirect2Fdashboard 第一个接口:uiid接口 uiid接口url:http://manage.duoceshi.com/auth/code test中语句: var jsonData JSON.parse(responseBody); postman.setEnvi…

NewStarCTF2023week4-溯源

题目描述是冰蝎进行WebShell连接的流量包,我们需要找到攻击者获取到的服务器用户名和服务器内网IP地址。 先介绍一下常见webshell工具的流量特征: 1、中国菜刀 请求体中存在eval、base64等特征字符; 连接过程中使用base64编码对发送的指令…

深入探究深度学习、神经网络与卷积神经网络以及它们在多个领域中的应用

目录 1、什么是深度学习? 2、深度学习的思想 3、深度学习与神经网络 4、深度学习训练过程 4.1、先使用自下上升非监督学习(就是从底层开始,一层一层的往顶层训练) 4.2、后自顶向下的监督学习(就是通过带标签的数…

jenkins自动化操作步骤(gitblit)

1、登陆地址: http://xxxxxxxxx.org:xxxx/ admin/xxxx 2、创建任务 选择构建一个maven项目 3、配置 最多只保留一天一个任务 选择git仓库和账号密码 选择代码对应分支 build项: 1)使用父项目的pom文件:k56-boot/pom.xml 2&…

【Qt之QtConcurrent】描述及使用

描述 QtConcurrent是一个Qt库中的模块&#xff0c;用于实现多线程并发编程。它提供了一些高级API&#xff0c;使得在多核处理器上并行执行代码变得更加容易。 示例&#xff1a; 使用的话&#xff0c; 需要在pro文件中添加&#xff1a;QT concurrent模块。 #include <QC…

Leetcode刷题详解——第 N 个泰波那契数

1. 题目链接&#xff1a;1137. 第 N 个泰波那契数 2. 题目描述&#xff1a; 泰波那契序列 Tn 定义如下&#xff1a; T0 0, T1 1, T2 1, 且在 n > 0 的条件下 Tn3 Tn Tn1 Tn2 给你整数 n&#xff0c;请返回第 n 个泰波那契数 Tn 的值。 示例 1&#xff1a; 输入&#…

从瀑布模式到水母模式:ChatGPT如何赋能软件研发全流程

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;陈童学哦&#xff0c;目前学习C/C、算法、Python、Java等方向&#xff0c;一个正在慢慢前行的普通人。 &#x1f3c0;系列专栏&#xff1a;陈童学的日记 &#x1f4a1;其他专栏&#xff1a;CSTL&…

Flutter——最详细(Scaffold)使用教程

Scaffold简介 相当于界面的主体&#xff08;类似于安卓最外层PhoneWindow&#xff09;&#xff0c;组件的展示都必须依附于它。 使用场景&#xff1a; 每一个界面都是脚手架&#xff0c;通过它来进行架构实现&#xff0c;优美的布局效果。 属性作用appBar顶部的标题栏body显示整…

Day 11 python学习笔记

模块 内置模块 random random&#xff1a;随机数模块 我们可以在解释器中看到其蕴含的方法 接下来我解释一些常用的方法&#xff1a; random.random( ) random.random( ) 返回0-1的随机数 [0,1) >>> random.random() 0.364183511476754 random.randint(n,m) r…

Java题:查找单链表中第 k 个节点元素的值

遇到过一道奇奇怪怪的Java题&#xff0c;就整理出自己的想法&#xff0c;不知道对不对&#xff0c;还望大佬们指导。 题目 给定一个单链表&#xff0c;查找单链表中第 k 个节点元素的值&#xff0c;同时要求使用时间复杂度低的算法实现。 单链表的定义如下&#xff1a; cla…

SAP ABAP 报表输出成 excel 统计图形 (RFC : GFW_PRES_SHOW_MULT)

SAP 预设了一个类型组 GFW &#xff0c;做简单的excel图形输出 话不多说&#xff0c;直接上代码&#xff1a; *&---------------------------------------------------------------------* *& Report ZCYCLE057 *&----------------------------------------------…

71 搜索二维矩阵

搜索二维矩阵 题解1 Z字查找(tricky)题解2 一次二分查找题解3 两次二分查找 给你一个满足下述两条属性的 m x n 整数矩阵&#xff1a; 每行中的整数从左到右按非严格递增顺序排列。 每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target &#xff0c;如果 target …

如何在k8s的Java服务镜像(Linux)中设置中文字体

问题描述&#xff1a;服务是基于springboot的Java服务&#xff0c;在项目上是通过Maven的谷歌插件打包&#xff0c;再由k8s部署的。k8s的镜像就是一个Java服务&#xff0c;Java服务用到了中文字体。 解决这个问题首先需要搞定镜像字体的问题。有很多类似的解决方案&#xff0c;…

图解java.util.concurrent并发包源码系列——深入理解ConcurrentHashMap并发容器,看完薪水涨一千

图解java.util.concurrent并发包源码系列——深入理解ConcurrentHashMap并发容器 HashMap简单介绍HashMap在并发场景下的问题HashMap在并发场景下的替代方案ConcurrentHashMap如何在线程安全的前提下提升并发度1.71.8 JDK1.7的ConcurrentHashMap源码JDK1.8的ConcurrentHashMap源…

网络流学习笔记

网络流基础 基本概念 源点&#xff08;source&#xff09; s s s&#xff0c;汇点 t t t。 容量&#xff1a;约等于边权。不存在的边流量可视为 0 0 0。 ( u , v ) (u,v) (u,v) 的流量通常记为 c ( u , v ) c(u,v) c(u,v)&#xff08;capacity&#xff09;。 流&#xff…

解决MySQL大版本升级导致.Net(C#)程序连接报错问题

数据库版本从MySQL 5.7.21 升级到 MySQL8.0.21 数据升级完成后&#xff0c;直接修改程序的数据库连接配置信息 <connectionStrings> <add name"myConnectionString" connectionString"server192.168.31.200;uidapp;pwdFgTDkn0q!75;databasemail;&q…

【语义分割】语义分割概念及算法介绍

文章目录 一、基本概念二、研究现状2.1 传统算法2.2 深度学习方法 三、数据集及评价指标3.1 常用数据集3.2 常用指标 四、经典模型参考资料 一、基本概念 语义分割是计算机视觉中很重要的一个方向。不同于目标检测和识别&#xff0c;语义分割实现了图像像素级的分类。它能够将…

使用langchain-chatchat里,faiss库中报错: AssertionError ,位置:assert d == self.d

发生报错&#xff1a; AssertionError&#xff0c;发生位置&#xff1a;class_wrappers.py里 assert d self.d&#xff0c;假如输出语句&#xff0c;查看到是因为d和self.d维度不匹配造成&#xff0c;解决方式&#xff1a; 删除langchain-chatchat/knowledge_base里的info.db…