深度神经网络——深度学习中的 RNN 和 LSTM 是什么?

引言

自然语言处理和人工智能聊天机器人领域许多最令人印象深刻的进步都是由 递归神经网络(RNN) 和长短期记忆(LSTM)网络。 RNN 和 LSTM 是特殊的神经网络架构,能够处理顺序数据,即按时间顺序排列的数据。 LSTM 是 RNN 的本质改进版本,能够解释更长的数据序列。 让我们看一下 RNN 和 LSTMS 的结构以及它们如何支持创建复杂的自然语言处理系统。

什么是前馈神经网络?

因此,在讨论长短期记忆 (LSTM) 和卷积神经网络 (CNN) 的工作原理之前,我们应该先讨论一下神经网络的一般格式。

神经网络旨在检查数据并学习相关模式,以便这些模式可以应用于其他数据并对新数据进行分类。 神经网络分为三部分:输入层、隐藏层(或多个隐藏层)和输出层。

输入层将数据输入神经网络,而隐藏层则学习数据中的模式。 数据集中的隐藏层通过“权重”和“偏差”连接到输入和输出层,这只是数据点如何相互关联的假设。 这些权重在训练期间进行调整。 当网络训练时,模型对训练数据(输出值)的猜测将与实际训练标签进行比较。 在训练过程中,网络应该(希望)能够更准确地预测数据点之间的关系,以便能够准确地对新数据点进行分类。 深度神经网络是中间有更多层/更多隐藏层的网络。 模型具有的隐藏层和神经元/节点越多,模型识别数据中的模式的能力就越好。

常规的前馈神经网络,就像我上面描述的那样,通常被称为“密集神经网络”。 这些密集的神经网络与专门解释不同类型数据的不同网络架构相结合。

什么是 RNN(循环神经网络)?

循环神经网络采用前馈神经网络的一般原理,并使它们能够通过以下方式处理顺序数据: 为模型提供内部存储器。 RNN 名称中的“循环”部分来自于输入和输出循环这一事实。一旦产生网络的输出,输出就会被复制并作为输入返回到网络。在做出决策时,不仅要分析当前的输入和输出,还要考虑之前的输入。换句话说,如果网络的初始输入是 X,输出是 H,则 H 和 X1(数据序列中的下一个输入)都会被输入到网络中进行下一轮学习。通过这种方式,数据的上下文(之前的输入)在网络训练时得以保留。

这种架构的结果是 RNN 能够处理顺序数据。 然而,RNN 存在一些问题。 RNN 面临以下问题 梯度消失和梯度爆炸问题。

RNN 可以解释的序列长度相当有限,尤其是与 LSTM 相比。

什么是 LSTM(长短期记忆网络)?

长短期记忆网络可以被视为 RNN 的扩展,再次应用保留输入上下文的概念。 然而,LSTM 在几个重要方面进行了修改,使它们能够用更先进的方法解释过去的数据。 对 LSTM 所做的修改解决了梯度消失问题,并使 LSTM 能够考虑更长的输入序列。

LSTM 模型由 三个不同的组件或门. 有一个 输入门、输出门和遗忘门。 与 RNN 非常相似,LSTM 在修改模型的内存和输入权重时会考虑前一个时间步的输入。 输入门决定哪些值是重要的并且应该让其通过模型。 输入门中使用了 sigmoid 函数,它决定哪些值要通过循环网络传递。 零会删除该值,而 1 会保留该值。 这里还使用了 TanH 函数,它决定输入值对模型的重要性,范围从 -1 到 1。

在考虑当前输入和内存状态后,输出门决定将哪些值推入下一个时间步。 在输出门中,对值进行分析并分配从 -1 到 1 的重要性。这会在数据进行下一个时间步计算之前对其进行调节。 最后,遗忘门的工作是删除模型认为对于做出有关输入值的性质的决策不必要的信息。 忘记门对值使用 sigmoid 函数,输出 0(忘记这个)和 1(保留这个)之间的数字。

LSTM 神经网络由可以解释顺序单词数据的特殊 LSTM 层和如上所述的密集连接层组成。 一旦数据穿过 LSTM 层,它就会进入密集连接层。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32585.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Python 机器学习》作者新作:从头开始构建大型语言模型,代码已开源

ChatGPT狂飙160天,世界已经不是之前的样子。 更多资源欢迎关注 自 ChatGPT 发布以来,大型语言模型(LLM)已经成为推动人工智能发展的关键技术。 近期,机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian …

Mac M3 Pro 部署Trino-server-449

目录 1、下载安装包 2、解压并设置配置参数 3、启动并验证 4、使用cli客户端连接测试 1、下载安装包 官方:trino-server-449 CLI 网盘: server https://pan.baidu.com/s/16IH-H39iF8Fb-Vd14f7JPA?pwd3vjp 提取码: 3vjp cli https://pan.baidu.…

计算机网络 动态路由OSPF

一、理论知识 1.OSPF基本概念 ①OSPF是一种链路状态路由协议,使用Dijkstra算法计算最短路径。 ②OSPF使用区域(Area)来组织网络,区域0(Area 0)是主干区域。 ③路由器通过通告直连网络加入OSPF域。 ④反…

Ubuntu磁盘映射到本地磁盘

远程服务器是 Ubuntu 系统,本地是 windows 系统。 1、安装 samba 服务器 sudo apt update sudo apt install samba smbclient通过如下命令可以看到已经安装成功 $ whereis sambaoutput: samba: /usr/sbin/samba /usr/lib/x86_64-linux-gnu/samba /etc/samba /usr…

CentOS 7、Debian、Ubuntu,这些是什么意思

CentOS 7、Debian、Ubuntu 都是基于 Linux 内核的操作系统,它们各自有不同的特性和用途。以下是对它们的详细解释: CentOS 7 CentOS(Community ENTerprise Operating System) 是一个基于开源的 Linux 发行版。CentOS 7 是 CentOS …

如何在Qt Designer中管理QSplitter

问题描述 当按下按钮时,我希望弹出一个对话框,用户可以在其中选择内容并最终按下 ‘Ok’ 按钮。我想在这个对话框中放置一个 QSplitter,左侧面板将显示树状结构,右侧将显示其他内容。如何正确实现这一点? 从 Qt 的示…

【Mac】KeyKey — Typing Practice for mac软件介绍及安装

软件介绍 KeyKey 是一款为 macOS 设计的盲打练习软件,旨在帮助用户提高打字速度和准确性。它通过提供多种练习模式和实时反馈,使用户能够逐渐掌握触摸打字技能。以下是 KeyKey 的主要功能和特点: 主要功能和特点 多语言支持: …

python---OpenCv(二),背景分离方法较有意思

目录 边界矩形 旋转矩形(最小外接矩形): 计算轮廓 找4个点的坐标 把浮点型转为Int 画轮廓 边界矩形--(最大外接矩形) 转灰度 找轮廓 找顶点 画矩形 显示 背景分离方法(这个很好玩,可以识别在动的物体) 边…

泛微E9与金蝶云星空ERP的无缝集成案例详解(包括接口与字段)

业务系统现状 背景介绍 泛微E9和金蝶云星空ERP是两款广泛应用与企业管理的信息系统,分别在移动办公自动化和企业资源计划管理领域占据重要地位。然而企业在使用这些系统时往往面临着信息孤岛和系统孤立的问题,导致数据无法在不系统之间高效流转共享。 当…

qml:导入B站Up主的FluentUI插件

文章目录 文章介绍如何加载1、下载代码2、官方文档和组件介绍 运行FluentUI新建自己的qml项目,并导入FluentUI调用组件,展示效果图 文章介绍 up主“会磨刀的小猪”模仿微软Fluent风格写的界面,可以理解为用qt和qml写出的win10/win11风格的界…

Ubuntu 之Glade图形化设计器

演示环境说明:本机使用Windows 11 家庭版本搭载 Ubuntu 22.04.4 LTS 子系统,同时并安装Ubuntu桌面虚拟化软件XLaunch。 如果没有搭建好上述问题,请参考:windows11子系统Ubuntu 22.04.4子安装图形化界面 Glade是什么?…

im即时通讯软件系统,私有化部署国产化信创适配安全可控

私有化部署IM即时通讯软件系统是许多企业为了确保数据安全、控制隐私保护、提升灵活性而考虑的重要选择之一。信创适配安全可控是企业在私有化部署IM即时通讯软件系统时需要关注的关键点。本文将探讨私有化部署IM即时通讯软件系统的意义、信创适配的重要性,以及如何…

使用Vercel 搭建自己的Dashy导航页

背景 Dashy 是一个开源的自托管导航页面配置服务,它具有易于使用的可视化编辑器、状态检查、小工具和主题等功能。用户可以利用 Dashy 将自己常用的一些网站聚合起来,形成一个个性化的导航页面。 同类的竞品还有Heimdall, Flare 等。 可以通过Docker 等…

OneNote 作为恶意软件分发新渠道持续增长

目前,Office 文件已经默认禁用宏代码,攻击者开始转向利用其他微软的软件产品来进行恶意 Payload 投递。默认情况下,OneNote 应用也包含在 Office 2019 和 Microsoft 365 软件中,所以 OneNote 文件越来越受到攻击者的青睐。如果有人…

(南京观海微电子)——TFT LCD压合技术

TFT-LCD TFT-LCD open cell后段制程主要指的是将驱动IC和PCB压合至液晶板上,这个制程主要由三个步骤组成: 1.ACF (Anisotropic Conductive Film)的涂布。 在液晶板需要压合驱动IC的地方涂布ACF,ACF又称异方性导电胶膜,特点是上下…

IntelliJ IDEA 中显示或隐藏类中的方法

直接上图 左侧找到Project->右键->勾选Show Members即可显示 没有勾选的状态 勾选后的状态

模板初阶【C++】

文章目录 模板的作用模板的原理模板分为两大类——函数模板和类模板函数模板语法函数模板实例化模板函数的方式模板函数的类型转换既有函数模板又有已经实现的函数,会优先调用哪一个? 类模板语法模板类实例化对象模板类的模板参数可以有缺省值类模板中的…

如何获取特定 HIVE 库的元数据信息如其所有分区表和所有分区

如何获取特定 HIVE 库的元数据信息如其所有分区表和所有分区 1. 问题背景 有时我们需要获取特定 HIVE 库下所有分区表,或者所有分区表的所有分区,以便执行进一步的操作,比如通过 使用 HIVE 命令 MSCK REPAIR TABLE table_name sync partiti…

【计算机毕业设计】194高校学习助手微信小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Node.js实现短链接(ShortLink):shortid、epxress让URL更简单

文章目录 一、短链接介绍二、插件介绍1、epxress2、shortid 三、实现方案1、安装依赖:2、实现原理 四、示例代码五、测试生产短链接 一、短链接介绍 短链接是指仅包含一个网址的链接形式,通俗一些就是将一个很长很复杂的的网址变成一个简短易记的链接。…