Transformer的前世今生 day06（Self-Attention和RNN、LSTM的区别

Transformer的前世今生 day06（Self-Attention和RNN、LSTM的区别

news/2025/7/12 11:38:55/文章来源:https://blog.csdn.net/u011453680/article/details/136919659

Self-Attention和RNN、LSTM的区别

RNN（循环神经网络）

RNN，当前的输出 $o_t$ 取决于上一个的输出 $o_{t-1}$ 作为当前的输入 $x_{t-1}$ 和当前状态下前一时间的隐变量 $h_t$ ，隐变量和隐变量的权重 $W_hh$ 存储当前状态下前一段时间的历史信息，如果我们去掉 $W_{hh} * h_{t-1}$ ，RNN就退化为MLP
在RNN中，我们根据前一个的输出和当前的隐变量，就可以预测当前的输出。当前的隐变量也是由上一个隐变量和前一个输出
（即当前的输入）所决定的
所以RNN其实就是MLP多了一个时间轴，能存储前一段时间的历史信息，并根据这个历史信息来更新层的参数
- 同时由于RNN会不加选择的存储前一段时间的历史信息，所以如果序列太长，即句子太长，隐变量会存储太多信息，那么RNN就不容易提取很早之前的信。

GRU（门控神经网络）

为了解决RNN处理不了很长的序列，我们可以有选择的存储历史信息，通过更新门和重置门，来只关注有变化的重点信息
GRU引入了 $R_t$ 、 $Z_t$ 、 $\overset{~}{H_t}$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/761012.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

数据分析-Pandas多维数据平行坐标可视化

数据分析-Pandas多维数据平行坐标可视化

数据分析-Pandas多维数据平行坐标可视化数据分析和处理中，难免会遇到各种数据，那么数据呈现怎样的规律呢？不管金融数据，风控数据，营销数据等等，莫不如此。如何通过图示展示数据的规律？ 数据表…

阅读更多...

蓝桥杯刷题（十三）

蓝桥杯刷题（十三）

1.煤球数目代码 cnt ans 0 start 1 a [] while cnt<100:ansstartstart 1t ansstartcnt1a.append(ans) print(sum(a))2.奖券数目代码 def f(x)->bool:while x:if x%104:return Falsex//10return True ans 0 for i in range(10000,100000):if f(i):ans1 print(a…

阅读更多...

26 OpenCV 查找边缘

26 OpenCV 查找边缘

文章目录 findContours 发现边缘drawContours 绘制边缘大致流程示例 findContours 发现边缘 cv::findContours( InputOutputArray binImg, // 输入图像，非0的像素被看成1,0的像素值保持不变，8-bitOutputArrayOfArrays contours,// 全部发现的轮廓对象…

阅读更多...

libVLC 轨道信息

libVLC 轨道信息

libVLC是一个流行的开源多媒体播放器框架，它提供了丰富的 API 用于开发视频播放相关的应用程序。获取轨道信息，是指获取当前媒体文件的音频、视频或字幕等轨道信息。常见的视频文件一般都有音频和视频、特殊的会带有字幕文件。媒体轨道信息结构存放在…

阅读更多...

前端学习目录

前端学习目录

1.前端系列前端全系列 2.es6 20分钟上手ES6ES6新特性详解 3.vue vue2.0尚硅谷Vue2.0Vue3.0全套教程

阅读更多...

ARM/Linux嵌入式面经（八）：OPPO三面

ARM/Linux嵌入式面经（八）：OPPO三面

OPPO三面一面（4.2,20min） # 1.自我介绍# 2.三个项目，问的很详细后面专门会出一版怎么做自我介绍，以及项目怎么写，会怎么问，你该怎么回答。 3.SPI是什么？有几条线？几种模式？ SPI协议简介板卡内不同芯片间通讯最常用的三种串行协议：UART、I2C、SPI，之前写过串口协…

阅读更多...

国际数字影像产业园：专注于数字影像领域的成都数字产业园

国际数字影像产业园：专注于数字影像领域的成都数字产业园

国际数字影像产业园（数媒大厦），作为一个专注于数字影像产业的成都数字产业园，其服务优势体现在三大生态服务体系：公共服务、公务服务、产业服务。这三大服务体系不仅共享化、数字化、产业化，更致力于为企业…

阅读更多...

elasticsearch-java api 8 升级

elasticsearch-java api 8 升级

es client api 升级背景公司项目从sring-boot2 升级到了spring-boot3 ，es的服务端也跟着升级到了es8 ，而es的客户端7和服务端8 是不兼容的， 客户端es 7使用的是： elasticsearch-rest-high-level-client es 8 升级到&#xf…

阅读更多...

太阳能光伏储能系统应用前景分析

太阳能光伏储能系统应用前景分析

所谓太阳能光伏储能系统，就是指将太阳能光伏发电与储能技术相结合，把光伏发电所产生的电能使用储能技术存储起来，在需要使用时供应电力，以此来确保发电的稳定性。一、太阳能光伏储能系统的优势 1.可再生能源利用太阳能作为能源…

阅读更多...

单词倒排例题

单词倒排例题

描述对字符串中的所有单词进行倒排。说明： 1、构成单词的字符只有26个大写或小写英文字母； 2、非构成单词的字符均视为单词间隔符； 3、要求倒排后的单词间隔符以一个空格表示；如果原字符串中相邻单词间有多个间隔符时&…

阅读更多...

API开发亚马逊电商接口获得AMAZON商品详情API接口请求接入演示

API开发亚马逊电商接口获得AMAZON商品详情API接口请求接入演示

为了使用亚马逊的API接口获取商品详情，你需要遵循以下步骤： 注册并登录开发者中心，创建一个应用并获取API Key和Key Secret。使用Client ID和Client Secret获取访问令牌（Access Token）。使用访问令牌（A…

阅读更多...

24.两数相加

24.两数相加

给你两个非空的链表，表示两个非负的整数。它们每位数字都是按照逆序的方式存储的，并且每个节点只能存储一位数字。请你将两个数相加，并以相同形式返回一个表示和的链表。你可以假设除了数字 0 之外，这两个数都不会以 0 …

阅读更多...

【Spring Cloud】微服务注册中心的工作原理

【Spring Cloud】微服务注册中心的工作原理

SueWakeup 个人主页：SueWakeup 系列专栏：学习技术栈个性签名：人生乏味啊，我欲令之光怪陆离本文封面由凯楠📷 友情提供！ 目录前言 1. 注册中心的主要作用 2. 常见的注册中心 3. Nacos 服务注册和发…

阅读更多...

面试真经（运维工程师）

面试真经（运维工程师）

1.熟悉的排序算法有哪些，它们的时间空间复杂度如何? 排序算法主要分为内部排序和外部排序。内部排序指的是数据记录在内存中进行排序，而外部排序则适用于排序的数据量很大，一次不能容纳全部排序记录的情况，需要在排序过程中访问…

阅读更多...

关于VMware Workstation Pro无法与Windows互相进行复制粘贴的解决方案

关于VMware Workstation Pro无法与Windows互相进行复制粘贴的解决方案

说明：要实现Windows在wmware虚拟机上实现复制粘贴需要在虚拟机上下载 VMware Tools 工具。 1.查看虚拟机是否下载了VMware Tools工具。（下载了vMware Tools 会变成灰色的） 2.要是成功安装的话，你在去改一下这里。设置完到这里理…

阅读更多...

GOF23种设计模式

GOF23种设计模式

GOF（Gang of Four）设计模式是指《设计模式：可复用面向对象软件的基础》（Design Patterns: Elements of Reusable Object-Oriented Software）这本书中介绍的23种经典设计模式。这些设计模式被分为三大类：创建…

阅读更多...

【面试题】HashMap为什么可以插入null而Hashtable就不可以（源码分析）

【面试题】HashMap为什么可以插入null而Hashtable就不可以（源码分析）

首先hashmap可以插入null值，但是hashtable和hashcurrentHashmap是不支持的；这是因为在 hashmap对插入key为null进行了特殊处理，当插入的值为null的时候会将哈希值设置为0 但是hashtable会直接抛出异常： 并且hashmap是线程不…

阅读更多...

笔记：Mysql 主从搭建

笔记：Mysql 主从搭建

主库创建用户并授权 create user slave identified with mysql_native_password by 123456 GRANT REPLICATION SLAVE ON *.* to slave%; FLUSH PRIVILEGES;主库配置文件 /etc/my.cnf #日志路径及文件名，目录要是mysql有权限写入 log-bin/var/lib/mysql/binlog …

阅读更多...

什么是索引及其优缺点

什么是索引及其优缺点

1.1 什么是索引索引是数据库中用于提高检索性能的排好序的数据结构。它类似于书籍的目录，通过建立特定的数据结构将某个列或多个列的值与它们在数据库中的行关联起来，以加快查询速度。 1.2 索引的分类 MySQL的索引包括普通索引、唯一性索引、全文索引…

阅读更多...

IT廉连看——职场经验——简历里：兴趣爱好怎么写？

IT廉连看——职场经验——简历里：兴趣爱好怎么写？

你可能觉得，这有啥可讲的嘛？别小看它。一个经验丰富的面试官，能从这个环节一窥你的真实个性和能力。遗憾的是，大部分人都是随便填的，比如万年不变的读书、看电影之类，这其实浪费了一次强化能力优势的机会…

阅读更多...

最新文章