07_GRU模型

GRU模型

双向GRU笔记:https://blog.csdn.net/weixin_44579176/article/details/146459952

概念

  • GRU(Gated Recurrent Unit)也称为门控循环单元,是一种改进版的RNN。与LSTM一样能够有效捕捉长序列之间的语义关联,通过引入两个"门"机制(重置门和更新门)来控制信息的流动,从而避免了传统RNN中的梯度消失问题,并减少了LSTM模型中的复杂性。

    [^ 要点]:1.GRU同样是通过门机制来解决传统RNN中的梯度消失问题的 2.GRU相比于LSTM更为简洁,它只引入了两个门 :更新门(Update Gate), 重置门(Reset Gate)

核心组件

  1. 重置门(Reset Gate)

    • 作用: 决定如何将新的输入与之前的隐藏状态结合。

      • 当重置门值接近0时,表示当前时刻的输入几乎不依赖上一时刻的隐藏状态。
      • 当重置门值接近1时,表示当前时刻的输入几乎完全依赖上一时刻的隐藏状态。
    • 公式(变体版本): r t = σ ( W r ⋅ [ h t − 1 , x t ] + b r ) r_t = σ(W_r·[h_{t-1},x_t] + b_r) rt=σ(Wr[ht1,xt]+br)

      • r t r_t rt| 重置门值, r t ∈ ( 0 , 1 ) r_t ∈ (0,1) rt(0,1)
      • W r W_r Wr 和$ b_r$ | 重置门权值和偏置项
      • σ | sigmoid函数 保证 r t r_t rt的输出值在 0 到 1之间
  2. 更新门(Update Gate)

    • 作用: 决定多少之前的信息需要保留,多少新的信息需要更新。

      • 当更新门值接近0时,意味着网络只记住旧的隐藏状态,几乎没有新的信息。
      • 当更新门值接近1时,意味着网络更倾向于使用新的隐藏状态,记住当前输入的信息。
    • 公式(变体版本): z t = σ ( W r ⋅ [ h t − 1 , x t ] + b z ) z_t = σ(W_r·[h_{t-1},x_t] + b_z) zt=σ(Wr[ht1,xt]+bz)

      • z t z_t zt| 更新门值, z t ∈ ( 0 , 1 ) z_t ∈ (0,1) zt(0,1)
      • W r W_r Wr 和$ b_r$ | 重置门权值和偏置项
      • σ | sigmoid函数 保证 z t z_t zt的输出值在 0 到 1之间
  3. 候选隐藏状态(Candidate Hidden State)

    • 作用: 捕捉当前时间步的信息,多少前一隐藏状态的信息被保留。

    • 公式(变体版本): h ^ t = t a n h ( W h ⋅ [ r t ⊙ h t − 1 , x t ] + b h ) ĥ_t = tanh(W_h · [r_t \odot h_{t-1} , x_t] + b_h) h^t=tanh(Wh[rtht1,xt]+bh)

      • h ^ t ĥ_t h^t| 候选隐藏状态值, h ^ t ∈ ( − 1 , 1 ) ĥ_t ∈ (-1,1) h^t(1,1)
      • W h W_h Wh 和$ b_h$ | 候选隐藏状态的权重和偏置项
      • tanh| 双曲正切函数 保证 h t h_t ht的输出值在 -1 到 1之间
      • ⊙ \odot | Hadamard Product
  4. 最终隐藏状态(Final Hidden State)

    • 作用: 控制信息更新,传递长期依赖。

    • 公式(变体版本): h t = ( 1 − z t ) ⊙ h t − 1 + z t ⊙ h ^ t h_t = (1-z_t) \odot h_{t-1} + z_t \odot ĥ_t ht=(1zt)ht1+zth^t

      • h t h_t ht| 当前时间步的隐藏状态
      • z t z_t zt | 更新门的输出,控制新旧信息的比例
      • ⊙ \odot | Hadamard Product

    重置门与更新的对比

    门控机制核心功能直观理解
    重置门(Reset Gate)控制历史信息对当前候选状态的影响:决定是否忽略部分或全部历史信息,从而生成新的候选隐藏状态。“是否忘记过去,重新开始?”(例如:处理句子中的突变或新段落)
    更新门(Update Gate)控制新旧信息的融合比例:决定保留多少旧状态的信息,同时引入多少候选状态的新信息。“保留多少旧记忆,吸收多少新知识?”(例如:维持长期依赖关系)

    重置门作用举例:

    ​ input: [‘风’,‘可以’,‘吹起’,‘一大张’,‘白纸’,‘’,‘无法’,‘吹走’,‘一只’,‘蝴蝶’,‘因为’,‘生命’,‘的’,‘力量’,‘在于’,‘不’,‘顺从’]

    • 当处理到 ‘却’ 时,上文信息 : 风可以吹起一大张白纸

      • 重置门值 : r t = 0.3 r_t = 0.3 rt=0.3
        • 作用:忽略部分历史信息,弱化上文影响,为后续信息(无法吹走一只蝴蝶)腾出空间
      • 更新门值 : z t = 0.8 z_t = 0.8 zt=0.8
        • 作用: 表示保留更多候选隐藏状态(由于 r t r_t rt是一个较小的值,所以候选隐藏状态中新信息占比更大) 的信息

      [^ 注]: 此时$ h_t $接近 $ ĥ_t$,隐藏状态被重置为“准备处理转折后的新逻辑”。

    • 当处理到 ‘因为’ 时,上文信息 : 少部分的 "风可以吹起一大张白纸 " + 大部分的 “无法吹走蝴蝶”

      • 重置门值 : r t = 0.8 r_t = 0.8 rt=0.8
        • 作用:保留更多上文信息,以便与后续原因关联
      • 更新门值 : z t = 0.5 z_t = 0.5 zt=0.5
        • 作用: 平衡旧状态(上文结论) 和 新状态(下文原因) ,逐步构建完整的逻辑链

内部结构

在这里插入图片描述
在这里插入图片描述

  • GRU的更新门和重置门结构图

在这里插入图片描述

Pytorch实现

nn.GRU(input_size, hidden_size, num_layers, bidirectional, batch_first, dropout)[^ input_size ]:输入特征的维度
[^ hidden_size ]:隐藏状态的维度
[^ num_layers ]:GRU的层数(默认值为1)
[^ batch_first ]:如果为True,输入和输出的形状为 (batch_size, seq_len, input_size);否则为 (seq_len, batch_size, input_size)
[^ bidirectional ]:如果为True,使用双向GRU;否则为单向GRU(默认False)
[^ dropout ]:在多层GRU中,是否在层之间应用dropout(默认值为0)
使用示例
# 定义GRU的参数含义: (input_size, hidden_size, num_layers)
# 定义输入张量的参数含义: (sequence_length, batch_size, input_size)
# 定义隐藏层初始张量的参数含义: (num_layers * num_directions, batch_size, hidden_size)
import torch.nn as nn
import torchdef dm_gru():# 创建GRU层gru = nn.GRU(input_size=5, hidden_size=6, num_layers=2)# 创建输入张量input = torch.randn(size=(1, 3, 5))# 初始化隐藏状态h0 = torch.randn(size=(2, 3, 6))# hn输出两层隐藏状态, 最后1个隐藏状态值等于output输出值output, hn = gru(input, h0)print('output--->', output.shape, output)print('hn--->', hn.shape, hn)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/74328.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Playwright + MCP:用AI对话重新定义浏览器自动化,效率提升300%!

一、引言:自动化测试的“瓶颈”与MCP的革新 传统自动化测试依赖开发者手动编写脚本,不仅耗时且容易因页面动态变化失效。例如,一个简单的登录流程可能需要开发者手动定位元素、处理等待逻辑,甚至反复调试超时问题。而MCP&#xf…

网络爬虫-4:jsonpath+实战

1.jsonpath 2.通过jsonpath实战 一.Jasonpath核心符号 1)$: 含义:表示 JSON 文档的根节点。 用法:所有 JSONPath 表达式都以 $ 开头,表示从根节点开始查询。 {"store": {"book": [{"title": "Book 1&…

GD32 ARM单片机开发规范检查清单 GD32嵌入式C代码检查清单

GD32 ARM单片机开发规范检查清单 以下检查清单基于您的编程规范制定,可用于代码审查和自检过程。通过逐项检查,确保代码符合项目规范要求。 #mermaid-svg-Ye0FEIS4ZoXDXqaH {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:…

求职招聘网站源码,找工作招工系统,支持H5和各种小程序

招聘找活招工平台系统源码 招聘求职找工作软件 发布信息积分充值招聘系统,里面带纤细教程 功能介绍: 招工小程序主要针对工地招工工人找工作,工地可以发布招工信息,工人可以发布找活信息,招工信息可以置顶,置顶需要积分,积分可以通过签到、分享邀请好友、充值获取,后…

《Oracle DBA入门实战:十大高频问题详解与避坑指南》

Oracle DBA 入门作业十问十答 本文为 Oracle DBA 入门作业整理,涵盖工具使用、配置管理及权限控制等核心知识点,适合新手快速上手。 如有疑问或补充,欢迎评论区交流! 1. DBA 常用工具有哪些? Oracle Universal Instal…

解决用户同时登录轮询获取用户信息错乱,使用WebSocket和Server-Sent Events (SSE)

为什么更推荐WebSocket Server-Sent Events (SSE) 是一种服务器向客户端推送数据的单向通信协议,适合某些场景,在解决用户同时登录和实时获取用户信息的问题上,WebSocket 是更好的选择。 1. SSE 的局限性 单向通信 SSE 是单向的&#xff0…

发票查验/发票验真如何用Java实现接口调用

一、什么是发票查验?发票验真接口? 输入发票基本信息发票代码、发票号码、开票日期、校验码后6位、不含税金额、含税金额,核验发票真伪。 该接口也适用于机动车、二手车销售发票、航空运输电子客票、铁路电子客票等。 二、如何用Java实现接口…

html5-qrcode前端打开摄像头扫描二维码功能

实现的效果如图所示,全屏打开并且扫描到二维码后弹窗提醒,主要就是使用html5-qrcode这个依赖库,html5-qrcode开源地址:GitHub - mebjas/html5-qrcode: A cross platform HTML5 QR code reader. See end to end implementation at:…

cpp-友元

理解 C 中的友元(Friend) 在 C 语言中,封装(Encapsulation) 是面向对象编程的重要特性之一。它允许类将数据隐藏在私有(private)或受保护(protected)成员中,…

JavaWeb基础-HTTP协议、请求协议、响应协议

一. HTTP协议 1. HTTP协议:Hyper Text Transfer Protocol,超文本传输协议,规定了浏览器和服务器之间数据传输的规则 2. HTTP协议特点: ① 基于TCP协议:面向链接,安全 ② 基于请求-响应模型的:一…

search_fields与filterset_fields的使用

在Django中,search_fields 和 filterset_fields 可以在视图类中使用,尤其是在 Django REST Framework (DRF) 中。它们分别用于实现搜索和过滤功能。以下是它们在视图类中的具体使用方法。 1. search_fields 在视图类中的使用 search_fields 是 DRF 中 S…

数据建模流程: 概念模型>>逻辑模型>>物理模型

数据建模流程 概念模型 概念模型是一种高层次的数据模型,用于描述系统中的关键业务概念及其之间的关系。它主要关注业务需求和数据需求,而不涉及具体的技术实现细节。概念模型通常用于在项目初期帮助业务人员和技术人员达成共识,确保对业务需…

在 Ubuntu 中用 Docker 安装 RAGFlow

一、安装 1.前提条件 CPU > 4 核 RAM > 16 GB Disk > 50 GB Docker > 24.0.0 & Docker Compose > v2.26.1 安装docker:在Ubuntu中安装Docker并配置国内镜像 2.设置 vm.max_map_count #设置 vm.max_map_count 不小于 262144# 查看 sysctl vm.…

Java随机生成n位验证码

Java学习笔记 今天写一个随机生成n位的验证码,包含字母大小写和数字,直接见代码。 package com.itheima.hello;// 生成一个随机位数的验证码 public class ScannerDemo1 {public static void main(String[] args){System.out.println(getCode(4));Syst…

go复习目录

全部都是博主的学习笔记,放着链接用的,自己收藏,包含基础内容、go三方包、vue、数据结构、web框架、设计模式、docker、go连接kafka、redis、grpc、中间件 文章目录 基础内容go三方包vue数据结构web框架设计模式dockergo连接kafkaredisgrpc中…

23种设计模式-创建型模式-抽象工厂

文章目录 简介场景问题1. 风格一致性失控2. 对象创建硬编码3. 产品族管理失效 解决总结 简介 抽象工厂是一种创建型设计模式,可以生成相关对象系列,而无需指定它们的具体类。 场景 假设你正在写一个家具店模拟器。 你的代码这些类组成: 相…

案例:网络命名空间模拟隔离主机场景

场景描述 假设我们需要在同一台物理机上模拟两台独立的主机(Host A 和 Host B),它们分别位于不同的网络命名空间中,并通过虚拟以太网对(veth pair)进行通信。目标是展示网络命名空间的隔离性和跨命名空间的…

新闻发布时间抽取(二)

1. 再论抽取方法 在前一期实验中,对gne组件进行分析和完善,对三种时间抽取的方法进行了实验对比。 在对抽取结果进行个例分析的过程中,我发现此前实验存在几个问题: 抽取的1000篇新闻存在一定的重复,经过ID去重大约减…

算法基础——栈

一、栈的概念 栈是⼀种只允许在⼀端进⾏数据插⼊和删除操作的线性表。 进⾏数据插⼊或删除的⼀端称为栈顶,另⼀端称为栈底。不含元素的栈称为空栈。进栈就是往栈中放⼊元素,出栈就是将元素弹出栈顶。 二、栈的模拟实现 1. 创建 本质还是线性表&#…

Android11至15系统定制篇

Android 11至15系统定制核心要点解析 一、Android 11关键定制特性 ‌分区存储强制化‌ 公共目录(如Downloads、Pictures)与应用专属目录分离,应用更新后无法通过requestLegacyExternalStorage绕过限制‌1。需申请MANAGE_EXTERNAL_STORAGE权限…