「深度学习」门控循环单元GRU

一、梯度消失问题

  • 梯度消失

    基础的 RNN 模型不善于处理长期依赖关系,有很多局部影响,很难调整自己前面的计算。y^{<i>} 仅仅受自己附近的值影响。

  • 解决方法:GRU 或 LSTM

  • 梯度爆炸

    反向传播时,随着层数增多,梯度不仅可能指数型下降,还有可能指数型上升 —— 会导致参数过大,网络崩溃

    解决方法:梯度修剪 —— 观察梯度向量,若大于某个阈值,则放缩梯度向量,保证其不会过大

二、GRU

目的:使隐藏层更好地捕捉深层连接,改善梯度消失的问题

1. RNN 单元

2. 简化版 GRU 单元

c = memory \space cell

c^{<t>} = a^{<t>}​​

  • c^{<t>} 的候选值:\widetilde{c}^{<t>} = tanh(w_{c}[c^{<t-1>},x^{<t>}]+b_{c})
  • 核心思想 "门" - 决定什么时候更新:\Gamma_{u} = \sigma(w_{u}[c^{<t-1>},x^{<t>}]+b_{u})

    u:“update”

    \Gamma_{u}​ 介于0到1之间,大多数情况下非常接近0或1

    sigmoid 激活函数:

  • 关键部分:c^{<t>} = \Gamma_{u}*\widetilde{c}^{<t>} + (1-\Gamma_{u})*\widetilde{c}^{<t-1>}​

    \Gamma_{u} = 1:将 c^{<t>}​​ 更新为候选值

    \Gamma_{u} = 0:保留原来的值

优点:若 \Gamma_{u} 接近0,c^{<t>}几乎等于c^{<t-1>},即使经过了很多层,c^{<t>}的值依然会被保留,故可以缓和梯度下降带来的问题。

c^{<t>} 可以是向量,用不同的bit去记忆不同的单词。

3. 完整版 GRU

\widetilde{c}^{<t>} = tanh(w_{c}[\Gamma_{r}*c^{<t-1>},x^{<t>}]+b_{c})

\Gamma_{u} = \sigma(w_{u}[c^{<t-1>},x^{<t>}]+b_{u})

  • \Gamma_{r} = \sigma(w_{r}[c^{},x^{}]+b_{u})

         r:"relevance"

         表示计算出的 \widetilde{c}^{<t>} 与 c^{<t-1>} 有多大的相关性

c^{<t>} = \Gamma_{u}*\widetilde{c}^{<t>} + (1-\Gamma_{u})*\widetilde{c}^{<t-1>}​

a^{<t>} = c^{<t>}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/672232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多头注意力和多尺度注意力的区别

我在李沐动手深度学习中第10章学了多头注意力。 最近的论文里有多尺度注意力&#xff0c;其实这俩不一样&#xff0c;我下面综述一下两者的区别。 多头注意力&#xff08;Multi-head Attention&#xff09;和多尺度注意力&#xff08;Multi-scale Attention&#xff09;是两种…

【数据分享】1929-2023年全球站点的逐日降水量数据(Shp\Excel\免费获取)

气象数据是在各项研究中都经常使用的数据&#xff0c;气象指标包括气温、风速、降水、湿度等指标&#xff0c;说到常用的降水数据&#xff0c;最详细的降水数据是具体到气象监测站点的降水数据&#xff01; 有关气象指标的监测站点数据&#xff0c;之前我们分享过1929-2023年全…

JavaScript中闭包的定义、原理及应用场景

JavaScript是一门以函数为核心的编程语言&#xff0c;其独特的闭包特性是众多开发者所喜爱的特点之一。闭包是一种非常强大的概念&#xff0c;可以帮助我们实现许多复杂的功能和逻辑。本篇博客将为大家深入介绍JavaScript中闭包的定义、原理及应用场景&#xff0c;并通过示例代…

C++泛型编程:函数模板

基本语法&#xff1a; template <typename T> void mySwap(T& a, T& b) {//类型参数化T temp a;a b;b temp; } void test01() {int a 10, b 20;//自动类型推导mySwap(a,b);//显示指定类型mySwap<int>(a, b); } 实例&#xff1a;数组排序 template&…

SpringCloud--Gateway解析

一、Gateway简介 Gateway是Spring Cloud官方推出的第二代微服务网关&#xff0c;它旨在提供统一的路由方式以及为微服务应用提供强大的负载均衡能力。与第一代Spring Cloud Netflix Zuul相比&#xff0c;Spring Cloud Gateway在性能、可扩展性、易用性等方面都有了显著的提升。…

(29)数组异或操作

文章目录 每日一言题目解题思路方法一方法二 代码方法一方法二 结语 每日一言 泉涸&#xff0c;鱼相与处于陆&#xff0c;相呴以湿&#xff0c;相濡以沫&#xff0c;不如相忘于江湖。 --庄子内篇大宗师 题目 题目链接&#xff1a;数组异或操作 给你两个整数&#xff0c;n 和…

【VS2022】运行cmake项目

在这里插入代码片https://github.com/kitamstudios/rust-analyzer.vs/blob/master/PREREQUISITES.md Latest rustup (Rust Toolchain Installer). Install from here. Welcome to Rust!This will download and install the official compiler for the Rust programming langua…

Python的属性查找机制的学习笔记

Python中属性查找机制的描述如下&#xff1a; 描述符方法&#xff1a;如果一个类的属性是由描述符定义的&#xff08;即实现了__get__()、__set__()或__delete__()方法&#xff09;&#xff0c;Python会首先调用相应的描述符方法。例如&#xff0c;如果一个属性有__get__()方法…

前端下载文件有哪些方式

前端下载文件有哪些方式 在前端&#xff0c;最常见和最常用的文件下载方式是&#xff1a; 使用 标签的 download 属性&#xff1a; 创建一个 标签&#xff0c;并设置其 href 属性为文件的 URL&#xff0c;然后使用 download 属性指定下载的文件名。 这种方式简单直接&…

作业5.......

封装strcat #include <stdio.h> #include <string.h> int main(int argc, const char *argv[]) { int i0; char arr[30]; char brr[30]; gets(arr); gets(brr); for(i0;i<strlen(brr);i) { arr[istrlen(brr)]brr[i]; printf("%d…

SpringBoot - 不加 @EnableCaching 标签也一样可以在 Redis 中存储缓存?

网上文章都是说需要在 Application 上加 EnableCaching 注解才能让缓存使用 Redis&#xff0c;但是测试发现不用 EnableCaching 也可以使用 Redis&#xff0c;是网上文章有问题吗&#xff1f; 现在 Application 上用了 EnableAsync&#xff0c;SpringBootApplication&#xff0…

go语言每日一练——链表篇(六)

传送门 牛客面试必刷101题—— 判断链表中是否有环 牛客面试必刷101题—— 链表中环的入口结点 题目及解析 题目一 代码 package mainimport . "nc_tools"/** type ListNode struct{* Val int* Next *ListNode* }*//**** param head ListNode类* return bool…

curl命令忽略不受信任的https安全限制

用curl命令没有得到返回&#xff0c;还报了个提示&#xff1a; curl: (60) Issuer certificate is invalid. More details here: http://curl.haxx.se/docs/sslcerts.html curl performs SSL certificate verification by default, using a “bundle” of Certificate Authorit…

vue3-内置组件-TransitionGroup

<TransitionGroup> 是一个内置组件&#xff0c;用于对 v-for 列表中的元素或组件的插入、移除和顺序改变添加动画效果。 与 <Transition> 的区别 <TransitionGroup> 支持和 <Transition> 基本相同的 props、CSS 过渡 class 和 JavaScript 钩子监听器&…

linux centos安装LibreOffice

1.下载安装包 #下载安装包 cd /opt wget https://mirror.cyberbits.eu/tdf/libreoffice/stable/24.2.0/rpm/x86_64/LibreOffice_24.2.0_Linux_x86-64_rpm.tar.gz2.解压安装包 #解压安装包 tar -zxvf LibreOffice_24.2.0_Linux_x86-64_rpm.tar.gz3.安装 #安装 cd /opt/LibreO…

Elasticsearch单个索引数据量过大的优化

当Elasticsearch&#xff08;ES&#xff09;中的单个索引&#xff08;index&#xff09;的数据量变得过大时&#xff0c;可能会遇到性能下降、查询缓慢、管理困难等问题。为了优化和应对大索引的挑战&#xff0c;可以考虑以下策略&#xff1a; 1. 使用分片和副本 分片&#xf…

aspose-words字体转换

aspose-words字体转换 简介 项目中经常遇到文档处理时,甲方要求字体需要替换,或者转出来的文档字体对不上,反反复复改非常繁琐,这时候我们就需要aspose-words来替换字体,选择合适的,项目上需要的,各种各样的字体刚好aspose-words提供了相关的方法,就是使用使用 TrueTy…

代驾应用系统(ssm)

登录首页 管理员界面 代驾司机界面 普通用户界面 前台页面 1、系统说明 &#xff08;1&#xff09; 框架&#xff1a;spring、springmvc、mybatis、mysql、jsp &#xff08;2&#xff09; 系统分为前台系统、后端管理系统 2、欢迎留言联系交流学习讨论&#xff1a;qq 97820625…

链表:反转链表

反转链表 反转链表&#xff0c;常用的方法有迭代&#xff0c;栈反转&#xff0c;递归反转。 迭代 比如&#xff0c;现有链表1->2->3->4->5&#xff0c; 首先&#xff0c;从第一个节点开始&#xff0c;反转&#xff0c;将1->null&#xff0c; 接着向下一个节点…

wsl 安装minikube

Minikube是一种轻量化的Kubernetes集群&#xff0c;专为开发者和学习者设计&#xff0c;以便他们能够更好地学习和体验Kubernetes的功能。它利用个人PC的虚拟化环境&#xff0c;实现了Kubernetes的快速构建和启动。目前&#xff0c;Minikube已经支持在macOS、Linux和Windows平台…