当代深度学习模型介绍--门控循环单元(GRUs)

AI大模型学习

方向一:AI大模型学习的理论基础

模型和应用的多样化:随着研究的深入,深度学习领域出现了多种创新的模型架构:

  • 卷积神经网络(CNNs)专门针对图像处理任务进行了优化,通过模拟生物视觉系统的工作原理,极大地提高了图像识别和分类的准确度。
  • 循环神经网络(RNNs)和它们的改进版本,如长短期记忆网络(LSTMs)门控循环单元(GRUs),则专门用于处理序列数据,如文本和时间序列,有效捕捉数据中的时间关系和顺序信息。
  • 最近,Transformer模型和它的变体(如BERT、NLP、GPT系列)在处理自然语言处理任务方面取得了显著的成就,它们的设计优化了数据中长距离依赖关系的捕捉,极大地提升了机器翻译、文本生成和理解的能力。

门控循环单元(Gated Recurrent Unit, GRU)是一种特殊的循环神经网络(RNN),类似于长短期记忆网络(LSTM),但结构上更为简化。GRU由Cho等人在2014年提出,旨在解决标准RNN在处理长序列数据时的梯度消失问题,同时尝试减少LSTM的计算复杂性。GRU通过引入更新门(Update Gate)和重置门(Reset Gate)来控制信息的流动,这使得它能够有效地保持长期依赖关系并减少参数数量,提高计算效率。

GRU的核心机制

GRU的核心在于其两个门控机制:

  1. 更新门(Update Gate)

    • 决定了来自前一状态的信息有多少应该被保留下来。
    • 更新门帮助模型决定在当前单元状态中保持多少之前的记忆。如果更新门接近1,表示之前的记忆将被大量保留;如果接近0,则新的输入将有更多的影响。
  2. 重置门(Reset Gate)

    • 决定了多少过去的信息需要被忘记。
    • 重置门用于决定在生成当前候选隐藏状态时,应该丢弃多少过去的信息。如果重置门的值接近0,那么之前的隐藏状态将被忽略,使得模型不考虑之前的输出。

GRU的运作流程

在每个时间步,GRU单元通过以下步骤更新其状态:

  1. 计算更新门

    • 更新门使用当前输入和前一隐藏状态来决定保留多少之前的状态信息。
    • 更新门的计算涉及当前输入和前一时间步隐藏状态的线性组合,然后通过sigmoid函数,保证输出值在0和1之间。
  2. 计算重置门

    • 重置门同样使用当前输入和前一隐藏状态,通过sigmoid函数决定忘记多少过去的信息。
  3. 计算候选隐藏状态

    • 候选隐藏状态是根据重置门的指示,部分地忘记前一隐藏状态,同时加入当前时间步的新信息。
    • 这个过程涉及到重置门与前一隐藏状态的相乘(允许模型丢弃无关的信息),然后加上当前输入,最后通过tanh函数以保持输出值在-1和1之间。
  4. 计算最终隐藏状态

    • 最终的隐藏状态是由更新门来调控的,它决定了保留多少旧的隐藏状态和多少新的候选隐藏状态。
    • 这一步涉及到更新门、前一隐藏状态以及新的候选隐藏状态的线性组合,确保模型能在保留长期记忆的同时融入新的信息。

GRU与LSTM的比较

  • 简化的结构:GRU的结构比LSTM更为简化,因为它只有两个门(更新门和重置门),而不是LSTM的三个门(输入门、遗忘门和输出门)。
  • 参数数量较少:由于结构上的简化,GRU通常有更少的参数,这意味着在某些情况下它可以更快地训练,同时减少过拟合的风险。
  • 性能对比:尽管GRU结构更简单,但在很多任务上,其性能与LSTM相当,甚至在某些情况下能超过LSTM。

GRU提供了一种高效的方法来捕捉序列数据中的长距离依赖关系,特别适合于需要处理长序列或希望模型具有较少参数的场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/783128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32的芯片无法在线调试的情况分析

问题描述 本博客的目的在于帮助网友尽快地解决问题, 避免浪费时间, 查漏补缺。 在stm32的开发过程中,有时会遇到"STM No Target connected"的错误提示,这说明MDK开发环境无法与目标设备进行通信,导致无法烧…

YOLOv9改进策略 :注意力机制 | 注意力机制与卷积的完美融合 | 最新移动端高效网络架构 CloFormer

💡💡💡本文改进内容: 引入CloFormer 中的 AttnConv,上下文感知权重使得模型能够更好地适应输入内容。相比于局部自注意力机制,引入共享权重使得模型能够更好地处理高频信息,从而提高性能。 💡💡💡注意力机制与卷积的完美融合 AttnConv | 亲测在多个数据集能够…

15.三数之和

题目 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。注意:答案中不可以包含重复的三元组。示例 …

windows安全中心设置@WindowsDefender@windows安全中心常用开关

文章目录 abstractwindows defender相关服务👺 停用windows Defender临时关闭实时防护使用软件工具关闭defender control(慎用)dismdControl 其他方法使其他杀毒软件注册表修改 保护历史恢复被认为是有病毒的文件添加信任目录,文件,文件类型或进程 abstract window…

算法复习:链表

链表定义 struct ListNode { int val;ListNode *next;ListNode(int x) : val(x), next(nullptr) {} }; 链表的遍历:ListNode phead; while(p!null) pp.next; 找到链表的尾结点:phead; while(p.next!null)pp.next; 链表节点的个数: phead…

java 继承extends

权限 子类会自称父类所有的非私有的成员变量和方法(不包括缺省和protected)权限修饰符的种类如下: 上面說的protected 方法可以被任意包的子类中使用,但是子类的的实例不能使用,因为没有继承,否则报错。 继…

mongodb中的字符串排序

前言 数据库有一索引字段,ObjectId与string类型混用。 需要辨明sort后的排序关系。 输入 [{"_id": {"$oid": "e98799a7e181225ad5c87476"} }, {"_id": {"$oid": "e98799a7e181225ad5c87477"} }, {&…

lab-1:Xv6 and Unix utilities

实验工具 clone实验源码 git clone git://g.csail.mit.edu/xv6-labs-2023进入目录 cd xv6-labs-2023运行内核 make qemu打印数据 Ctrl-p退出 ctrax xv6中的system call int fork() Create a process, return child’s PID. int exit(int status) Terminate the current p…

腾讯云2核4G服务器优惠价格165元一年,限制500GB月流量

腾讯云轻量2核4G5M服务器租用价格165元1年、252元15个月、三年900元,配置为轻量2核4G5M、5M带宽、60GB SSD盘、500GB月流量、上海/广州/北京,腾讯云优惠活动 yunfuwuqiba.com/go/txy 腾讯云轻量2核4G5M服务器租用价格 腾讯云:轻量应用服务器1…

RecyclerView 调用 notifyItemInserted 自动滚动到底部的问题

项目中发现一个奇怪的现象 RecyclerView 加载完数据以后,调用 notifyItemInserted 方法,RecyclerView 会滑动到底部。 简化后的效果图: 因为这个 RecyclerView 的适配器有一个 FootViewHolder,所以怀疑是 FootViewHolder 的问题…

Linux中常用命令(文件、目录和文件压缩)及功能示例

一、Linux关于文件与目录的常用命令及其功能示例 命令: ls 全名: List (列表) 常用选项: -l: 详细列表格式,显示详细信息。-a: 显示所有文件,包括隐藏文件。 功能: 列出目录内容。 示例: ls -la /home 此命令以详细格式列出/home目录中的所有文件&#x…

推荐一本牛逼的入门 Python书!,如何试出一个Python开发者真正的水平

本书详细解说了 Python 语言和编程的本质,无论你是否接触过编程语言,只要是 Python 编程的初学者,都可阅读本书。 本书讲解的内容虽然基础,但并不简单。本书提供了 165 幅图表,可以让大家能够轻松地理解并掌握复杂的概…

踏入网页抓取的旅程:使用 grequests 构建 Go 视频下载器

引言 在当今数字化的世界中,网页抓取技术变得越来越重要。无论是获取数据、分析信息,还是构建自定义应用程序,我们都需要从互联网上抓取数据。本文将介绍如何使用 Go 编程语言和 grequests 库来构建一个简单的 Bilibili 视频下载器&#xff…

多线程(22)Executor`框架

Executor框架是Java提供的一套高级的线程管理机制,它在java.util.concurrent包中。这个框架旨在简化并发编程,提供了线程池管理、任务调度、异步计算等功能,让开发者能够更加专注于任务的执行逻辑,而不是线程的管理和调度。 核心…

UE4_碰撞_射线检测不到物体原因及跳不到圈内的问题

UseSimpleAsComplex 和 UseComplexAsSimple 标记的作用和使用时间。 虚幻引擎 4 中有简单和复杂碰撞形态。 简单碰撞 是基础,如盒体、 球体、胶囊体和凸包。 复杂碰撞 是给定对象的三角网格图。 虚幻引擎 4 会默认创建简单和复杂两种形态,然后基于用户需…

gan zoo: 最新GAN 相关paper/code收集

相关推荐: 简单实现 GAN 简单实现 DCGAN 简单实现 InfoGAN 简单实现 Pix2Pix 一文带你读懂概率生成模型 GPT-1/GPT-2/GPT-3简介 GPT从0到1构建(附视频代码链接) 一文带你读懂变分自编码器(VAEs) 文本引导图像生成模型的演变(DALLE/CLIP/GLIDE) 作者对迄今为止所有的…

软考 系统架构设计师系列知识点之云原生架构设计理论与实践(10)

接前一篇文章:软考 系统架构设计师系列知识点之云原生架构设计理论与实践(9) 所属章节: 第14章. 云原生架构设计理论与实践 第2节 云原生架构内涵 14.2 云原生架构内涵 关于云原生的定义有众多版本,对于云原生架构的…

Java类和对象练习题

练习一 下面代码的运行结果是() public static void main(String[] args){String s;System.out.println("s"s);} 解析:本题中的代码不能编译通过,因为在Java当中局部变量必须先初始化,后使用。所以此处编译不…

Playwright库page.evaluate()方法执行JavaScript 表达式

page.evaluate() 方法是 Playwright 中常用的方法之一,用于在页面上下文中执行 JavaScript 代码。它允许在浏览器环境中执行各种操作,如操作 DOM 元素、获取页面数据、执行复杂的计算等,并将结果返回到 Node.js 或 Python 代码中。 在 Playw…

JAVAEE之网络原理

1.IP地址 IP地址主要用于标识网络主机、其他网络设备(如路由器)的网络地址。简单说,IP地址用于定位主机的网络地址。 格式 IP地址是一个32位的二进制数,通常被分割为4个“8位二进制数”(也就是4个字节)&…