跳跃连接(Skip Connection)与残差连接(Residual Connection)

1. 跳跃连接(Skip Connection)的基本概念

跳跃连接是一种在深度神经网络中广泛应用的技术,它允许信息在网络中跨层直接传递。在传统的神经网络里,每一层的输出仅仅是前一层输出经过特定变换后的结果。而在具备跳跃连接的网络中,某一层的输出不仅能够包含前一层的变换结果,还可以直接包含更早层的输出。

在残差网络(ResNet)里,跳跃连接的核心结构为残差块。假设输入为 x,经过一系列非线性变换(像卷积、激活函数等)后得到 F(x),残差块的输出 y 由以下公式给出:

 y=F(x)+x

2. 从反向传播角度看梯度稳定

在神经网络的训练过程中,反向传播算法用于计算损失函数关于网络参数的梯度,以此来更新参数。梯度消失和梯度爆炸是深度神经网络训练时常见的问题。当网络层数极深时,梯度在反向传播过程中会不断地进行连乘操作,要是梯度值小于 1,经过多层连乘后就会趋近于 0,这便是梯度消失;要是梯度值大于 1,经过多层连乘后就会变得非常大,这就是梯度爆炸。

现在,我们从反向传播的角度来分析跳跃连接对梯度的影响。假设损失函数为 L  ,对输出 y 求梯度可得:

\frac{\vartheta L}{\vartheta x}=\frac{\vartheta L}{\vartheta y}\frac{\vartheta y}{\vartheta x}

由于 y=F(x)+x,所以\frac{\vartheta y}{\vartheta x}=\frac{\vartheta F(x)}{\vartheta x}+1

那么\frac{\vartheta L}{\vartheta x}=\frac{\vartheta L}{\vartheta y}(\frac{\vartheta F(x)}{\vartheta x}+1)=\frac{\vartheta L}{\vartheta y}\frac{\vartheta F(x)}{\vartheta x}+\frac{\vartheta L}{\vartheta y}

3. “梯度上加 1 的常数项” 对梯度稳定的作用

  • 避免梯度消失:在没有跳跃连接的情况下,梯度\frac{\vartheta L}{\vartheta x}仅仅是\frac{\vartheta L}{\vartheta y}\frac{\vartheta F(x)}{\vartheta x}。要是\frac{\vartheta F(x)}{\vartheta x}的值非常小,经过多层反向传播后,梯度就会趋近于 0。然而,在有跳跃连接时,多了一个常数项\frac{\vartheta L}{\vartheta y}。即便 \frac{\vartheta F(x)}{\vartheta x}趋近于 0,梯度\frac{\vartheta L}{\vartheta x}至少还有\frac{\vartheta L}{\vartheta y}这一部分,不会完全消失。
  • 平滑梯度更新:在反向传播过程中,梯度的波动可能会很大,这会使训练过程变得不稳定。跳跃连接添加的常数项能够在一定程度上平滑梯度的更新。因为这个常数项的存在,梯度不会因为\frac{\vartheta F(x)}{\vartheta x}的微小变化而产生剧烈的波动,进而让训练过程更加稳定。

4. 直观示例

我们可以把神经网络的每一层想象成一个信息处理的阶段。在传统网络中,信息必须一层一层地传递,要是某一层的处理出现问题(例如梯度消失),后续层就很难接收到有效的信息。而跳跃连接就像是一条 “捷径”,信息能够直接跳过某些层。从梯度的角度来看,跳跃连接提供了另一条梯度传播的路径,使得梯度不会因为某一层的变换而完全丢失或者变得不稳定。

综上所述,跳跃连接通过在梯度计算中引入常数项 1,有效地避免了梯度消失问题,平滑了梯度更新,从而增强了深度神经网络训练过程中梯度的稳定性。

5.残差连接(Residual Connection)

跳跃连接(Skip Connection)和残差连接(Residual Connection)在很多情况下被视为等同概念,但严格来说,二者既有联系又有区别,下面为你详细分析:

联系

在大多数深度学习的讨论场景中,跳跃连接和残差连接可以互换使用,它们核心思想一致。残差连接是跳跃连接在残差网络(ResNet)里的具体应用形式。二者都旨在解决深度神经网络训练过程中梯度消失和梯度爆炸的问题,通过让网络中的信息跨层直接传递,来保留更多原始特征,增强网络的学习能力。

在数学形式上,它们也具有相似性。以常见的残差块为例,假设输入为x,经过一系列非线性变换(如卷积、激活函数等)后得到F(x),残差块的输出y可以表示为:

y=F(x)+x

这里的x直接跨越了F(x)这部分网络层,这既是残差连接的体现,也符合跳跃连接的定义。

区别

  • 概念范畴:跳跃连接是一个更宽泛的概念,它描述的是信息可以跨越网络中的某些层进行传递的这种连接方式。只要存在信息不按照常规的逐层传递,而是跳过部分层的情况,都可以称为跳跃连接。而残差连接是一种特定类型的跳跃连接,它在跳跃连接的基础上,强调了残差学习的思想,即学习输入x与期望输出之间的残差 F(x)
  • 应用场景和目的侧重:跳跃连接的应用场景更为广泛,它可以应用于各种类型的神经网络架构中,目的是为了促进信息的流动、缓解梯度问题等。例如,在 U-Net 网络中也使用了跳跃连接,主要是为了在解码器部分恢复图像的细节信息,将编码器部分的特征图直接传递到解码器对应层。而残差连接主要应用于以 ResNet 为代表的残差网络中,侧重于通过残差学习让网络更容易学习到输入与输出之间的映射关系,从而可以训练更深层次的网络。

综上所述,虽然跳跃连接和残差连接在很多情况下含义相近,但残差连接是跳跃连接的一种具体且有特定目的的应用形式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/75724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【硬件视界9】网络硬件入门:从网卡到路由器

🌟引言: 专栏:《硬件视界》 【硬件视界8】电源供应器(PSU):计算机的“心脏“ 在数字化高速发展的今天,网络已成为我们日常生活和工作中不可或缺的基础设施。而支撑这一基础设施的核心要素,便是各种各样的网络硬件设备。从连接计算机到网络的网络适配器,到负责数据转发与…

最小生成树理论

1. 基本定义 生成树:在一个连通无向图中,一个生成树是包含所有顶点且边数为 n−1(n为顶点数)的无环连通子图。 最小生成树:在所有生成树中,边权和最小的那一棵树。也就是说,若每条边有一个非负…

STM32 HAL库 CANFD配置工具

用法说明: 该工具适用于STM32HAL库,可一键生成CANFD的HAL库配置代码。计算依据为HAL库,并参考ZLG标准。 软件界面: 仓库地址: HAL CANFD Init Gen: 适用于STM32控制器的HAL库 版本说明: V1.2.0 &#x…

【11408学习记录】考研英语长难句解析 | 语法拆分+写作模板+真题精讲(附高分秘籍)

2025.04.05 英语语法总结——长难句并列句并列连词并列句的省略 写作书信写作第二段注意 第三段落款 每日一句词汇第一步:辨别第二步:断开第三步:简化 英语 语法总结——长难句 长难句有两个特点:长、难。 之所以又长又难就是因…

实用的alias别名命令——比2=1+1简单的基础命令

目录 alias命令的用处alias命令的写法让alias别名永久存在的办法下篇预告 alias命令的用处 别名,就是linux系统中的命令的别称,而alias命令,可以显示linux系统当前设定的全部别名,当然,也可以自己定义一个别名。 ali…

Kafka 中的批次

在 Kafka 中,批次(Batch) 是生产者发送消息的一个重要概念。它对 Kafka 的性能、吞吐量、延迟等有很大影响。批量处理可以使消息发送更高效,减少网络往返和磁盘写入的开销。 下面我将详细解释 Kafka 中的批次机制,包括…

联合、枚举、类型别名

数据类型: 已学--整数、实数、字符、字符串、数组、指针、结构待学--向量(vector)类型:优于数组非主流的类型--联合(union)、枚举(enum) 一、联合 联合类似于结构,可以容…

form+ffmpeg+opus录音压缩音频

说明: formffmpegopus录音压缩音频 效果图: step1:opus格式录音 C:\Users\wangrusheng\RiderProjects\WinFormsApp11\WinFormsApp11\Form1.cs using System; using System.Diagnostics; using System.IO; using System.Windows.Forms;namespace WinFo…

软件工程面试题(三十)

将ISO8859-1字符串转成GB2312编码,语句为? String snew String(text.getBytes(“iso8859-1”),”gb2312”). 说出你用过的J2EE标准的WEB框架和他们之间的比较? 答:用过的J2EE标准主要有:JSP&Servlet、JDBC、JNDI…

每日一题(小白)分析娱乐篇10

由题知计算阶乘之和,我们可以用for循环计算每一次的值把总和放在BigInteger然后进行判断。但是这样明显过于麻烦,我们可以利用数学的本质去思考这个问题,以0结尾的数字乘以一个数字必定为0,阶乘之中必定有2和5结尾的数字相乘得0&a…

【51单片机】2-3【I/O口】震动传感器控制LED灯

1.硬件 51最小系统LED灯模块震动传感器模块 2.软件 #include "reg52.h"sbit led1 P3^7;//根据原理图(电路图),设备变量led1指向P3组IO口的第7口 sbit vibrate P3^3;//震动传感器DO接P3.3口void Delay2000ms() //11.0592MHz {…

Linux网络状态监控利器:netstat与ping命令详解

网络状态监控利器:netstat与ping命令详解 在Linux系统的网络管理中,实时监控网络状态是确保系统稳定运行的关键环节。netstat和ping作为两个常用的网络监控工具,分别提供了详细的网络状态信息和网络连通性检测功能。本文将全面解析这两个命令…

【spring cloud Netflix】Eureka注册中心

1.概念 Eureka就好比是滴滴,负责管理、记录服务提供者的信息。服务调用者无需自己寻找服务,而是把自己的 需求告诉Eureka,然后Eureka会把符合你需求的服务告诉你。同时,服务提供方与Eureka之间通过“心跳” 机制进行监控&#xf…

Linux中C++ gdb调试命令

编译可执行文件需要带上-g选项参数 输入回车则重复执行上一次命令; 进入gdb: gdb 程序名运行gdb命令: r打断点命令: b 行号查看断点命令: i b打印变量命令: p 变量名持续查看变量命令: d…

【进收藏夹吃灰】机器学习学习指南

博客标题URL【机器学习】线性回归(506字)https://blog.csdn.net/from__2025_03_16/article/details/146303423

【通信观察家】2025年Q1通信业技术跃迁与生态重构:AI+低空经济双轮驱动

一、行业动态与投资热点 1. 算力投资加速 1) 腾讯2024年财报显示,AI相关资本开支同比增长221.27%,2025年计划继续加码AI原生应用研发及算力基础设施建设,其自研混元T1模型(Hybrid-Mamba-Transformer架构)已上线并开放云服务。 2) 中国移动和…

基于 Vue + Django + MySQL 实现个人博客/CMS系统

目录 1. 环境搭建与项目初始化 后端 (Django) 2. 数据库模型设计 用户认证模型 (Django Auth) 文章模型 (models.py) 全文索引优化 3. 后端API开发 (Django REST Framework) 用户注册/登录 文章发布与搜索 4. 前端实现 (Vue 3) 项目初始化 核心功能实现 5. 访问统…

从全球首发到独家量产,远峰科技持续领跑数字钥匙赛道

数字车钥匙「新纪元」即将开启,星闪数字钥匙正式进入量产周期。 随着汽车智能化快速普及,数字钥匙的搭载量正在快速提升。根据高工智能汽车研究院的数据,2024年中国市场乘用车前装标配搭载数字钥匙的新车交付量超过1000万辆,同比…

C#高级:利用LINQ进行实体列表的集合运算

问题引入: Teacher实体的唯一标识符是Name和Classes字段(或者说这两个字段唯一确定一条数据),如何对两个实体列表做交集、差集运算呢?(并集直接调用AddRange方法即可) 一、重写方法实现 1.原…