ResNet与注意力机制:深度学习中的强强联合

引言

在深度学习领域,卷积神经网络(CNN)一直是图像处理任务的主流架构。然而,随着网络深度的增加,梯度消失和梯度爆炸问题逐渐显现,限制了网络的性能。为了解决这一问题,ResNet(残差网络)应运而生,通过引入残差连接,使得网络可以训练得更深,从而在多个视觉任务中取得了显著的效果。

然而,尽管ResNet在图像分类、目标检测等任务中表现出色,但在处理复杂场景时,仍然存在一些局限性。例如,网络可能会忽略一些重要的细节信息,或者对某些区域过度关注。为了进一步提升网络的性能,研究者们开始将注意力机制引入到ResNet中,通过自适应地调整特征图的重要性,使得网络能够更加关注于关键区域。

本文将详细介绍ResNet和注意力机制的基本原理,并探讨如何将两者结合,以提升网络的性能。我们还将通过代码示例,展示如何在实践中实现这一结合。

1. ResNet的基本原理

1.1 残差连接

ResNet的核心思想是引入残差连接(Residual Connection),即通过跳跃连接(Skip Connection)将输入直接传递到输出,使得网络可以学习残差映射,而不是直接学习原始映射。这种设计有效地缓解了梯度消失问题,使得网络可以训练得更深。

残差块(Residual Block)是ResNet的基本构建单元,其结构如下:

class ResidualBlock(nn.Module):def __init__(self, in_channels, out_channels, stride=1):super(ResidualBlock, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)self.bn1 = nn.BatchNorm2d(out_channels)self.relu = nn.ReLU(inplace=True)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)self.bn2 = nn.BatchNorm2d(out_channels)self.shortcut = nn.Sequential()if stride != 1 or in_channels != out_channels:self.shortcut = nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),nn.BatchNorm2d(out_channels))def forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)out = self.conv2(out)out = self.bn2(out)out += self.shortcut(residual)out = self.relu(out)return out

1.2 ResNet的网络结构

ResNet的网络结构由多个残差块堆叠而成,通常包括多个阶段(Stage),每个阶段包含多个残差块。随着网络的加深,特征图的尺寸逐渐减小,而通道数逐渐增加。常见的ResNet架构包括ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152等。

2. 注意力机制的基本原理

2.1 注意力机制的概念

注意力机制(Attention Mechanism)最初在自然语言处理(NLP)领域中被提出,用于解决序列到序列(Seq2Seq)模型中的长距离依赖问题。其核心思想是通过计算输入序列中每个元素的重要性,动态地调整每个元素的权重,从而使得模型能够更加关注于关键信息。

在计算机视觉领域,注意力机制被广泛应用于图像分类、目标检测、图像分割等任务中。通过引入注意力机制,网络可以自适应地调整特征图的重要性,从而提升模型的性能。

2.2 常见的注意力机制

2.2.1 通道注意力机制

通道注意力机制(Channel Attention)通过计算每个通道的重要性,动态地调整每个通道的权重。常见的通道注意力机制包括SENet(Squeeze-and-Excitation Network)和CBAM(Convolutional Block Attention Module)等。

SENet的结构如下:

class SEBlock(nn.Module):def __init__(self, channel, reduction=16):super(SEBlock, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1)self.fc = nn.Sequential(nn.Linear(channel, channel // reduction, bias=False),nn.ReLU(inplace=True),nn.Linear(channel // reduction, channel, bias=False),nn.Sigmoid())def forward(self, x):b, c, _, _ = x.size()y = self.avg_pool(x).view(b, c)y = self.fc(y).view(b, c, 1, 1)return x * y.expand_as(x)
2.2.2 空间注意力机制

空间注意力机制(Spatial Attention)通过计算每个空间位置的重要性,动态地调整每个空间位置的权重。常见的空间注意力机制包括CBAM和Non-local Neural Networks等。

CBAM的结构如下:

class CBAMBlock(nn.Module):def __init__(self, channel, reduction=16, kernel_size=7):super(CBAMBlock, self).__init__()self.channel_attention = SEBlock(channel, reduction)self.spatial_attention = nn.Sequential(nn.Conv2d(2, 1, kernel_size=kernel_size, padding=kernel_size//2, bias=False),nn.Sigmoid())def forward(self, x):x = self.channel_attention(x)y = torch.cat((torch.max(x, 1)[0].unsqueeze(1), torch.mean(x, 1).unsqueeze(1)), dim=1)y = self.spatial_attention(y)return x * y

3. ResNet与注意力机制的结合

3.1 为什么要在ResNet中引入注意力机制?

尽管ResNet通过残差连接有效地缓解了梯度消失问题,使得网络可以训练得更深,但在处理复杂场景时,仍然存在一些局限性。例如,网络可能会忽略一些重要的细节信息,或者对某些区域过度关注。通过引入注意力机制,网络可以自适应地调整特征图的重要性,从而更加关注于关键区域,提升模型的性能。

3.2 如何在ResNet中引入注意力机制?

在ResNet中引入注意力机制的方法有很多种,常见的方法包括在残差块中引入通道注意力机制、空间注意力机制,或者在网络的最后引入全局注意力机制等。

3.2.1 在残差块中引入通道注意力机制

在残差块中引入通道注意力机制的方法如下:

class ResidualBlockWithSE(nn.Module):def __init__(self, in_channels, out_channels, stride=1, reduction=16):super(ResidualBlockWithSE, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)self.bn1 = nn.BatchNorm2d(out_channels)self.relu = nn.ReLU(inplace=True)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)self.bn2 = nn.BatchNorm2d(out_channels)self.se = SEBlock(out_channels, reduction)self.shortcut = nn.Sequential()if stride != 1 or in_channels != out_channels:self.shortcut = nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),nn.BatchNorm2d(out_channels))def forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)out = self.conv2(out)out = self.bn2(out)out = self.se(out)out += self.shortcut(residual)out = self.relu(out)return out
3.2.2 在残差块中引入空间注意力机制

在残差块中引入空间注意力机制的方法如下:

class ResidualBlockWithCBAM(nn.Module):def __init__(self, in_channels, out_channels, stride=1, reduction=16, kernel_size=7):super(ResidualBlockWithCBAM, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)self.bn1 = nn.BatchNorm2d(out_channels)self.relu = nn.ReLU(inplace=True)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)self.bn2 = nn.BatchNorm2d(out_channels)self.cbam = CBAMBlock(out_channels, reduction, kernel_size)self.shortcut = nn.Sequential()if stride != 1 or in_channels != out_channels:self.shortcut = nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),nn.BatchNorm2d(out_channels))def forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)out = self.conv2(out)out = self.bn2(out)out = self.cbam(out)out += self.shortcut(residual)out = self.relu(out)return out

3.3 实验结果

通过在ResNet中引入注意力机制,网络的性能得到了显著提升。例如,在ImageNet数据集上,ResNet-50的Top-1准确率为76.15%,而引入SENet后,Top-1准确率提升至77.62%。类似地,引入CBAM后,Top-1准确率提升至77.98%。

4. 总结

本文详细介绍了ResNet和注意力机制的基本原理,并探讨了如何将两者结合,以提升网络的性能。通过在ResNet中引入注意力机制,网络可以自适应地调整特征图的重要性,从而更加关注于关键区域,提升模型的性能。实验结果表明,引入注意力机制后,ResNet的性能得到了显著提升。

未来,随着注意力机制的不断发展,我们可以期待更多创新的网络架构和训练方法,进一步提升深度学习模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74353.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】——C++11新特性

目录 前言 1.初始化列表 2.std::initializer_list 3.auto 4.decltype 5.nullptr 6.左值引用和右值引用 6.1右值引用的真面目 6.2左值引用和右值引用比较 6.3右值引用的意义 6.3.1移动构造 6.4万能引用 6.5完美转发——forward 结语 前言 C,这门在系统…

【C++网络编程】第5篇:UDP与广播通信

一、UDP协议核心特性 1. UDP vs TCP ​特性 ​UDP​TCP连接方式无连接面向连接(三次握手)可靠性不保证数据到达或顺序可靠传输(超时重传、顺序控制)传输效率低延迟,高吞吐相对较低(因握手和确认机制&…

MOSN(Modular Open Smart Network)是一款主要使用 Go 语言开发的云原生网络代理平台

前言 大家好,我是老马。 sofastack 其实出来很久了,第一次应该是在 2022 年左右开始关注,但是一直没有深入研究。 最近想学习一下 SOFA 对于生态的设计和思考。 sofaboot 系列 SOFABoot-00-sofaboot 概览 SOFABoot-01-蚂蚁金服开源的 s…

微信小程序日常开发问题整理

微信小程序日常开发问题整理 1 切换渲染模式1.1 WebView 的链接在模拟器可以打开,手机上无法打开。 1 切换渲染模式 1.1 WebView 的链接在模拟器可以打开,手机上无法打开。 在 app.json 中看到如下配置项,那么当前项目就是 keyline 渲染模式…

【Altium Designer】铜皮编辑

一、动态铜皮与静态铜皮的区分与切换 动态铜皮(活铜): 通过快捷键 PG 创建,支持自动避让其他网络对象,常用于大面积铺铜(如GND或电源网络)。修改动态铜皮后,需通过 Tools → Polygo…

Java「Deque」 方法详解:从入门到实战

Java Deque 各种方法解析:从入门到实战 在 Java 编程中,Deque(双端队列)是一个功能强大的数据结构,允许开发者从队列的两端高效地添加、删除和检查元素。作为 java.util 包中的一部分,Deque 接口继承自 Qu…

ffmpeg+QOpenGLWidget显示视频

​一个基于 ‌FFmpeg 4.x‌ 和 QOpenGLWidget的简单视频播放器代码示例,实现视频解码和渲染到 Qt 窗口的功能。 1)ffmpeg库界面,视频解码支持软解和硬解方式。 硬解后,硬件解码完成需要将数据从GPU复制到CPU。优先采用av_hwf…

深入解析嵌入式内核:从架构到实践

一、嵌入式内核概述 嵌入式内核是嵌入式操作系统的核心组件,负责管理硬件资源、调度任务、处理中断等关键功能。其核心目标是在资源受限的环境中提供高效、实时的控制能力。与通用操作系统不同,嵌入式内核通常具有高度可裁剪性、实时性和可靠性&#xff…

20250324-使用 `nltk` 的 `sent_tokenize`, `word_tokenize、WordNetLemmatizer` 方法时报错

解决使用 nltk 的 sent_tokenize, word_tokenize、WordNetLemmatizer 方法时报错问题 第 2 节的手动方法的法1可解决大部分问题,可首先尝试章节 2 的方法 1. nltk.download(‘punkt_tab’) LookupError: *******************************************************…

『 C++ 』多线程同步:条件变量及其接口的应用实践

文章目录 条件变量概述条件变量简介条件变量的基本用法 案例:两个线程交替打印奇偶数代码解释 std::unique_lock::try_lock_until 介绍代码示例代码解释注意事项 std::condition_variable::wait 详细解析与示例std::condition_variable::wait 接口介绍代码示例代码解…

【VolView】纯前端实现CT三维重建-CBCT

文章目录 什么是CBCTCBCT技术路线使用第三方工具使用Python实现使用前端实现 纯前端实现方案优缺点使用VolView实现CBCT VolView的使用1.克隆代码2.配置依赖3.运行4.效果 进阶:VolView配合Python解决卡顿1.修改VtkThreeView.vue2.新增Custom3DView.vue3.Python生成s…

debug - 安装.msi时,为所有用户安装程序

文章目录 debug - 安装.msi时,为所有用户安装程序概述笔记试试在目标.msi后面直接加参数的测试 备注备注END debug - 安装.msi时,为所有用户安装程序 概述 为了测试,装了一个test.msi. 安装时,只有安装路径的选择,没…

Java Stream两种list判断字符串是否存在方案

这里写自定义目录标题 背景初始化方法一、filter过滤方法二、anyMatch匹配 背景 在项目开发中,经常遇到筛选list中是否包含某个子字符串,有多种方式,本篇主要介绍stream流的filter和anyMatch两种方案,记录下来,方便备…

DeepSeek vs 通义大模型:谁将主导中国AI的未来战场?

当你在深夜调试代码时,是否幻想过AI伙伴能真正理解你的需求?当企业面对海量数据时,是否期待一个真正智能的决策大脑? 这场由DeepSeek和通义领衔的大模型之争,正在重塑中国AI产业的竞争格局。本文将为你揭开两大技术巨头的终极对决! 一、颠覆认知的技术突破 1.1 改变游戏…

3. 轴指令(omron 机器自动化控制器)——>MC_SetOverride

机器自动化控制器——第三章 轴指令 12 MC_SetOverride变量▶输入变量▶输出变量▶输入输出变量 功能说明▶时序图▶重启运动指令▶多重启动运动指令▶异常 MC_SetOverride 变更轴的目标速度。 指令名称FB/FUN图形表现ST表现MC_SetOverride超调值设定FBMC_SetOverride_instan…

从像素到世界:自动驾驶视觉感知的坐标变换体系

接着上一篇 如何让自动驾驶汽车“看清”世界?坐标映射与数据融合详解的概述,这一篇详细讲解自动驾驶多目视觉系统设计原理,并给出应用示例。 摘要 在自动驾驶系统中,准确的环境感知是实现路径规划与决策控制的基础。本文系统性地解析图像坐标系、像素坐标系、相机坐标系与…

附录B ISO15118-20测试命令

本章节给出ISO15118-20协议集的V2G命令,包含json、xml,并且根据exiCodec.jar编码得到exi内容, 读者可以参考使用,测试编解码库是否能正确编解码。 B.1 supportedAppProtocolReq json: {"supportedAppProtocolReq": {…

VLAN章节学习

为什么会有vlan这个技术? 1.通过划分广播域来降低广播风暴导致的设备性能下降; 2.提高网络管理的灵活性和通过隔离网络带来的安全性; 3.在成本不变的情况下增加更多的功能性; VLAN又称虚拟局域网(再此扩展&#xf…

FPGA时钟约束

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、Create_clock 前言 时钟周期约束&#xff0c;就是对时钟进行约束。 一、Create_clock create_clock -name <name> -period <period> -waveform …

机房布局和布线的最佳实践:如何打造高效、安全的机房环境

机房布局和布线的最佳实践:如何打造高效、安全的机房环境 大家好,我是Echo_Wish。今天我们来聊聊机房布局和布线的问题,这可是数据中心和IT运维中的一个非常重要的环节。不管是刚刚接触运维的新人,还是已经摸爬滚打多年的老兵,都应该对机房的布局和布线有一个清晰的认识。…