论文阅读笔记:DRCT: Saving Image Super-Resolution away from Information Bottleneck

论文阅读笔记:DRCT: Saving Image Super-Resolution away from Information Bottleneck

  • 1 背景
    • 1.1 问题
    • 1.2 本文提出的方法
  • 2 创新点
  • 3 方法
  • 4 模块
    • 4.1 问题描述
    • 4.2 深度特征提取模块
    • 4.3 同任务渐进式训练策略
  • 5 效果
    • 5.1 和SOTA方法对比

论文:https://arxiv.org/abs/2404.00722

代码:https://github.com/ming053l/drct

1 背景

1.1 问题

在这里插入图片描述

当使用基于Transformer的SISR模型在不同数据集上进行推理时,作者观察到一个普遍现象:随着网络深度的增加,特征图的强度分布发生了更大的变化。特征图的强度表明了模型学习到的空间信息和注意力强度。然而,网络的末端(见图1)往往会急剧下降,缩小到一个较小的范围。这一现象表明,这种突变可能伴随着空间信息的丢失,预示着信息瓶颈的存在。

受到YOLO系列、CSPNet 和 ELAN 等一系列工作的启发,作者认为基于SwinIR的网络架构,尽管通过偏移窗口注意力机制显著地扩大了感受野,以解决CNN中的小感受野问题,但随着网络深度的增加,由于空间信息的丢失,容易出现梯度瓶颈。这隐含地制约了模型的性能和潜力。

1.2 本文提出的方法

为了解决由于网络层数增加而导致的空间信息丢失,作者引入了密集残差连接Transformer(DRCT),旨在稳定前向传播过程并防止信息瓶颈。这是由孪生密集残差连接块 SDRCB 实现的,他将孪生 Transformer 和过渡层合并到每个残差深度特征提取组 RDG 中。该方法以较少的参数和简化的模型结构来增强感受野,从而提升性能。

2 创新点

  • 发现随着网络深度的增加,特征图的强度会逐渐增加,然后突然降低到一个较小的范围,这种剧烈震荡可能盘随着信息的丢失。

  • 提出DRCT,通过在残差组内加入稠密连接来稳定传播过程中用于深度特征提取的信息流,从而保证SISR模型原理信息瓶颈。

  • 通过将密集连接集成到Swin Transformer的SISR模型中,所提出的DRCT在保持效率的同时实现了最先进的性能。

3 方法

在这里插入图片描述

DRCT包括3个不同的组成部分:浅层特征提取、深层特征提取和图像重建模块。

对于低分辨率输入 I L R ∈ R H × W × C i n I_{LR}∈R^{H×W×C_{in}} ILRRH×W×Cin,先使用 3×3 的卷积层 C o n v ( ⋅ ) Conv(·) Conv() 来提取渐层特征 F 0 ∈ R H × W × C F_0∈R^{H×W×C} F0RH×W×C
在这里插入图片描述

然后从 F 0 F_0 F0 中提取包含高频空间信息的深度特征 F D F ∈ R H × W × C F_{DF}∈R^{H×W×C} FDFRH×W×C
在这里插入图片描述

其中 H D F ( ⋅ ) H_{DF} ( · ) HDF() 是深度特征提取模块,包含 K K K 个残差深度特征提取组( RDG )和用于特征转换的单卷积层 C o n v ( ⋅ ) Conv ( · ) Conv()。具体来说,中间特征 F 1 , F 2 , . . . , F K F_1,F_2,...,F_K F1F2...FK 和输出的深度特征 F D F F_{DF} FDF 是逐块提取的:
在这里插入图片描述

最后通过聚合浅层和深层特征来重建SR图像 I S R ∈ R H × W × C i n I_{SR}∈R^{H×W×C_{in}} ISRRH×W×Cin
在这里插入图片描述

其中 H r e c ( ⋅ ) H_{rec} ( · ) Hrec() 是重构的函数,用于融合高频深度特征 F D F F_{DF} FDF 和低频特征 F 0 F_0 F0 以获得SR结果。

4 模块

4.1 问题描述

根据信息瓶颈原理,给定的数据 X X X 在经过连续层时可能会造成信息丢失。当反向传播用于拟合网络参数和预测 Y Y Y 时,可能会导致梯度消失,如下面的方程所示:
在这里插入图片描述

其中 I I I 表示互信息, f f f g g g 是变换函数, θ \theta θ ϕ \phi ϕ 分别是 f f f g g g 的参数。

在深度神经网络中 f θ ( ⋅ ) f_\theta(·) fθ() g ϕ ( ⋅ ) g_\phi(·) gϕ() 分别表示神经网络中连续的两层。从式(1)出发,随着网络层数变深,信息流将更容易丢失。在SISR任务中,总体目标是寻找具有最优参数 θ \theta θ 的映射函数 F F F,以最大化HR和SR之间的互信息:
在这里插入图片描述

一般来说,SISR方法一般可以分为三个部分:( 1 )浅层特征提取,( 2 )深层特征提取,( 3 )图像重建。在这些方法中,浅层特征提取和图像重建几乎没有区别。前者由简单的卷积层组成,后者由卷积层和上采样层组成。深度特征提取差异较大。然而,它们的共同点在于都是由各种残差块组成,可以简单地定义为:
在这里插入图片描述

其中, X X X 表示输入, f f f 为第 l l l 个残差组的连续层, θ θ θ 表示 f l f_l fl 的参数。

针对SISR任务,有两种稳定信息流或训练过程的方法:

  • 残差连接学习局部特征。采用残差连接降低了训练的难度,防止梯度在局部消失,然而根据作者观察,这种设计在有效传递不同残差块之间的空间信息的同时,仍然可能存在信息损失。这最终导致特征图强度的非平滑性,在向前传播过程中造成最深层的信息瓶颈,如图2。需要更复杂的网络设计来实现更好的性能。

  • 密集连接稳定信息流。在基于SwinTransformer的SISR模型中引入密集连接有两个显著的优点。第一,全局辅助监督。它有效地融合了不同残差组之间的空间信息,在深层特征提取过程中保留了高频特征。第二,将SISR模型从信息瓶颈中解救出来,该模型通过对空间信息的整合,保证了空间信息的平滑传输,从而减少了信息损失,增强了感受野。

图2进行了特征可视化,从上倒下依次是SwinIR,HAT和本文提出的DRCT,位置越靠右表示网络中更深的层次。对于SwinIR和HAT,特征图的强度在浅层显著,向网络末端减弱。所提出的DRCT学习到的特征图逐渐稳定的增强。
在这里插入图片描述

最近基于SwinIR的方法的研究主要集中在通过复杂的WSA来扩大感受野或增强网络对高质量超分辨率的图像特征提取能力。所提出的DRCT通过在Swin Transformer块中添加密集连接来进行深度特征提取,在捕获长距离依赖的同时增强了感受野。因此这种方法可以使用简单的模型架构,甚至使用更浅层的网络来获得出色的性能。

4.2 深度特征提取模块

作者借鉴RRDB-Net和RDN,采用密集残差块作为SISR的基本单元,特征图的重用在RDG的前馈机制中随着感受野的增强而出现。进一步说,RDG结合多个SDRCB增强了跨不同尺度信息的整合能力,从而允许更全面的特征提取。

ESRGAN中的RRDB块:
在这里插入图片描述

为了捕获长距离依赖关系,作者利用Swin Transformer Layer(STL)的移动窗口机制获得自适应感受野,通过关注多级空间信息对RRDB-Net进行补充。这种协同作用利用STL根据输入的全局内容来动态调整模型的侧重点,从而更针对性和更高效地提取特征。这种机制保证了即使网络深度的增加,全局细节也会被保存下来。对于RDG内输入的特征图 Z Z Z,SDRCB可以定义为:
在这里插入图片描述
在这里插入图片描述

其中 [ ⋅ ] [·] [] 表示由前几层产生的多级特征图的级联。 H t r a n s ( ⋅ ) H_{trans}(·) Htrans() 是指带有LeakyReLU的激活函数的卷积层用于特征转换。LeakyReLU的负斜率设置为0.2,卷积层核大小为1×1,用于自适应的融合不同级别的特征, α \alpha α 为残差缩放因子,设置为0.2。

4.3 同任务渐进式训练策略

渐进式训练策略PTS可以看做是一种微调的方法,与传统的训练方法相比,PTS倾向于将模型参数收敛到更理想的局部极小值。HTA中引入了同任务预训练,其目的是在像ImageNet这样的大型数据集上训练,然后在特定的数据集上进行微调。还有方法提出先用L1 Loss训练一个SISR网络,然后用L2 Loss消除伪影,在PSNR指标上取得了更好的效果。

作者将上述方法结合,提出了 同任务渐进式训练策略。首先在ImageNet上预训练DRCT来初始化模型参数,然后在特定的数据集上用L1损失进行微调:
在这里插入图片描述

最后使用L2损失来消除奇异像素和伪影:
在这里插入图片描述

5 效果

5.1 和SOTA方法对比

和SOTA方法在各个测试集上的指标对比。
在这里插入图片描述

和SOTA方法的可视化效果对比。
在这里插入图片描述

和SOTA方法的LAM可视化对比。
在这里插入图片描述

和SOTA方法的参数量对比。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/59359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于STM32的智能空气净化器设计

引言 本项目基于STM32微控制器设计了一个智能空气净化器,通过集成多个传感器模块和Wi-Fi模块,实现空气质量监测、净化以及远程控制功能。该系统可以实时检测环境中的空气质量,如PM2.5浓度、温湿度和有害气体浓度等,根据监测到的空…

Linux 无名管道

无名管道(unnamed pipe)是一种进程间通信的方式,通常用于父子进程之间的通信。下面是使用无名管道的基本步骤: pipe 调用的返回值如下: 成功时:pipe 调用成功时返回 0。失败时:如果 pipe 调用…

OpenHarmony与Android区别

OpenHarmony和Android是两种不同的操作系统,它们在设计理念、架构、技术特点以及应用场景上都有显著的区别。 是它们之间的主要区别: 1. 起源和所有权 Android:由谷歌公司开发并拥有,是一个广泛使用的开源操作系统,…

数据结构 —— 红黑树

目录 1. 初识红黑树 1.1 红黑树的概念 1.2 红⿊树的规则 1.3 红黑树如何确保最长路径不超过最短路径的2倍 1.4 红黑树的效率:O(logN) 2. 红黑树的实现 2.1 红黑树的基础结构框架 2.2 红黑树的插⼊ 2.2.1 情况1:变色 2.2.2 情况2:单旋变色 2.2…

健身房数字化转型:SpringBoot管理系统

4系统概要设计 4.1概述 本系统采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式,是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示: 图4-1系统工作原理…

字符串相乘(全网最快0ms方法)

一:题目 二:思路 解释:每次相乘的结果不进位直接放进同一个数组里,相同位置则新放进的结果即可,最后得到左图的数组,再对其进行进位,得到正确的结果 Q1:数组的大小取多少&#xff1…

深入浅出:解读注意力机制,让神经网络更“聪明”

1. Attention Mechanism 深入浅出:解读注意力机制,让神经网络更“聪明” 在现代人工智能中,注意力机制(Attention Mechanism) 是解锁神经网络强大表现的关键,尤其是对于像 Transformer 和 BERT 这样的前沿…

虚拟展厅和实景复刻有什么区别?应用场景和优势有哪些?

虚拟展厅和实景复刻在展览展示领域均扮演着重要角色,但二者之间存在显著的差异。以下是对这两者的详细比较: 一、定义与构建方式 虚拟展厅 虚拟展厅是利用数字技术和三维建模技术创建的虚拟展览环境,使参观者可以通过计算机、智能手机等设…

day06|计算机网络重难点之 TCP连接如何确保可靠性、拥塞控制如何实现、TCP流量控制如何实现、UDP如何实现可靠传输

day06|计算机网络重难点之 TCP连接如何确保可靠性、拥塞控制如何实现、TCP流量控制如何实现、UDP如何实现可靠传输 14.TCP连接如何确保可靠性15.既然提到了拥塞控制,那你能说说说拥塞控制是怎么实现的吗16.TCP流量控制是怎么实现的?17.UDP怎么实现可靠传…

如何删除react项目的默认图标,使在浏览器中不显示默认图标favicon.ico

要删除 React 项目的默认图标,使在浏览器中不显示默认图标favicon.ico,其实有两种方法: 方法一 方法要点:删除掉 public 目录下的 favicon.ico 文件,再用浏览器访问时,如果加载不到图标文件,就…

计算机网络——路由器构成

算路由表是分布式去算——你算你的,我算我的 输出队列非先来先传 调度发生在哪里 缓存队列一般是应对——来数据方向的速度过快问题

项目活动进度计算题

六个时间参数①最早开始时间ESmax{紧前工作最早完成时间EF}(紧前取大) 最早完成时间EFES工期,从左→右计算,累加取大 ②最迟完成时间LFmin{紧后工作最迟开始时间LS}(紧后取小) 最迟开始时间LSLF-工期&am…

练习LabVIEW第四十题

学习目标: 用labvIEW做一个循环闪烁指示灯,要能够在前面板调节周期和占空比。 开始编写: 前面板 一个布尔指示灯一维数组,两个数值输入控件; 程序框图 添加一个while循环,循环内添加初始化数组&…

工商业储能是什么,工商业储能有什么作用?

随着全球能源结构的转型和“双碳”目标的推进,工商业储能系统作为新型电力系统的重要组成部分,正逐渐成为能源管理和电力市场的关键力量。工商业储能系统通过削峰填谷、需量管理、电力现货交易等多种方式,不仅能够有效降低企业的用电成本&…

DApp开发定制:合约设计与源码搭建支持快速上线

随着区块链技术的飞速发展,去中心化应用(DApp)已经成为区块链生态中不可或缺的一部分。DApp不仅改变了传统互联网应用的运作方式,还通过去中心化的理念和智能合约的支持,赋能了用户和开发者。无论是金融、游戏、社交、…

ssm+vue683基于VUE.js的在线教育系统设计与实现

博主介绍:专注于Java(springboot ssm 等开发框架) vue .net php phython node.js uniapp 微信小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不…

CentOS操作系统安装过程简介

以下是在CentOS(以CentOS 7为例)中使用Anaconda安装器的一般步骤: 1. 准备工作 - 首先,需要获取CentOS 7的安装介质,可以是光盘或者制作好的USB启动盘。然后将计算机设置为从对应的安装介质启动。 2. 启动安装程序 -…

导出 MySQL 中所有表的结构(包括外键约束),并在另一个地方创建相同的表

要导出 MySQL 中所有表的结构(包括外键约束),并在另一个地方创建相同的表,您可以使用以下步骤: 1. 使用 mysqldump 导出表结构 mysqldump 是一个用于备份 MySQL 数据库的命令行工具,可以用来导出数据库的…

纯前端生成PDF(jsPDF)并下载保存或上传到OSS

前言 在工作中遇到了一个需求,就是把前端页面生成PDF并保存在本地,因为前端网站可能会展示各种表格,图表信息内容并带有比较鲜艳的色彩样式,如果让后端生产的PDF的话样式可能和前端页面展示的有所差异,所以这个任务就落…

多商户电商平台开发指南:基于直播带货系统源码的搭建方案详解

本篇文章,小编将详细解析如何利用直播带货系统源码,快速搭建一套多商户电商平台的解决方案。 一、直播带货系统在多商户电商平台中的应用价值 在多商户电商平台中,直播带货系统可以帮助商家: 1.增加用户互动 2.提升转化率 3.…