论文阅读笔记:DRCT: Saving Image Super-Resolution away from Information Bottleneck

论文阅读笔记:DRCT: Saving Image Super-Resolution away from Information Bottleneck

  • 1 背景
    • 1.1 问题
    • 1.2 本文提出的方法
  • 2 创新点
  • 3 方法
  • 4 模块
    • 4.1 问题描述
    • 4.2 深度特征提取模块
    • 4.3 同任务渐进式训练策略
  • 5 效果
    • 5.1 和SOTA方法对比

论文:https://arxiv.org/abs/2404.00722

代码:https://github.com/ming053l/drct

1 背景

1.1 问题

在这里插入图片描述

当使用基于Transformer的SISR模型在不同数据集上进行推理时,作者观察到一个普遍现象:随着网络深度的增加,特征图的强度分布发生了更大的变化。特征图的强度表明了模型学习到的空间信息和注意力强度。然而,网络的末端(见图1)往往会急剧下降,缩小到一个较小的范围。这一现象表明,这种突变可能伴随着空间信息的丢失,预示着信息瓶颈的存在。

受到YOLO系列、CSPNet 和 ELAN 等一系列工作的启发,作者认为基于SwinIR的网络架构,尽管通过偏移窗口注意力机制显著地扩大了感受野,以解决CNN中的小感受野问题,但随着网络深度的增加,由于空间信息的丢失,容易出现梯度瓶颈。这隐含地制约了模型的性能和潜力。

1.2 本文提出的方法

为了解决由于网络层数增加而导致的空间信息丢失,作者引入了密集残差连接Transformer(DRCT),旨在稳定前向传播过程并防止信息瓶颈。这是由孪生密集残差连接块 SDRCB 实现的,他将孪生 Transformer 和过渡层合并到每个残差深度特征提取组 RDG 中。该方法以较少的参数和简化的模型结构来增强感受野,从而提升性能。

2 创新点

  • 发现随着网络深度的增加,特征图的强度会逐渐增加,然后突然降低到一个较小的范围,这种剧烈震荡可能盘随着信息的丢失。

  • 提出DRCT,通过在残差组内加入稠密连接来稳定传播过程中用于深度特征提取的信息流,从而保证SISR模型原理信息瓶颈。

  • 通过将密集连接集成到Swin Transformer的SISR模型中,所提出的DRCT在保持效率的同时实现了最先进的性能。

3 方法

在这里插入图片描述

DRCT包括3个不同的组成部分:浅层特征提取、深层特征提取和图像重建模块。

对于低分辨率输入 I L R ∈ R H × W × C i n I_{LR}∈R^{H×W×C_{in}} ILRRH×W×Cin,先使用 3×3 的卷积层 C o n v ( ⋅ ) Conv(·) Conv() 来提取渐层特征 F 0 ∈ R H × W × C F_0∈R^{H×W×C} F0RH×W×C
在这里插入图片描述

然后从 F 0 F_0 F0 中提取包含高频空间信息的深度特征 F D F ∈ R H × W × C F_{DF}∈R^{H×W×C} FDFRH×W×C
在这里插入图片描述

其中 H D F ( ⋅ ) H_{DF} ( · ) HDF() 是深度特征提取模块,包含 K K K 个残差深度特征提取组( RDG )和用于特征转换的单卷积层 C o n v ( ⋅ ) Conv ( · ) Conv()。具体来说,中间特征 F 1 , F 2 , . . . , F K F_1,F_2,...,F_K F1F2...FK 和输出的深度特征 F D F F_{DF} FDF 是逐块提取的:
在这里插入图片描述

最后通过聚合浅层和深层特征来重建SR图像 I S R ∈ R H × W × C i n I_{SR}∈R^{H×W×C_{in}} ISRRH×W×Cin
在这里插入图片描述

其中 H r e c ( ⋅ ) H_{rec} ( · ) Hrec() 是重构的函数,用于融合高频深度特征 F D F F_{DF} FDF 和低频特征 F 0 F_0 F0 以获得SR结果。

4 模块

4.1 问题描述

根据信息瓶颈原理,给定的数据 X X X 在经过连续层时可能会造成信息丢失。当反向传播用于拟合网络参数和预测 Y Y Y 时,可能会导致梯度消失,如下面的方程所示:
在这里插入图片描述

其中 I I I 表示互信息, f f f g g g 是变换函数, θ \theta θ ϕ \phi ϕ 分别是 f f f g g g 的参数。

在深度神经网络中 f θ ( ⋅ ) f_\theta(·) fθ() g ϕ ( ⋅ ) g_\phi(·) gϕ() 分别表示神经网络中连续的两层。从式(1)出发,随着网络层数变深,信息流将更容易丢失。在SISR任务中,总体目标是寻找具有最优参数 θ \theta θ 的映射函数 F F F,以最大化HR和SR之间的互信息:
在这里插入图片描述

一般来说,SISR方法一般可以分为三个部分:( 1 )浅层特征提取,( 2 )深层特征提取,( 3 )图像重建。在这些方法中,浅层特征提取和图像重建几乎没有区别。前者由简单的卷积层组成,后者由卷积层和上采样层组成。深度特征提取差异较大。然而,它们的共同点在于都是由各种残差块组成,可以简单地定义为:
在这里插入图片描述

其中, X X X 表示输入, f f f 为第 l l l 个残差组的连续层, θ θ θ 表示 f l f_l fl 的参数。

针对SISR任务,有两种稳定信息流或训练过程的方法:

  • 残差连接学习局部特征。采用残差连接降低了训练的难度,防止梯度在局部消失,然而根据作者观察,这种设计在有效传递不同残差块之间的空间信息的同时,仍然可能存在信息损失。这最终导致特征图强度的非平滑性,在向前传播过程中造成最深层的信息瓶颈,如图2。需要更复杂的网络设计来实现更好的性能。

  • 密集连接稳定信息流。在基于SwinTransformer的SISR模型中引入密集连接有两个显著的优点。第一,全局辅助监督。它有效地融合了不同残差组之间的空间信息,在深层特征提取过程中保留了高频特征。第二,将SISR模型从信息瓶颈中解救出来,该模型通过对空间信息的整合,保证了空间信息的平滑传输,从而减少了信息损失,增强了感受野。

图2进行了特征可视化,从上倒下依次是SwinIR,HAT和本文提出的DRCT,位置越靠右表示网络中更深的层次。对于SwinIR和HAT,特征图的强度在浅层显著,向网络末端减弱。所提出的DRCT学习到的特征图逐渐稳定的增强。
在这里插入图片描述

最近基于SwinIR的方法的研究主要集中在通过复杂的WSA来扩大感受野或增强网络对高质量超分辨率的图像特征提取能力。所提出的DRCT通过在Swin Transformer块中添加密集连接来进行深度特征提取,在捕获长距离依赖的同时增强了感受野。因此这种方法可以使用简单的模型架构,甚至使用更浅层的网络来获得出色的性能。

4.2 深度特征提取模块

作者借鉴RRDB-Net和RDN,采用密集残差块作为SISR的基本单元,特征图的重用在RDG的前馈机制中随着感受野的增强而出现。进一步说,RDG结合多个SDRCB增强了跨不同尺度信息的整合能力,从而允许更全面的特征提取。

ESRGAN中的RRDB块:
在这里插入图片描述

为了捕获长距离依赖关系,作者利用Swin Transformer Layer(STL)的移动窗口机制获得自适应感受野,通过关注多级空间信息对RRDB-Net进行补充。这种协同作用利用STL根据输入的全局内容来动态调整模型的侧重点,从而更针对性和更高效地提取特征。这种机制保证了即使网络深度的增加,全局细节也会被保存下来。对于RDG内输入的特征图 Z Z Z,SDRCB可以定义为:
在这里插入图片描述
在这里插入图片描述

其中 [ ⋅ ] [·] [] 表示由前几层产生的多级特征图的级联。 H t r a n s ( ⋅ ) H_{trans}(·) Htrans() 是指带有LeakyReLU的激活函数的卷积层用于特征转换。LeakyReLU的负斜率设置为0.2,卷积层核大小为1×1,用于自适应的融合不同级别的特征, α \alpha α 为残差缩放因子,设置为0.2。

4.3 同任务渐进式训练策略

渐进式训练策略PTS可以看做是一种微调的方法,与传统的训练方法相比,PTS倾向于将模型参数收敛到更理想的局部极小值。HTA中引入了同任务预训练,其目的是在像ImageNet这样的大型数据集上训练,然后在特定的数据集上进行微调。还有方法提出先用L1 Loss训练一个SISR网络,然后用L2 Loss消除伪影,在PSNR指标上取得了更好的效果。

作者将上述方法结合,提出了 同任务渐进式训练策略。首先在ImageNet上预训练DRCT来初始化模型参数,然后在特定的数据集上用L1损失进行微调:
在这里插入图片描述

最后使用L2损失来消除奇异像素和伪影:
在这里插入图片描述

5 效果

5.1 和SOTA方法对比

和SOTA方法在各个测试集上的指标对比。
在这里插入图片描述

和SOTA方法的可视化效果对比。
在这里插入图片描述

和SOTA方法的LAM可视化对比。
在这里插入图片描述

和SOTA方法的参数量对比。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/59359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构 —— 红黑树

目录 1. 初识红黑树 1.1 红黑树的概念 1.2 红⿊树的规则 1.3 红黑树如何确保最长路径不超过最短路径的2倍 1.4 红黑树的效率:O(logN) 2. 红黑树的实现 2.1 红黑树的基础结构框架 2.2 红黑树的插⼊ 2.2.1 情况1:变色 2.2.2 情况2:单旋变色 2.2…

健身房数字化转型:SpringBoot管理系统

4系统概要设计 4.1概述 本系统采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式,是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示: 图4-1系统工作原理…

字符串相乘(全网最快0ms方法)

一:题目 二:思路 解释:每次相乘的结果不进位直接放进同一个数组里,相同位置则新放进的结果即可,最后得到左图的数组,再对其进行进位,得到正确的结果 Q1:数组的大小取多少&#xff1…

虚拟展厅和实景复刻有什么区别?应用场景和优势有哪些?

虚拟展厅和实景复刻在展览展示领域均扮演着重要角色,但二者之间存在显著的差异。以下是对这两者的详细比较: 一、定义与构建方式 虚拟展厅 虚拟展厅是利用数字技术和三维建模技术创建的虚拟展览环境,使参观者可以通过计算机、智能手机等设…

如何删除react项目的默认图标,使在浏览器中不显示默认图标favicon.ico

要删除 React 项目的默认图标,使在浏览器中不显示默认图标favicon.ico,其实有两种方法: 方法一 方法要点:删除掉 public 目录下的 favicon.ico 文件,再用浏览器访问时,如果加载不到图标文件,就…

计算机网络——路由器构成

算路由表是分布式去算——你算你的,我算我的 输出队列非先来先传 调度发生在哪里 缓存队列一般是应对——来数据方向的速度过快问题

项目活动进度计算题

六个时间参数①最早开始时间ESmax{紧前工作最早完成时间EF}(紧前取大) 最早完成时间EFES工期,从左→右计算,累加取大 ②最迟完成时间LFmin{紧后工作最迟开始时间LS}(紧后取小) 最迟开始时间LSLF-工期&am…

练习LabVIEW第四十题

学习目标: 用labvIEW做一个循环闪烁指示灯,要能够在前面板调节周期和占空比。 开始编写: 前面板 一个布尔指示灯一维数组,两个数值输入控件; 程序框图 添加一个while循环,循环内添加初始化数组&…

工商业储能是什么,工商业储能有什么作用?

随着全球能源结构的转型和“双碳”目标的推进,工商业储能系统作为新型电力系统的重要组成部分,正逐渐成为能源管理和电力市场的关键力量。工商业储能系统通过削峰填谷、需量管理、电力现货交易等多种方式,不仅能够有效降低企业的用电成本&…

DApp开发定制:合约设计与源码搭建支持快速上线

随着区块链技术的飞速发展,去中心化应用(DApp)已经成为区块链生态中不可或缺的一部分。DApp不仅改变了传统互联网应用的运作方式,还通过去中心化的理念和智能合约的支持,赋能了用户和开发者。无论是金融、游戏、社交、…

ssm+vue683基于VUE.js的在线教育系统设计与实现

博主介绍:专注于Java(springboot ssm 等开发框架) vue .net php phython node.js uniapp 微信小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不…

多商户电商平台开发指南:基于直播带货系统源码的搭建方案详解

本篇文章,小编将详细解析如何利用直播带货系统源码,快速搭建一套多商户电商平台的解决方案。 一、直播带货系统在多商户电商平台中的应用价值 在多商户电商平台中,直播带货系统可以帮助商家: 1.增加用户互动 2.提升转化率 3.…

登录功能设计(php+mysql)

一 登录功能 1. 创建一个登录页面(login.php),包含一个表单,用户输入用户名和密码。 2. 在表单的提交事件中,使用PHP代码处理用户输入的用户名和密码。 3. 首先,连接MySQL数据库。然后&a…

P3-1.【结构化程序设计】第一节——知识要点:算法、顺序结构程序设计、if语句的语法结构及各种用法

讲解视频: P3-1.【结构化程序设计】第一节——知识要点:算法、顺序结构程序设计、if语句的语法结构及各种用法 知识要点:算法、顺序结构程序设计、if语句的语法结构及各种用法 一、算法、顺序结构程序设计任务分析 知识要点:算法…

18、论文阅读:AOD-Net:一体化除雾网络

AOD-Net: All-in-One Dehazing Network 前言介绍相关工作物理模型传统方法深度学习方法 建模与扩展变换后的公式网络设计与高级特征任务相结合 除雾评价数据集和实现 前言 该论文提出了一种基于卷积神经网络(CNN)的图像去雾模型,称为 All-in…

Golang | Leetcode Golang题解之第538题把二叉搜索树转换为累加树

题目: 题解: func getSuccessor(node *TreeNode) *TreeNode {succ : node.Rightfor succ.Left ! nil && succ.Left ! node {succ succ.Left}return succ }func convertBST(root *TreeNode) *TreeNode {sum : 0node : rootfor node ! nil {if n…

docker+nacos

安装数据库 以docker安装为例(实际建议实体) 初始化数据库 /******************************************/ /* 数据库全名 nacos_config */ /* 表名称 config_info */ /******************************************/ CREATE TABLE config_i…

react18中redux-promise搭配redux-thunk完美简化异步数据操作

用过redux-thunk的应该知道,操作相对繁琐一点,dispatch本只可以出发plain object。redux-thunk让dispatch可以返回一个函数。而redux-promise在此基础上大大简化了操作。 实现效果 关键逻辑代码 store/index.js import { createStore, applyMiddlewar…

汇编语言与接口技术--算术运算程序设计

一、 实验要求 编程实现两个数:#998877H 和 #778899H 的加法运算。编程实现两个数:#998877H 和 #778899H 的减法运算。 二、 实验设计 1.整体思路 无符号角度: (1)加法 1.初始化:设置两个数 998877H 和…

(蓝桥杯C/C++)——基础算法(上)

目录 一、二分法 1.二分法简介 二分法简介-解题步骤 2.整数二分-简介 整数二分-模板 3.浮点二分-简介 浮点二分-模板 4.二分答案-简介 二分答案-模板​​​​​​​ 二、位运算 1.位运算简介 2.常见的位运算 按位与AND(&) 按位或OR( | ) 按位异或…