Focal Network for Image Restoration

Focal Network for Image Restoration

用于图像恢复的焦点网络

Yuning Cui1 Wenqi Ren2* Xiaochun Cao2 Alois Knoll1 1Technical University of Munich 2Shenzhen Campus of Sun Yat-sen University {yuning.cui,knoll}@in.tum.de {renwq3,caoxiaochun}@mail.sysu.edu.cn

论文:https://openaccess.thecvf.com/content/ICCV2023/papers/Cui_Focal_Network_for_Image_Restoration_ICCV_2023_paper.pdf

Abstract:

图像恢复的目的是从退化的图像中重建清晰的图像,这在许多领域发挥着重要作用。 最近,Transformer 模型在各种图像恢复任务上取得了可喜的性能。 然而,它们的二次复杂度对于实际应用来说仍然是一个棘手的问题。 本研究的目的是开发一种高效且有效的图像恢复框架。 受损坏图像中的不同区域总是经历不同程度的退化这一事实的启发,我们建议更多地关注重建的重要区域。 为此,我们引入了双域选择机制来强调恢复的关键信息,例如边缘信号和硬区域。 此外,我们分割高分辨率特征以将多尺度感受野插入到网络中,从而提高了效率和性能。 最后,所提出的网络(称为 FocalNet)是通过将这些设计合并到 U 形主干中来构建的。 大量实验表明,我们的模型在十个数据集上实现了三项任务的最先进性能,包括单图像散焦去模糊、图像去雾和图像去雪。 我们的代码可在 https://github.com/c-yn/FocalNet 获取。

Introduction

在这项研究中,我们的目标不是追求大的感受野或探索对 Transformer 架构的修改,而是通过更多地关注用于重建的信息信号(例如边缘信息或难以恢复的区域)来开发一种高效且有效的基于 CNN 的框架。在这个方向上,现有的方法可以大致分为两类:辅助训练和基于注意力的方法。前者主要利用辅助技术或数据,例如语义分割、深度估计和光流估计来定位退化或边缘信息。尽管如此,这些算法总是需要额外的复杂分支和精心设计的训练策略来生成监督信息。关于这个主题的另一条路线是设计注意机制来关注信息区域或控制信息传输。 这些方法大多集中在空间域,而忽略了光谱信息的使用,而光谱信息也可以为重建提供有用的信息。
为了促使模型更多地关注关键区域,我们提出了一种新颖的双域选择机制(DSM),充分利用空间域和光谱域中清晰/退化图像对之间的差异。 具体来说,我们的机制包括两个组件:空间选择模块(SSM)和频率选择模块(FSM)。SSM 将特征作为输入,并通过部署深度卷积层来确定每个通道的退化的一般位置。 然后使用 FSM 通过去除特征中的低频来放大高频信号或硬区域。所提出的网络 FocalNet 是通过将 DSM 合并到 U 形 CNN 主干中而建立的。 为了节省计算开销,我们只将 DSM 插入到 FocalNet 的瓶颈模块中,其中包括最低分辨率的特征。
此外,我们将高分辨率特征在通道维度上分成两部分。 一半特征被下采样到较低的分辨率,这不仅可以降低复杂性,还可以通过为不同尺寸的退化提供多尺度感受野来提高性能。
总的来说,本研究的主要贡献总结如下:
我们提出了一种新颖的双域选择机制(DSM),可以放大重要区域的响应,以帮助恢复干净的特征。
我们开发了一个高效且有效的焦点网络,为图像恢复提供多尺度表示学习。
对十个数据集的大量实验表明,所提出的网络 FocalNet 在三个代表性图像恢复任务上的表现优于最先进的算法。

Related Work

Image Restoration Architectures:

作为一项长期任务,图像恢复旨在消除损坏图像中不需要的退化,这在机器人视觉、医疗应用和监控等许多领域发挥着重要作用。最近,与传统方法相比,基于 CNN 的架构显着提高了性能。 在这些架构中,编码器-解码器范例是学习分层表示的流行解决方案。此外,还开发或借鉴了其他领域的大量功能单元,例如扩张卷积、跳跃连接、动态滤波器和各种注意机制。最近,Transformer 模型已被导入到低级视觉任务中,并提供了有希望的性能。 此后,采取了一些措施,通过限制操作区域或切换操作维度来降低自注意力的计算复杂度。

Spectral Networks:

除了空间表示学习之外,还提出了许多深度框架来弥合清晰/退化图像对之间的频率间隙。 常见的做法是通过小波变换、傅里叶变换、池化技术和传统滤波器等变换工具将特征分解为不同的频率分量,然后分别通过卷积层处理每个分量。 此外,一些研究研究了相位和幅度的不同作用,并提出了分别恢复它们的架构。 在我们的工作中,我们只是从 SSM 的结果特征中删除最低频率信号,为进一步重建提供指导。

Auxiliary Training:

除了在图像恢复任务的训练集中提供真实图像之外,还提出了大量网络来求助于辅助监督。 语义先验已被引入低级任务中以提供颜色、边界或位置信息。然而,全局语义先验对于大深度变化引起的退化效果较差。 因此,已经提出了许多方法来估计深度图以生成用于恢复的边缘和结构信号。 此外,还有许多工作集成了其他辅助信息,例如光流和事件数据。然而,上述解决方案总是需要额外的数据、昂贵的卷积分支和复杂的训练策略。

Method

在本节中,我们首先描述FocalNet的整体架构。 然后我们描述我们的模块:多尺度ResBlock(MResBlock)和双域选择机制(DSM)。 最后,我们详细介绍损失函数。

Overall Pipeline

图 3. 所提出的具有双域选择机制 (DSM) 的 FocalNet 架构,由两个组件组成,即空间选择模块 (SSM) 和频率选择模块 (FSM)。  ResBlock包含n个残差块,包括两个3×3卷积层和中间的激活函数。
如图 3 所示,所提出的 FocalNet 采用流行的编码器-解码器架构来有效地学习分层表示。 编码器和解码器网络都由三个尺度组成。 在我们的论文中,我们将第一个尺度称为涉及最高分辨率特征的子网络。MResBlock构成了第一个尺度的主要部分。 另外两个尺度主要由ResBlock组成,ResBlock由n个残差块组成。 给定大小为 H × W × 3 的退化图像,其中 H × W 和 C 分别表示空间位置和通道数,使用 3 × 3 卷积层来提取大小为 H × W × C 的浅层特征。然后,浅层特征经过三尺度对称编码器-解码器,转换为恢复特征,即解码器第一尺度中MResBlock的输出特征。从最高分辨率的输入开始,编码器逐渐减小空间尺寸并扩大通道数量。 解码器则执行相反的操作,从最深层的特征中恢复干净的特征。在此过程中,解码器特征与编码器特征连接起来以帮助恢复,然后进行 1 × 1 卷积来调整通道维度。最后,通过最后的3×3卷积层和图像级残差连接生成预测的干净图像。 除了MResBlock中的上采样层采用双线性插值之外,上采样(UP)和下采样(DOWN)操作都是通过转置卷积和跨步卷积实现的。所提出的 DSM 被注入瓶颈位置以选择最重要的区域进行重建。 此外,我们应用多输入和多输出策略来缓解先前方法的训练难度。

Multi-scale ResBlock(MResBlock)多尺度ResBlock

最近,追求多尺度感受野是计算机视觉社区的热门话题,特别是基于 Transformer 的模型。 受[11,40,46]的启发,我们在ResBlock中采用多尺度机制,通过分割和下采样操作形成我们的MResBlock,如图3所示。具体来说,给定输入特征,我们首先沿着通道维度将它们平均分成两个部分。 接下来,使用跨步卷积将一半特征减少到原始分辨率的四分之一。得到的特征被输入到 ResBlock 中,然后上采样到原始大小。 另一半直接由ResBlock处理。 MResBlock 的最终输出是通过连接两个分支的结果特征获得的。 MResBlock 有两个主要优势。 首先,它通过实现不同大小的退化的多尺度表示学习来提高性能,并增强不同频率的谱学习。 其次,它通过降低特征分辨率来提高效率。

Dual-domain Selection Mechanism (DSM) 双域选择机制

图 2.我们的双域选择机制 (DSM) 的效果。 从左到右:从 DPDD [1] 获得的模糊图像、地面实况图像、DSM 的输入特征、空间选择的结果以及空间和频率选择的结果。  SSM 有助于关注退化区域,而 FSM 则强调边缘信息。 放大以获得最佳视图。

这项研究的主要目标是通过关注更重要的区域来开发一个有效的图像恢复网络。这一目标是通过所提出的 DSM 实现的,它放大了两个领域的信息的响应(见图 2)。 如图 3 底部所示,它由两个组件组成:空间选择模块 (SSM) 和频率选择模块 (FSM)。 给定输入特征 F ∈ R H × W × C F\in\mathbb{R}^{H\times W\times C} FRH×W×C,依次采用 SSM 和 FSM,可表示为:
F ^ = F S M ( S S M ( F ) ) . \hat{F}=\mathrm{FSM}(\mathrm{SSM}(F)). F^=FSM(SSM(F)).
接下来,我们详细介绍这两个要素。

Spatial Selection Module (SSM):空间选择模块

SSM帮助网络聚焦于空间域中的重要区域,为后续FSM提供严重退化的初始位置。 我们的SSM有3个分支机构。 主路径建立在CBAM [53]的基础上,以生成要关注的退化位置的一般特征表示。 具体来说,给定一个中间特征图F,我们首先通过最大池化和平均池化两种池化技术沿通道维度挤压F,然后通过卷积层生成通用特征图,其形式表示为:
F ′ = C o n v 3 ( [ A v g P o o l ( F ) , M a x P o o l ( F ) ] ) F^{\prime}=\mathrm{Conv}_3([\mathrm{AvgPool}(F),\mathrm{MaxPool}(F)]) F=Conv3([AvgPool(F),MaxPool(F)])
其中[·,·]表示串联; AvgPool、MaxPool 和 C o n v 3 Conv_3 Conv3分别表示平均池化、最大池化和 3 × 3 内核大小的卷积层。 通过这样做, F ′ ∈ R H × W × 1 F^{\prime}\in\mathbb{R}^{H\times W\times1} FRH×W×1包含要聚焦的退化位置。
由于每个通道的退化模式不同,我们通过深度卷积对输入特征 F 进行通道分离变换,进一步生成通道表示,然后用 F ′ F^{\prime} F调制结果特征。 这个过程表述如下:
F s = D C o n v s 5 , 7 ( F ) ⊗ T ( F ′ , C ) + D C o n v 3 ( F ) F_s=\mathrm{DConvs}_{5,7}(F)\otimes\mathrm{T}(F',C)+\mathrm{DConv}_3(F) Fs=DConvs5,7(F)T(F,C)+DConv3(F)
其中 D C o n v s 5 , 7 \mathrm{DConvs}_{5,7} DConvs5,7表示内核大小为 5 × 5 和 7 × 7 的级联深度卷积层; D C o n v 3 DConv_3 DConv3表示具有3×3核的深度卷积; ⊗ 表示逐元素乘法; T ( F ′ , C ) \mathrm{T}(F^{\prime},C) T(F,C)是将 F ′ F^{\prime} F沿通道维度复制C次到 R H × W × C {R}^{H\times W\times C} RH×W×C的平铺函数。 然后,我们将空间选择的特征 F s ∈ R H × W × C F_{s}\in\mathbb{R}^{H\times W\times C} FsRH×W×C馈送到 FSM 进行频率选择。

Frequency Selection Module (FSM):选择模块

我们可以直接利用 F s F_s Fs来辅助恢复过程。 由于退化/清晰图像对具有相似的低频分量,而在高频上有所不同,我们通过所提出的 FSM 去除最低频率来进一步强调包含输入/清晰图像对之间真正差异的区域。为此,我们首先对 F s F_s Fs应用均值滤波器来生成低频特征然后通过从输入中减去得到的低频信号来获得互补的高频特征,其表示为:
F s h = F s − M e a n ( F s ) F_s^h=F_s-\mathrm{Mean}(F_s) Fsh=FsMean(Fs)
在我们的例子中,均值滤波器是通过通道全局平均池实现的。 FSM/DSM的最终输出是使用 F s h F_{s}^{h} Fsh F s F_s Fs之间的逐元素乘法以及残差连接生成的,其表示为:
F ^ = F s h ⊗ F s + F s \hat{F}=F_s^h\otimes F_s+F_s F^=FshFs+Fs
DSM 之后,会强调重要区域,例如图 2 中用于散焦去模糊的边缘信号。

Loss Function:损失函数

为了促进空间域和频域的选择过程,我们采用了如下的双域 l 1 l_{1} l1损失函数 [13, 15]。 对于具有相同分辨率的每个输出/目标图像对,损失函数由下式给出:
L s = 1 P ∥ I ^ − G ∥ 1 L f = 1 P ∥ F ( I ^ ) − F ( G ) ∥ 1 L = L s + λ L f \begin{aligned} \mathcal{L}_{s}& =\frac1P\|\hat{I}-G\|_1 \\ \mathcal{L}_{f}& =\frac{1}{P}\|\mathcal{F}(\hat{I})-\mathcal{F}(G)\|_{1} \\ \text{L}& =\mathcal{L}_s+\lambda\mathcal{L}_f \end{aligned} LsLfL=P1I^G1=P1F(I^)F(G)1=Ls+λLf
其中 I ^ \hat{I} I^和 G 分别表示输出图像和真实图像; P表示归一化的总元素; F \text{F} F表示快速傅立叶变换; 为了平衡双域训练,λ 根据经验设置为 0.1。

Ablation Studies:消融实验

我们通过在 RESIDEIndoor上训练微型模型并在 SOTS-Indoor上进行测试来进行消融研究,以证明我们模块的有效性。 所有ResBlock中残差块的数量设置为1。 该模型仅训练了 300 个 epoch,初始学习率为 1e−4,批量大小为 4。其他设置与我们最终的去雾模型相同。 基线网络是通过用 ResBlock 替换 MResBlock 并从微型模型中删除 DSM 获得的。 补充材料中提供了更多消融研究。

Order of FSM and SSM:FSM 和 SSM 的顺序

当我们交换 FSM 和 SSM 的使用顺序时,性能从 35.60 dB(表 5g)下降到 35.17 dB PSNR。 这种现象验证了我们设计的有效性,我们首先应用 SSM 来处理一般退化区域,然后利用 FSM 来强调更重要的部分,例如图 2 中的边缘信号和图 8 中的硬区域。
表 5. SOTS-Indoor [27] 数据集上 FocalNet 不同组件的消融研究。

Conclusion

在这项研究中,我们提出了一种用于图像恢复的焦点网络,称为 FocalNet,它非常有效且计算效率高。 我们工作的核心思想是聚焦重点地区重建。 为此,我们提出两个模块:SSM和FSM。 SSM 建立在空间注意力的基础上,以检测退化区域以进行后续的频率选择。 FSM进一步强调了难以恢复的边缘信号或区域。 通过连续部署两个模块,网络能够更多地关注对重建真正重要的区域。 此外,我们通过降低输入特征一半通道的分辨率,将多尺度机制插入到网络中。 这种设计不仅提高了性能,还降低了复杂性。 对 10 个数据集的实验表明,我们的模型在多个图像恢复任务中实现了最先进的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

和The Sandbox一起展望伊斯坦布尔的未来: 伊斯坦布尔 2124 Game Jam 集锦!

2024 年 5 月 24 日至 26 日,伊斯坦布尔 2124 Game Jam 在 StartGate Maslak 举行,由 The Sandbox、StartGate 和 YTU GamesUP 联合举办。这次活动为参与者提供了在 The Sandbox 元宇宙中塑造伊斯坦布尔未来的机会。 充满创新项目的一周 来自 The Sandbo…

手把手教你创建并启动一个Vue3项目(Windows版)

一、Node安装 1、下载地址:Node.js — Run JavaScript Everywhere 2、安装Node,双击启动一直Next 3、验证安装Node是否成功,打开CMD命令窗口,输入node -v,显示版本就表示成功 4、验证安装npm是否成功,npm是…

Elasticseach RestClient Api

Elasticsearch RestclientApi基础用法 查询 索引库 初始化 添加依赖 <dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId> </dependency>创建链接 package com…

数据资产价值如何分析评估?

引言&#xff1a;当企业完成了数据治理&#xff0c;形成了数据资产&#xff0c;负责的部门数据中心对数据资产缺乏直观的展示方式&#xff0c;有多少数据资产&#xff0c;资产如何分布&#xff0c;领导两眼一抹黑&#xff1f;数据资产生产过程不透明&#xff0c;数据质量如何&a…

发力采销,京东的“用户关系学”

作者 | 曾响铃 文 | 响铃说 40多岁打扮精致的城市女性&#xff0c;在西藏那曲的偏远农村&#xff0c;坐着藏民的摩托车&#xff0c;行驶在悬崖边的烂泥路上&#xff0c;只因为受顾客的“委托”&#xff0c;要寻找最原生态的藏区某款产品。 30多岁的憨厚中年男性&#xff0c;…

485通信协议

文章目录 STM32-20-4851. 485总线2. 485相关HAL库驱动3. 485配置步骤4. 代码实现 STM32-20-485 1. 485总线 串口、UART、TTL、RS232、RS422、RS485关系&#xff1a; 关系与区别&#xff1a; 特性串口UARTTTLRS232RS422RS485定义数据传输接口硬件设备电平标准通信标准通信标准…

安享智慧理财金融测试项目

1. 项目介绍 安享智慧理财金融系统是基于 Java 语言开发&#xff0c;集 PC 端、APP 端、WAP 端为一体的 P2P&#xff08;个人对个人&#xff09;的借贷系统&#xff0c;提供了完整的借款和投资功能。 web用户端 说明&#xff1a;PC 网站&#xff0c;供借款人和投资人使用功能…

疯狂买买买!你的支付环境真的安全吗?

在日常生活中&#xff0c;移动电话为我们带来了更多的方便。然而&#xff0c;我们在享受手机支付的便捷之余&#xff0c;也应充分认识到风险&#xff0c;增强防范意识&#xff0c;慧眼识诈。 小亿提醒&#xff1a;大家在购物之余&#xff0c;务必要注意手机支付的安全性&#…

2021 hnust 湖科大 C语言课程设计报告+代码+流程图源文件+指导书

2021 hnust 湖科大 C语言课程设计报告代码流程图源文件指导书 目录 报告 下载链接 https://pan.baidu.com/s/14NFsDbT3iS-a-_7l0N5Ulg?pwd1111

系统架构——Spring Framework

目录 &#xff08;1&#xff09;基本介绍 &#xff08;2&#xff09;基本发展历史 &#xff08;3&#xff09;了解和学习 Spring 4.x 系列的系统架构 1、第一个模块&#xff1a;做核心容器&#xff08;Core Contaner&#xff09; 2、第二个模块&#xff1a;AOP与Aspects(这…

Flink 反压

反压 Flink反压是一个在实时计算应用中常见的问题&#xff0c;特别是在流式计算场景中。以下是对Flink反压的详细解释&#xff1a; 一、反压释义 反压&#xff08;backpressure&#xff09;意味着数据管道中某个节点成为瓶颈&#xff0c;其处理速率跟不上上游发送数据的速率…

Chrome插件开发入门:手把手教你创建第一个扩展

问题背景 最近&#xff0c;客户发布了一个新的任务 —— 开发一个Chrome插件。之前没有这方面的开发经验&#xff0c;准备想学习一下这块的内容&#xff0c;我发现网上的大多数视频都是几年前的&#xff0c;开发版本都是基于MV2&#xff0c;当前谷歌已经开始使用MV3&#xff0…

【区块链】以太坊白皮书深度解读:构建智能合约的分布式平台

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 以太坊白皮书深度解读&#xff1a;构建智能合约的分布式平台引言1. 以太坊的诞生…

Nuxt快速学习开发---Nuxt3视图Views

Views Nuxt提供了几个组件层来实现应用程序的用户界面 默认情况下&#xff0c;Nuxt 会将app.vue文件视为入口点并为应用程序的每个路由呈现其内容 应用程序.vue <template> <div> <h1>Welcome to the homepage</h1> </div> </template> …

油猴hook+内存爆破

hook方式 说明&#xff1a;来回翻页发现只有请求体的token需要逆向&#xff0c;而这个请求体是在params里&#xff0c;拼接到url里&#xff0c;可以直接用油猴hook url里的关键字token。 正常步骤 hook代码 // UserScript // name hookparams // namespace htt…

【C语言】扫雷游戏

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;奋斗的小羊 &#x1f4a5;&#x1f4a5;所属专栏&#xff1a;C语言 &#x1f680;本系列文章为个人学习…

springBoot多数据源使用、配置

又参加了一个新的项目&#xff0c;虽然是去年做的项目&#xff0c;拿来复用改造&#xff0c;但是也学到了很多。这个项目会用到其他项目的数据&#xff0c;如果调用他们的接口取数据&#xff0c;我还是觉得太麻烦了。打算直接配置多数据源。 然后去另一个数据库系统中取出数据…

深信服科技:2023网络钓鱼趋势分析报告

随着互联网的快速发展和广泛应用&#xff0c;网络钓鱼活动带来的安全隐患愈演愈烈。因应威胁发展&#xff0c;我 们编撰了此份分析报告&#xff0c;旨在全面了解其发展态势&#xff0c;并提醒相关部门、企业和公众加强防范。 在本报告中&#xff0c;我们将详细梳理网络钓鱼的近…

IBM,开始构建以量子为中心的超级计算机

6月6日&#xff0c;IBM与Pasqal宣布了一项重大合作!IBM和Pasqal打算合作开发一种以量子为中心的超级计算的通用方法并促进化学和材料科学的应用研究。IBM和Pasqal将与高性能计算领域的领先机构合作&#xff0c;为以量子为中心的超级计算奠定基础——将量子计算与先进的经典计算…

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第44课-骨骼动画

【WEB前端2024】3D智体编程&#xff1a;乔布斯3D纪念馆-第44课-骨骼动画 使用dtns.network德塔世界&#xff08;开源的智体世界引擎&#xff09;&#xff0c;策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界引擎&…