Focal Network for Image Restoration

用于图像恢复的焦点网络

Yuning Cui1 Wenqi Ren2* Xiaochun Cao2 Alois Knoll1 1Technical University of Munich 2Shenzhen Campus of Sun Yat-sen University {yuning.cui,knoll}@in.tum.de {renwq3,caoxiaochun}@mail.sysu.edu.cn

论文：https://openaccess.thecvf.com/content/ICCV2023/papers/Cui_Focal_Network_for_Image_Restoration_ICCV_2023_paper.pdf

Abstract:

图像恢复的目的是从退化的图像中重建清晰的图像，这在许多领域发挥着重要作用。最近，Transformer 模型在各种图像恢复任务上取得了可喜的性能。然而，它们的二次复杂度对于实际应用来说仍然是一个棘手的问题。本研究的目的是开发一种高效且有效的图像恢复框架。受损坏图像中的不同区域总是经历不同程度的退化这一事实的启发，我们建议更多地关注重建的重要区域。为此，我们引入了双域选择机制来强调恢复的关键信息，例如边缘信号和硬区域。此外，我们分割高分辨率特征以将多尺度感受野插入到网络中，从而提高了效率和性能。最后，所提出的网络（称为 FocalNet）是通过将这些设计合并到 U 形主干中来构建的。大量实验表明，我们的模型在十个数据集上实现了三项任务的最先进性能，包括单图像散焦去模糊、图像去雾和图像去雪。我们的代码可在 https://github.com/c-yn/FocalNet 获取。

Introduction

在这项研究中，我们的目标不是追求大的感受野或探索对 Transformer 架构的修改，而是通过更多地关注用于重建的信息信号（例如边缘信息或难以恢复的区域）来开发一种高效且有效的基于 CNN 的框架。在这个方向上，现有的方法可以大致分为两类：辅助训练和基于注意力的方法。前者主要利用辅助技术或数据，例如语义分割、深度估计和光流估计来定位退化或边缘信息。尽管如此，这些算法总是需要额外的复杂分支和精心设计的训练策略来生成监督信息。关于这个主题的另一条路线是设计注意机制来关注信息区域或控制信息传输。这些方法大多集中在空间域，而忽略了光谱信息的使用，而光谱信息也可以为重建提供有用的信息。
为了促使模型更多地关注关键区域，我们提出了一种新颖的双域选择机制（DSM），充分利用空间域和光谱域中清晰/退化图像对之间的差异。具体来说，我们的机制包括两个组件：空间选择模块（SSM）和频率选择模块（FSM）。SSM 将特征作为输入，并通过部署深度卷积层来确定每个通道的退化的一般位置。然后使用 FSM 通过去除特征中的低频来放大高频信号或硬区域。所提出的网络 FocalNet 是通过将 DSM 合并到 U 形 CNN 主干中而建立的。为了节省计算开销，我们只将 DSM 插入到 FocalNet 的瓶颈模块中，其中包括最低分辨率的特征。
此外，我们将高分辨率特征在通道维度上分成两部分。一半特征被下采样到较低的分辨率，这不仅可以降低复杂性，还可以通过为不同尺寸的退化提供多尺度感受野来提高性能。
总的来说，本研究的主要贡献总结如下：
我们提出了一种新颖的双域选择机制（DSM），可以放大重要区域的响应，以帮助恢复干净的特征。
我们开发了一个高效且有效的焦点网络，为图像恢复提供多尺度表示学习。
对十个数据集的大量实验表明，所提出的网络 FocalNet 在三个代表性图像恢复任务上的表现优于最先进的算法。

Related Work

Image Restoration Architectures:

作为一项长期任务，图像恢复旨在消除损坏图像中不需要的退化，这在机器人视觉、医疗应用和监控等许多领域发挥着重要作用。最近，与传统方法相比，基于 CNN 的架构显着提高了性能。在这些架构中，编码器-解码器范例是学习分层表示的流行解决方案。此外，还开发或借鉴了其他领域的大量功能单元，例如扩张卷积、跳跃连接、动态滤波器和各种注意机制。最近，Transformer 模型已被导入到低级视觉任务中，并提供了有希望的性能。此后，采取了一些措施，通过限制操作区域或切换操作维度来降低自注意力的计算复杂度。

Spectral Networks:

除了空间表示学习之外，还提出了许多深度框架来弥合清晰/退化图像对之间的频率间隙。常见的做法是通过小波变换、傅里叶变换、池化技术和传统滤波器等变换工具将特征分解为不同的频率分量，然后分别通过卷积层处理每个分量。此外，一些研究研究了相位和幅度的不同作用，并提出了分别恢复它们的架构。在我们的工作中，我们只是从 SSM 的结果特征中删除最低频率信号，为进一步重建提供指导。

Auxiliary Training:

除了在图像恢复任务的训练集中提供真实图像之外，还提出了大量网络来求助于辅助监督。语义先验已被引入低级任务中以提供颜色、边界或位置信息。然而，全局语义先验对于大深度变化引起的退化效果较差。因此，已经提出了许多方法来估计深度图以生成用于恢复的边缘和结构信号。此外，还有许多工作集成了其他辅助信息，例如光流和事件数据。然而，上述解决方案总是需要额外的数据、昂贵的卷积分支和复杂的训练策略。

Method

在本节中，我们首先描述FocalNet的整体架构。然后我们描述我们的模块：多尺度ResBlock（MResBlock）和双域选择机制（DSM）。最后，我们详细介绍损失函数。

Overall Pipeline

图 3. 所提出的具有双域选择机制 (DSM) 的 FocalNet 架构，由两个组件组成，即空间选择模块 (SSM) 和频率选择模块 (FSM)。 ResBlock包含n个残差块，包括两个3×3卷积层和中间的激活函数。
如图 3 所示，所提出的 FocalNet 采用流行的编码器-解码器架构来有效地学习分层表示。编码器和解码器网络都由三个尺度组成。在我们的论文中，我们将第一个尺度称为涉及最高分辨率特征的子网络。MResBlock构成了第一个尺度的主要部分。另外两个尺度主要由ResBlock组成，ResBlock由n个残差块组成。给定大小为 H × W × 3 的退化图像，其中 H × W 和 C 分别表示空间位置和通道数，使用 3 × 3 卷积层来提取大小为 H × W × C 的浅层特征。然后，浅层特征经过三尺度对称编码器-解码器，转换为恢复特征，即解码器第一尺度中MResBlock的输出特征。从最高分辨率的输入开始，编码器逐渐减小空间尺寸并扩大通道数量。解码器则执行相反的操作，从最深层的特征中恢复干净的特征。在此过程中，解码器特征与编码器特征连接起来以帮助恢复，然后进行 1 × 1 卷积来调整通道维度。最后，通过最后的3×3卷积层和图像级残差连接生成预测的干净图像。除了MResBlock中的上采样层采用双线性插值之外，上采样（UP）和下采样（DOWN）操作都是通过转置卷积和跨步卷积实现的。所提出的 DSM 被注入瓶颈位置以选择最重要的区域进行重建。此外，我们应用多输入和多输出策略来缓解先前方法的训练难度。

Multi-scale ResBlock(MResBlock)多尺度ResBlock

最近，追求多尺度感受野是计算机视觉社区的热门话题，特别是基于 Transformer 的模型。受[11,40,46]的启发，我们在ResBlock中采用多尺度机制，通过分割和下采样操作形成我们的MResBlock，如图3所示。具体来说，给定输入特征，我们首先沿着通道维度将它们平均分成两个部分。接下来，使用跨步卷积将一半特征减少到原始分辨率的四分之一。得到的特征被输入到 ResBlock 中，然后上采样到原始大小。另一半直接由ResBlock处理。 MResBlock 的最终输出是通过连接两个分支的结果特征获得的。 MResBlock 有两个主要优势。首先，它通过实现不同大小的退化的多尺度表示学习来提高性能，并增强不同频率的谱学习。其次，它通过降低特征分辨率来提高效率。

Dual-domain Selection Mechanism (DSM) 双域选择机制

图 2.我们的双域选择机制 (DSM) 的效果。从左到右：从 DPDD [1] 获得的模糊图像、地面实况图像、DSM 的输入特征、空间选择的结果以及空间和频率选择的结果。 SSM 有助于关注退化区域，而 FSM 则强调边缘信息。放大以获得最佳视图。

这项研究的主要目标是通过关注更重要的区域来开发一个有效的图像恢复网络。这一目标是通过所提出的 DSM 实现的，它放大了两个领域的信息的响应（见图 2）。如图 3 底部所示，它由两个组件组成：空间选择模块 (SSM) 和频率选择模块 (FSM)。给定输入特征 $F\in\mathbb{R}^{H\times W\times C}$ ，依次采用 SSM 和 FSM，可表示为：
$\hat{F}=\mathrm{FSM}(\mathrm{SSM}(F)).$
接下来，我们详细介绍这两个要素。

Spatial Selection Module (SSM)：空间选择模块

SSM帮助网络聚焦于空间域中的重要区域，为后续FSM提供严重退化的初始位置。我们的SSM有3个分支机构。主路径建立在CBAM [53]的基础上，以生成要关注的退化位置的一般特征表示。具体来说，给定一个中间特征图F，我们首先通过最大池化和平均池化两种池化技术沿通道维度挤压F，然后通过卷积层生成通用特征图，其形式表示为：
$F^{\prime}=\mathrm{Conv}_3([\mathrm{AvgPool}(F),\mathrm{MaxPool}(F)])$
其中[·,·]表示串联； AvgPool、MaxPool 和 $Conv_3$ 分别表示平均池化、最大池化和 3 × 3 内核大小的卷积层。通过这样做， $F^{\prime}\in\mathbb{R}^{H\times W\times1}$ 包含要聚焦的退化位置。
由于每个通道的退化模式不同，我们通过深度卷积对输入特征 F 进行通道分离变换，进一步生成通道表示，然后用 $F^{\prime}$ 调制结果特征。这个过程表述如下：
$F_s=\mathrm{DConvs}_{5,7}(F)\otimes\mathrm{T}(F',C)+\mathrm{DConv}_3(F)$
其中 $\mathrm{DConvs}_{5,7}$ 表示内核大小为 5 × 5 和 7 × 7 的级联深度卷积层； $DConv_3$ 表示具有3×3核的深度卷积； ⊗ 表示逐元素乘法； $\mathrm{T}(F^{\prime},C)$ 是将 $F^{\prime}$ 沿通道维度复制C次到 ${R}^{H\times W\times C}$ 的平铺函数。然后，我们将空间选择的特征 $F_{s}\in\mathbb{R}^{H\times W\times C}$ 馈送到 FSM 进行频率选择。

Frequency Selection Module (FSM)：选择模块

我们可以直接利用 $F_s$ 来辅助恢复过程。由于退化/清晰图像对具有相似的低频分量，而在高频上有所不同，我们通过所提出的 FSM 去除最低频率来进一步强调包含输入/清晰图像对之间真正差异的区域。为此，我们首先对 $F_s$ 应用均值滤波器来生成低频特征，然后通过从输入中减去得到的低频信号来获得互补的高频特征，其表示为：
$F_s^h=F_s-\mathrm{Mean}(F_s)$
在我们的例子中，均值滤波器是通过通道全局平均池实现的。 FSM/DSM的最终输出是使用 $F_{s}^{h}$ 和 $F_s$ 之间的逐元素乘法以及残差连接生成的，其表示为：
$\hat{F}=F_s^h\otimes F_s+F_s$
DSM 之后，会强调重要区域，例如图 2 中用于散焦去模糊的边缘信号。

Loss Function：损失函数

为了促进空间域和频域的选择过程，我们采用了如下的双域 $l_{1}$ 损失函数 [13, 15]。对于具有相同分辨率的每个输出/目标图像对，损失函数由下式给出：
$\begin{aligned} \mathcal{L}_{s}& =\frac1P\|\hat{I}-G\|_1 \\ \mathcal{L}_{f}& =\frac{1}{P}\|\mathcal{F}(\hat{I})-\mathcal{F}(G)\|_{1} \\ \text{L}& =\mathcal{L}_s+\lambda\mathcal{L}_f \end{aligned}$
其中 $\hat{I}$ 和 G 分别表示输出图像和真实图像； P表示归一化的总元素； $\text{F}$ 表示快速傅立叶变换；为了平衡双域训练，λ 根据经验设置为 0.1。

Ablation Studies：消融实验

我们通过在 RESIDEIndoor上训练微型模型并在 SOTS-Indoor上进行测试来进行消融研究，以证明我们模块的有效性。所有ResBlock中残差块的数量设置为1。该模型仅训练了 300 个 epoch，初始学习率为 1e−4，批量大小为 4。其他设置与我们最终的去雾模型相同。基线网络是通过用 ResBlock 替换 MResBlock 并从微型模型中删除 DSM 获得的。补充材料中提供了更多消融研究。

Order of FSM and SSM：FSM 和 SSM 的顺序

当我们交换 FSM 和 SSM 的使用顺序时，性能从 35.60 dB（表 5g）下降到 35.17 dB PSNR。这种现象验证了我们设计的有效性，我们首先应用 SSM 来处理一般退化区域，然后利用 FSM 来强调更重要的部分，例如图 2 中的边缘信号和图 8 中的硬区域。
表 5. SOTS-Indoor [27] 数据集上 FocalNet 不同组件的消融研究。

Conclusion

在这项研究中，我们提出了一种用于图像恢复的焦点网络，称为 FocalNet，它非常有效且计算效率高。我们工作的核心思想是聚焦重点地区重建。为此，我们提出两个模块：SSM和FSM。 SSM 建立在空间注意力的基础上，以检测退化区域以进行后续的频率选择。 FSM进一步强调了难以恢复的边缘信号或区域。通过连续部署两个模块，网络能够更多地关注对重建真正重要的区域。此外，我们通过降低输入特征一半通道的分辨率，将多尺度机制插入到网络中。这种设计不仅提高了性能，还降低了复杂性。对 10 个数据集的实验表明，我们的模型在多个图像恢复任务中实现了最先进的性能。