Non-aligned Supervision for Real Image Dehazing

原文链接:https://www.semanticscholar.org/paper/Non-aligned-supervision-for-Real-Image-Dehazing-Fan-Guo/7595d39e71ae58343e8728fc1af0e18ffe38218b

数据集:https://www.cityscapes-dataset.com/

真实的图像去雾的非对准监督

摘要

由于天气条件的不可预测性,导致模糊图像和清晰图像对的不对齐,从真实世界图像中去除雾霾是一项挑战。本文提出了一种创新的去雾框架,该框架在非对齐监督下运行。该框架基于大气散射模型,由三个相互连接的网络组成:去雾,空气光和传输网络。特别地,我们探索了一种非对齐场景,即利用与输入模糊图像不对齐的清晰参考图像来监督去雾网络。为了实现这一点,我们提出了一种多尺度参考损失,它比较了参考图像和去雾输出之间的特征表示。我们的场景使得在现实环境中收集模糊/清晰图像对变得更容易,即使在未对准和移位视图的条件下。为了展示我们的场景的有效性,我们收集了一个新的模糊数据集,包括415个由移动的手机在农村和城市拍摄的图像对,称为“Phone-Hazy”。此外,我们引入了一个基于均值和方差的自注意网络来建模真实的无限空气光,使用暗通道先验作为位置指导。此外,一个通道注意力网络被用来估计三通道传输。实验结果表明,我们的框架优于现有的国家的最先进的技术在现实世界的图像去雾任务的上级性能。电话-Hazy和代码将在www.example.com上提供https://fanjunkai1.github.io/projectpage/NSDNet/index.html。

关键词:图像去雾,非对齐监控,真实的雾数据集,大气散射模型

1引言

        模糊是捕获退化图像的主要限制因素(例如,有限的可见度,低对比度),导致许多计算机视觉应用的性能不佳,例如物体检测[8],场景识别[9],深度估计[10],语义分割[11]和自动驾驶[12]。因此,图像去雾,在过去的十年里,从模糊输入中恢复清晰图像的方法受到了越来越多的关注[4,13-15]。模糊过程通常被建模为大气散射。

其中x表示像素位置,I(x)是输入模糊图像,J(x)是恢复的场景辐射,A∞是无限空气光,d(x)是透射图,d(x)和β(λ)表示场景深度和具有光的波长λ的散射系数,遵循大气散射模型,大多数深度学习方法[2,16-20]利用广泛采用的基于CNN的网络[21,22]来构建去雾、空气光、传输网络,以从输入的模糊图像I估计J、A∞和t,如等式(1)中所概述的。考虑到模糊和清晰图像对之间的关系,这些方法可以被广泛地分类为成对和非成对方法。然而,尽管这些方法有希望的结果,但是这些方法仍然遇到三个显著的挑战。

        首先,大多数配对方法[5,23-25]采用监督设置内的对齐的模糊/清晰图像对来训练去雾网络,然后通过域自适应恢复真实的模糊图像。用于训练的对齐图像对通常是综合生成的,利用等式(1)中描述的大气散射模型将清晰图像转换为模糊图像。尽管如此,当应用于真实世界的模糊图像时,由于合成和真实模糊图像域之间的固有分歧,这产生了低于标准的结果,例如图1中的DAD模型([5])。此外,从真实世界的场景中收集大量完全对准的模糊/清晰图像对是不可行的。这主要是因为这些图像通常是在不同的时间、天气条件和相机视角下拍摄的,导致像素错位和视图偏移。

        其次,未配对方法[2,3,6,16]依赖于未配对的清晰/模糊图像集来训练去雾网络。虽然收集未配对图像相对不复杂,但它们是从不同的分布或场景中绘制的。因此,训练变得具有挑战性,并且去雾结果受到影响,如RefineNet([2]),CDD-GAN([6]),和D4([3]),如图1所示。

        第三,上述方法通常假设空气光A∞为恒定值。然而,A∞由于实际场景中散射颗粒的大小和光波长的差异而变化([26,27])。因此,固定的A∞无法捕获这些变化,导致去雾效果不理想。

        为了解决这些问题,我们开发了一个不结盟的监督框架,其中包括去雾,无限的空气光,和植根于大气散射模型的传输网络。

        图 1:CVPRws 2021 [1] 和我们的 Phone-Hazy 对真实世界图像的去噪结果。与最先进的方法 RefineNet [2]、D4 [3]、PSD [4]、DAD [5]、CDD-GAN [6] 和 RIDCP [7] 相比,我们的方法能生成更清晰的结果。

        一个重要的想法是利用非对齐的清晰图像来监督去雾网络。这样,与雾霾图像不完全对齐的清晰图像就可以用于训练,从而产生两个有价值的好处。与配对方法不同,我们的方法不仅放宽了严格的对齐限制,而且在更宽松的条件下更容易从同一场景中收集非对齐图像对。与非配对方法相比,我们的方法减少了朦胧图像和清晰图像分布之间的差异,使模型易于学习。此外,我们还引入了多尺度参考损失,将对抗损失和上下文损失相结合,利用多尺度非对齐图像对优化去毛刺网络。

        另一种观点认为 A∞ 是一种非均匀映射。为了更有效地模拟朦胧图像中的 A∞,我们结合暗通道先验(DCP)[28] 和朦胧图像,提出了一种均值和方差自注意(mvSA)网络。mvSA 能够捕捉朦胧特征的平均值,并预测波长效应和散射粒子等因素引起的波动,从而突出朦胧特征。与 DCP 和传统的自我关注(SA)相比,我们的 mvSA 网络能更精确地限制无限气光的范围。总的来说,我们的贡献总结如下:

        如图 2 所示,我们提出了一种新颖的非对齐监督框架,用于有效地对真实世界的图像进行去噪处理。通过将清晰的非对齐参考图像纳入去毛刺网络监督,我们有效地减轻了通常与朦胧/清晰图像对相关的严格对齐前提条件。据我们所知,我们是在真实世界场景中探索用于单幅图像去毛刺的非对齐监督的先驱。

        图 2:以大气散射模型为基础的非对齐监督框架的整体流程,用于真实图像的去噪。该框架由以下重要部分组成:用于去毛刺图像 J 的生成器网络、用于气光图 A∞ 的 mvSA 网络和用于传输图 t 的信道关注网络。另一个重要部分是 mvSA 网络,通过使用真实场景中的暗通道先验来有效估计 A∞。请注意,我们的框架有别于传统的有监督去毛刺模型,因为它无需对齐地面实况即可运行。

        我们提出了一种均值和方差自我注意网络(mvSA),它利用暗通道先验作为位置引导,以更好地模拟无限气流。我们的实验结果也证实了它的有效性。-

        我们提供了一个真实世界的雾霾数据集,其中包括 415 对不对齐的雾霾/清晰图像对,这些图像是使用 iPhone XR 在不同的真实场景(即乡村和城市道路)中手动收集的。

      2 相关工作

        在此,我们主要回顾两类方法:基于先验的去雾方法和基于学习的去雾方法。

        基于先验的去雾霾方法依赖于大气散射理论[26],并采用基于经验观察的人工先验。这些先验主要包括对比度最大化[29]、暗通道先验(DCP)[28]、颜色衰减先验[30]、色线先验[31]和非局部先验[32]。这些方法虽然在一般情况下有效,但在复杂的真实世界场景中可能会产生次优结果,特别是在天空区域,由于 DCP 依赖于特定场景和假设的先验,因此在天空区域难以奏效。

        基于学习的方法使用深度神经网络来学习大气散射模型的参数(即无限空气光 A∞、传输图 t(x) 和无霾 J(x))或朦胧图像与清晰图像之间的映射。对于前者,许多研究[17-20, 33-39]侧重于使用 CNN 或 GAN 直接估计 t(x) 和 A∞。Mondal 等人[35] 提出气光是非均匀的,并将其定义为 A∞(λ)(1-t(x)),而我们的无限气光只指 A∞。由于在真实场景中很难获得 t(x) 和 A∞ 的地面真实值,这些方法很难取得良好的效果。为了提高 A∞ 和 t(x)的精度,一些方法[40- 43]采用了迭代优化的方法来获得它们的最优值,但收益有限。后者主要依靠设计各种网络模块来有效提取特征,而没有利用大气散射模型。其中大多数研究[44-50]以 GAN 变体为基础构建去噪模型,并引入感知损失[51]作为约束条件。部分 GAN 变体主要利用多尺度和注意机制(如通道注意、空间注意)来有效提取朦胧特征,如[45, 46]。此外,类似的网络架构设计思路也出现在基于 CNN 的去噪网络中 [13, 18, 52-56]。最近,视觉变换器(ViT)被用来设计不同的结构,以提高去毛刺性能[57-60]。上述工作主要是城市景观[62])。然而,由于深度有限和图像质量下降,去雾效果并不理想,导致出现域间隙,缺乏真正的朦胧/清晰图像对。

        为解决这一问题,一些研究提出了针对真实世界的域自适应和非配对去毛刺模型。这些模型主要建立在 CycleGAN [63] 的框架上,如 Cycle-Dehaze [64]、DAD [5] 和 D4。Chen 等人[4]提出了一种在合成数据集上预训练并在具有物理先验的真实数据上微调的去毛刺框架。同样,Wu 等人[7] 通过使用高质量的编码本先验,提高了微调后的图像质量。Yang等人[16]采用深度网络分别估计A∞、t(x)和J(x)来重建灰度图像,并通过使用未配对的灰度/清晰图像来约束去雾结果,类似的工作包括[2]。这两种方法在实际应用中效果都不理想,主要原因是样本分布不同。与域自适应和非配对监督相比,我们的非配对监督具有更强的约束性。与上述方法不同的是,我们的方法通过在成对的真实雾霾数据集上进行训练,并从非对齐参考图像中提取有效特征,从而超越了以往的去毛刺模型。此外,我们还重新定义了 A∞(即非均匀图),并提出了一种新型网络(mvSA),可在真实世界场景中更准确地估计 A∞。

3 方法

        在本节中,我们提出了一种非对齐监督去毛刺框架,即从输入的模糊图像中构建三个去毛刺、透光和传输网络(称为 NSDNet),如图 2 所示。我们的主要想法是探索一种非对齐监督设置,即通过使用清晰且非对齐的参考图像来监督训练去雾网络。另一种我们的想法是构建一个均值和方差自注意(mvSA)网络,通过使用暗信道先验[28]来预测更好的空气光 A∞。

        在展示它们之前,我们首先给出去噪网络和传输网络。去雾网络旨在直接从输入的雾霾图像生成无雾霾图像。如图 2 所示,我们使用 DCP 方法 [28] 计算粗略的无雾霾图像。然后将其输入去噪网络,该网络是 CycleGAN 的生成器网络[63]。

        如图 2 所示,传输网络的目的是通过利用信道注意网络,从输入的雾霾图像生成三信道传输图。其架构是一个编码器-解码器结构,具有跨特征尺度的跳接连接[22]。最后,利用引导滤波器 [28] 得出最终的传输图。

        我们用输入的模糊图像表示 I∈R 3×H×W,用清晰和非对齐的参考图像表示 Jref∈R 3×H×W,用输入 I 的去噪网络输出表示 J∈R 3×H×W,用传输网络输出表示 t∈R 3×H×W。请注意,Jref 并不与 I 或 J 对齐。

3.1 非对齐监督

        为了有效减少配对方法中合成图像与真实雾霾图像之间的域差距,以及最小化非配对方法中雾霾图像与清晰图像分布之间的差异,一种合理的方法是在同一真实世界场景中积累非对齐的雾霾/清晰图像对(I, Jref)。然后,这些图像对可以作为指导去雾网络训练的监督信号。附录 A 中概述了组建手机朦胧数据集的详细策略。在本小节中,我们将通过评估 Jref 和 J 之间的特征相似性来确定 Jref 和 J 之间的参考损失,从而建立非对齐监督的概念。如下所述,我们使用多尺度增强技术进行评估。

        多尺度参考损失既包括多尺度对抗损失,也包括多尺度上下文损失,比较 Jref 和 J。J = {J i}i=1,2,3. 在数学上,多尺度参考损失可以表示如下:

其中 ω1 和 ω2 为正超参数,用于平衡两种损失。本文默认设置为 1。

        多尺度对抗损失。鉴于对抗学习[65]具有生成高度逼真图像的强大能力,我们的方法利用对抗损失来监督去毛刺网络(生成器)和判别器网络。鉴别器网络是一个由 5 层组成的紧凑型 CNN,利用卷积产生一维输出。除第一层和最后一层缺乏 BatchNorm 外,其余各层均包含跨距为 2 的 4 × 4 卷积-批量规范-LeakyReLU 单元。此外,我们还将对抗损失扩展为多尺度变体,具体表现如下:

其中,索引 i 代表不同尺度,J 是去毛刺网络通过上述损失训练后的输出结果。

        多尺度上下文损失。为了更好地探索清晰且未对齐的参考图像,我们从上下文损失中汲取灵感[66]。这种损失量化了未对齐图像之间的余弦相似性距离,最初设计用于图像到图像的翻译任务。我们的贡献在于将其扩展为多尺度上下文损失,定义如下:

其中,S 表示图像特征之间的上下文相似性,Φ l (J) 和 Φ l (Jref ) 分别指 VGG-16 网络 Φ 第 l 层使用输入 J 和 Jref 提取的特征图。

        备注 1. 我们的非配准监督方法有三个显著优势。首先,它减轻了严格的配准要求,尤其是在配对方法中减少合成雾度/清晰度图像对之间的域差距时。其次,它加强了非配对方法中灰度图像和清晰图像分布之间的一致性。第三,它有助于从真实场景中收集非配对的朦胧/清晰图像对,即使在像素错位和视角变化等宽松条件下也是如此。此外,我们还利用 iPhone XR 收集了一个真实世界的雾霾数据集,称为 “Phone-Hazy”。

3.2 均值与方差自注意

        在本小节中,我们将介绍一种均值与方差自注意(mvSA)网络,旨在加强对无限光照(A∞)的建模。为了计算输入图像 I 的暗通道图 D,我们采用了 DCP 方法 [28]。随后,我们利用共享网络,从暗通道图 D 和朦胧图像 I 中提取特征,然后将其输入 mvSA 网络,以更准确地估计 A∞,如图 2 所示。

        共享网络是一种编码器-解码器结构,具有跨特征尺度的跳接[22]。利用该网络从暗通道图像 D 和雾度图像 I 中提取特征,得到的特征表示分别表示为 Fd∈R B×C×H×W 和 Fh∈R B×C×H×W。这里,B、C、H 和 W 分别代表特征张量的批量大小、通道数、高度和宽度。更多详情请参见补充材料。

        mvSA 网络利用均值和方差自注意机制来估计无限空气光,用 A∞ 表示。这种估计是通过利用作为位置引导的暗通道先验来实现的。利用自我注意原理[67],网络会突出暗通道特征 Fd 和朦胧特征 Fh 中的朦胧区域。前 1%最亮像素的平均值作为 A∞ 的代表平均值。此外,该网络还将朦胧特征与自我关注特征之间的差异作为 A∞ 方差的预测因子。mvSA 网络的数学描述如下。

        从上述共享网络中提取特征 Fd 和 Fh 后,我们采用核大小为 1 × 1 的卷积运算对这些特征进行变换,得到嵌入向量 qh、kd 和 vh。这些变换分别记为 C q 1×1 、C k 1×1 和 C v 1×1。由此得到的嵌入向量可表示为

        其中,qh∈ R B× C 8 ×H×W ,kd∈ R B× C 8 ×H×W ,vh∈ R B× C 8 ×H×W 。为了控制计算复杂度,我们使用 4 × 4 的最大池化操作(表示为 M4×4)对 kd 和 vh 执行降采样操作。这些下采样版本的定义如下

        其中,bkd ∈ R B× C 8 × H 4 × W 4,vbh ∈ R B× C 8 × H 4 × W 4。通过重塑 qh ∈ R B× C 8 ×(HW) 和重塑 bkd ∈ R B× C 8 × HW 16 之间的矩阵乘法计算注意力权重,然后应用软最大激活。随后,通过将注意力权重与重塑的 vbh∈ R B× C 8 × HW 16 相乘,得到注意力图 Fatt∈ R B× C 8 ×HW ,其写法如下:

        其中⊗表示矩阵乘法,Fatt∈ R B×(HW)× C 8。利用重塑注意力图 Fatt ∈ R B× C 8 ×H×W 和嵌入 vh,我们可以计算出无限空气光 A∞∈ R B×3×H×W 的均值和方差如下:

        其中,Am ∈ R B×3×H×W 和 Av ∈ R B×3×H×W 表示相对平均值和相对变异值、分别为 术语 α 和 µ 作为其相应分量的调整因子。运算 C1×1(-) 表示使用 1 × 1 过滤器进行卷积运算,以减少通道数量。符号 UA∞[-] 表示从注意力特征图中选取 A∞ 中最亮的 1%像素。备注 2. 我们的 mvSA 网络提供了一种更优越、更全面的方法来估计真实场景中无限气流光的均值和方差图。这优于之前的研究[2, 4, 17, 18, 28, 40],之前的研究只考虑了有限的三通道常数,因此无法捕捉到内在的变化。

3.3 训练损失

最后,对训练损失函数的描述如下:

        其中,Lmsr 是公式 (2) 中的多尺度参考损失,Lrec 是重建损失。根据 (1) 中的大气散射模型,Lrec 定义为

        其中,Lℓ1 是平均绝对差值损失,Lp 表示感知损失 [51],Lssim 表示结构相似性(SSIM)损失 [68],θ、γ 和 η 分别是相应项的权重系数。此外,重构损耗不仅可以监督无限空照、传输和去毛刺网络的训练,还能使去毛刺结果的特征不受非对齐参考图像的影响。请注意,损失 Lmsr 和 Lrec 的曲线见补充材料。

4 实验

        我们在三个真实世界的烟雾/朦胧数据集上进行了实验,验证了所提方法的有效性。为了进一步确定我们提出的方法中核心模块的有效性,我们进行了一项消融研究。合成烟雾数据集的实验结果请参见附录 B。

4.1 实验设置

        真实世界烟雾数据集。

真实世界烟雾数据集收集自 20182021 CVPR 研讨会去雾化挑战赛。该数据集包括三个子数据集: I-HAZE、O-HAZE 和 NH-HAZE。其中包含 155 对真实室内外场景的烟雾图像和清晰图像。烟雾图像包括同质和非同质类型的烟雾(NH-Smoke)。此外,我们将数据集的图像大小调整为 286 × 286,然后将图像随机裁剪为 256 × 256。这一过程有意引入了数据对之间的错位。我们随机选取 147 幅图像作为训练图像,其余 8 幅图像作为测试图像,其中训练图像和测试图像不重叠。两个真实世界的朦胧数据集。第一个数据集名为 “Phone-Hazy”,涉及利用手机(例如 iPhone XR)在相同地点的不同雾霾和晴朗天气条件下捕捉非对齐图像对。该数据集旨在创建一个全面的真实世界雾霾图像集。为了增强雾霾场景的多样性,我们收集了来自农村和城市环境的密集雾霾图像。室外场景的雾霾和清晰图像共有 415 对,其中 375 幅用于训练,其余 40 幅用于测试。在整个训练阶段,使用的图像片段尺寸为 256 × 256 像素。有关 Phone-Hazy 数据集收集细节的其他信息见附录 A。第二个数据集被称为 RTTS 数据集,是 RESIDE 数据集1 [61] 的一部分。在这项工作中,RTTS 被用作评估去毛刺方法的第三方基准,其中包含 4322 幅真实世界的灰度图像。此外,RTTS 没有相应的地面实况,因此,利用该数据集来评估去噪模型的性能可以确保比较的公平性。

        图3.真实世界烟雾数据集的去毛刺结果。我们的方法能有效消除烟雾,生成的图像与未对齐的参考图像非常相似。红框表示放大后的补丁,以便进行更精确的比较。

        图 4:在真实世界 Phone-Hazy 数据集上的去噪结果。我们的方法能够消除雾度,生成与参考图像非常相似的图像,即使它们并不完全一致。

        图 5:实际 RTTS 数据集的去噪结果。我们的方法有效消除了远处场景中的雾霾,同时还增强了对更精细细节的还原。

实施细节。

首先,在重建损失中,ℓ1 损失、感知损失和 SSIM 损失的相应权重参数 θ、β 和 η 分别设为 5、1 和 1。其次,在公式 (8) 中,我们将相对平均值 α 和相对方差 β 分别设为 1.2 和 0.25 × 10-3。

        在训练处理过程中,我们使用了 ADAM [69] 优化器,初始学习率为 2×10-4。我们的模型由 Pytorch 使用两台英伟达™(NVIDIA®)GeForce RTX 3090 GPU 训练了 400 个历元。评估。在这项工作中,我们使用雾感知密度评估器(FADE)[70]和自然图像质量评估器(NIQE)[71],在没有地面实况(GT)的情况下评估去毛刺结果。此外,我们还采用 PNSR [72] 和 SSIM [68] 来评估有地面实况的去毛刺结果。

4.2 真实烟雾/朦胧数据集的结果

        为了评估我们的 NSDNet 在真实烟雾/朦胧场景中的普适性和有效性,我们将其与一些最先进的 (SOTA) 方法进行了比较,包括 DCP [28]、DisentGAN [16]、DAD [5]、RefineNet [2]、PSD [4]、CDD-GAN [6]、RIDCP [7] 和 D4 [3]。为了进行公平的比较,我们在真实的烟雾/朦胧数据集上对每种方法进行了微调,以达到它们的最佳性能。

        表 1 总结了定量比较的结果。真实烟雾数据集上的结果。从表 1 中我们发现,我们的 NSDNet 在定量指标上优于所有最先进的(SOTA)方法。例如,与非配对 DCP 方法[28]相比,我们的方法有显著改进,PSNR 提高了 4.48,SSIM 提高了 0.39,FADE 提高了 0.093,NIQE 降低了 0.3617。相比之下,与配对 RIDCP 方法[7]相比,我们的方法仍然取得了显著的改进,PSNR 提高了 0.12,SSIM 提高了 0.13,FADE 提高了 0.0074,NIQE 降低了 0.17。

       此外,如图 3 所示,还展示了烟雾图像的视觉复原结果。与最先进的方法相比,我们的 NSDNet 显然在颜色和纹理方面都更接近清晰的参考图像。这些方法通常是根据合成数据集设计的,缺乏物理先验的约束,通常难以有效去除烟雾。例如,RefineNet[2]产生了较暗的去噪结果,并保留了少量烟雾。同样,DisentGAN [16]、DAD [5]、PSD [4] 和 D4 [3] 方法也不能有效去除大量烟雾。此外,CDD-GAN[6]生成的纹理更模糊,并出现色彩失真,而 RIDCP[7] 生成的去噪结果过于平滑,也出现了色彩失真,如灰色帐篷。

        在我们收集的真实世界 Phone-Hazy 数据集上的结果。图 4 展示了去毛刺结果的可视化效果,突出显示了与最先进的(SOTA)方法相比,我们的 NSDNet 在亮度和纹理细节方面的卓越性能。具体来说,与 DisentGAN [16]、DAD [5]、RefineNet [2] 和 D4 [3] 方法相比,我们的 NSDNet 不仅能消除持续存在的严重阴影,还能减少伪影。PSD [4] 增强了在亮度方面,它无法完全消除雾度。另一方面,CDD-GAN [6] 和 RIDCP [7] 在摄像机附近表现出良好的雾霾消除能力,但在去雾霾结果的纹理和色彩质量方面却存在问题。此外,它们也无法还原远离摄像机的场景,图 4 中的树枝和道路就是一个例子。此外,RIDCP[7] 的突出特点是色彩过于鲜艳。总之,NSDNet 在还原更精细的细节和生成具有视觉吸引力的图像方面表现出色,尤其是在场景亮度还原方面。

        考虑到缺乏对齐的地面实况,我们在表 1 中采用了 NIQE 和 FADE 指标进行评估。这些指标强调了我们的 NSDNet 的卓越性能,因为它达到了最低的 NIQE 和 FADE 值。例如,我们的方法超越了非配对 CDD-GAN 方法[6],FAQE 提高了 0.0526,NIQE 提高了 0.1364。与配对 RIDCP 方法[7]相比,NSDNet 的提升更为显著,FAQE 提升了 0.0452,NIQE 提升了 0.7740。

        真实 RTTS 数据集上的结果。为了进一步评估我们的 NSDNet 的泛化能力,所有方法都在 RTTS 数据集上进行了专门评估,其定量比较详见表 1。很明显,NSDNet 的表现优于同类方法,其 NIQE 和 FADE 分数最低。具体来说我们的方法优于未配对的 CDDGAN 方法[6],在 FADE 和 NIQE 中分别提高了 0.0373 和 1.2130。此外,我们的方法在 FADE 和 NIQE 中分别取得了 0.2021 和 0.6137 的显著改进,超过了配对 RIDCP 方法 [7]。这是因为 RIDCP 利用预测深度来合成用于模型训练的模糊和清晰图像对。然而,这些预测深度在近景中往往更准确,而在远景中则不太可靠。因此,经过训练的模型在近景除霾方面表现出色,但在处理远景时却举步维艰,导致 FADE 和 EQ 值升高。NIQE 分数。此外,我们的 NSDNet 还通过出色的用户研究证明了其卓越的图像去毛刺能力。此外,图 5 直观地展示了我们的研究结果。可以得出以下结论: 1) RefineNet [2]、PSD [4]、D4 [3] 和 RIDCP [7] 都难以有效去除远处物体(如门和建筑物)的灰霾。2) 尽管 CDD-GAN [6] 在视觉上与我们的 NSDNet 非常相似,但在还原图像的纹理和色彩方面却有不足。3) 相比之下,我们的 NSDNet 不仅能消除远处物体的雾度,还能出色地还原亮度和纹理细节。性能不佳的影响分析。

        为了揭示性能不佳分析背后的原因,我们可以指出几个关键问题。首先,广受认可的 DCP [28]在有效处理天空区域方面面临挑战,并表现出对关键参数的敏感性,例如作为 A∞ 和 t 边界的约束条件。其次,无配对无监督学习方法(如 DisentGAN [16]、RefineNet [2]、CDD-GAN [6] 和 D4 [3])采用 GAN 生成去雾图像。不幸的是,这些 GANs 都是使用未配对的数据进行训练的,而这些数据来自不同的雾度和清晰度图像分布。这种领域的不一致性给模型训练带来了挑战,最终导致性能不理想。第三,配对方法(如 DAD [5]、PSD [4] 和 RIDCP [7])通常采用领域适应技术,在真实雾霾图像上进行测试的同时,在合成配对数据上训练去雾模型。这种做法在合成数据和真实数据之间引入了领域差距。此外,PSD [4] 采用了由对比度受限自适应直方图均衡化(CLAHE)生成的伪标签进行微调,这可能会导致去噪输出中的颜色过于鲜艳。

        请注意,更多可视图像和视频去噪结果可在补充材料中找到。

4.3 mvSA 和 Lmsr 的消融研究效果。

        为了评估 mvSA 网络和多尺度参考损失 Lmsr 的效果,我们进行了一系列消融实验,在真实世界的烟雾和 Phone-Hazy 数据集上评估我们的方法。我们构建了一个消隐框架基线,其中包括两个用于处理清晰场景(J)和估计传输图(t)的深度网络,以及一个使用 U-Net 架构生成恒定无限空气光的深度网络。该基线使用重建损失和对抗损失进行训练。随后,我们用 mvSA 网络取代了 DCP 方法,并引入 Lmsr 来训练去噪网络,从而产生了两种变化:基线+mvSA 和基线+mvSA+Lmsr(我们的 NSDNet)。定量结果见表 2。值得注意的是,基线+mvSA+Lmsr 的 FADE 值和 NIQE 值最低,PSNR 值和 SSIM 值最高,这表明我们的 NSDNet 在实际图像去毛刺方面表现出色。

        图 6:上图(a)-(e)显示了 mvSA 和 Lmsr 在真实的远距离浓雾图像(具有挑战性的场景)上的效果。下图(f)-(j)展示了 Lmsr 的可视化消融研究。

        此外,在图 6(a)-(e)中,我们展示了一幅视野开阔、具有挑战性的模糊图像的去毛刺可视化效果。由于基线方法对无限空气光(A∞)的估计不准确,因此会出现色彩失真并保留大量雾霾残留。相反,如 (c) 所示,加入基线+mvSA 方法后,场景恢复得到改善,这主要是因为 mvSA 有效地估计无限光照的变化。最值得注意的是,(d) 显示基线+mvSA+Lmsr 与基线+mvSA 相比,能产生明显更清晰、更美观的去噪效果,例如天空区域和远处建筑物的纹理得到增强。这有力地证明了 Lmsr 技术的有效性。为了进一步验证 mvSA 模型在学习更精确的无限光照值方面的能力,我们使用图 7 中的真实烟雾图像与广泛使用的 DCP 方法进行了比较。图 7(a) 显示的是非均匀烟雾(NH-Smoke)场景,而图 7(b) 显示的是 mvSA 生成的 A∞ 预测值。与图 7(f)所示的 DCP 方法相比,该预测更准确地反映了现实变化。

        表 2: 对真实世界烟雾和 Phone-Hazy 数据集进行消融研究的定量结果。

        此外,在图 7(d)和图 7(h)中,我们比较了 mvSA 网络利用公式 (1) 在 A∞ 和传输 (t) 方面实现的除杂结果,以及利用 DCP 方法实现的除杂结果。我们的方法明显改善了除杂效果。此外,我们还在图 7(e) 中提供了基于暗通道先验和朦胧图像的可视化注意力图。这张注意力图突出了与严重雾霾相对应的区域,展示了 mvSA 网络在捕捉和处理具有挑战性的雾霾条件方面的有效性。

        图 7:去色结果 J、无限空气光 A∞、注意力图谱和传输图谱 t 的可视化效果。

        表 3:使用尺寸为 256x256 像素的真实世界烟雾数据集对各种错位像素情况进行比较。

        图 8:使用真实世界烟雾数据集在不同旋转角度下的 PSNR 和 SSIM 结果。

        表 4:对真实世界的烟雾数据集进行了烧蚀研究,以调查不同损耗成分的影响,尤其侧重于 Lmsr 和 Lrec。

        针对错位和旋转的增强比例选择。在本节中,我们的主要重点是在真实世界烟雾数据集的非对齐参考图像背景下评估错位和旋转的影响。

        调查错位效果: 为了全面评估错位的影响,我们引入了从 0 到 120 像素的不同错位水平。由此得出的 PSNR、SSIM、FADE 和 NIQE 等性能指标见表 3。这些结果一致强调了减少不对齐与提高模型性能之间的直接关系。值得注意的是,我们的实验是在烟雾数据集上以 30 像素错位进行的,而 Phone-Hazy 数据集则表现出更严重的错位问题、焦距不一致和视角变化。

        探索旋转效果: 此外,为了检验旋转对不对齐参考图像的影响,我们采用了 30°、60° 和 90° 的旋转角度。图 8 直观展示了非对齐参考图像以 0 至 30° 的增量旋转后的结果,模拟了现实世界中的场景。值得注意的是,该模型的性能表现出对旋转角度变化的敏感性,这主要是由于像素位置对上下文损失的影响。不过,在实际数据采集中,将采集图像的旋转角度限制在 0 至 30° 范围内相对比较简单。

        损耗 Lmsr 和 Lrec 的影响。公式 (2) 中的参考损失 Lmsr 包括 Lmsa 和 Lmsc,公式 (12) 中的重建损失 Lrec 包括 L1、Lp 和 Lssim。在此,我们利用这些不同的损失在真实世界的烟雾数据集上训练我们的模型。定量结果如表 4 所示。在表的上半部分,我们强调了 Lmsa 和 Lmsc 的功效。特别是,在损失 Lrec 固定的情况下,Lmsr 的性能要优于 Lmsa 和 Lmsc。此外,如图 6 (f) - (j) 所示,我们对 Lmsr 的消融结果进行了可视化。表格下部还显示了 L1、Lp 和 Lssim 的相似效果。总之,这些消减提供的证据表明,这些损耗成分对于增强细节还原和改善真实世界场景中的图像去噪性能非常有价值。

        Lmsr 的尺度选择效果。拟议的 Lmsr 损失函数包含一系列不同的尺度。为了评估这些不同尺度的影响,我们进行了三项实验具体比例(0.5×、1×、2×)。表 5 中显示的结果表明,利用多尺度方法可以有效提高 Lmsr 的性能。根据经验,我们选择了三比例设置(0.5×、1×、2×),以便在性能提升和计算复杂度之间取得平衡。

5 讨论与分析

        为什么去噪结果在现实世界中看起来很模糊?从上述去雾化的可视化效果中,我们可以看到去雾化的结果在应用于真实世界的图像时表现出模糊不清。对这一现象的一种合理解释是,在相机捕捉图像的过程中,由于粒子散射,图像会变得模糊[73, 74]。然而,许多现有模型只关注去毛刺任务,而忽略了图像复原这一关键环节。因此,与参考图像相比,去毛刺的结果在实际场景中会表现出明显的模糊。相比之下,合成数据的结果更为出色。这可以归因于合成数据是通过在清晰图像中引入雾度生成的,从而避免了图像清晰度的下降。为了获得更清晰的请参考附录图 B3 中提供的可视化图,了解使用合成数据实现的去毛刺结果。

        在处理非均匀 A∞ 分布时,自我关注(SA)是否比我们修改后的 SA 变体(mvSA)更有效?不,并非如此。主要原因是自我注意(SA)生成的注意图经常会在 A∞ 中显示出许多无效区域。与此相反,mvSA 利用 DCP 策略来识别注意力图中最重要的 1%,并计算其平均值。我们在图 9 中说明了这一差异。

        单通道和三通道哪种方案更适合传输图?根据公式 t(x) = e -β(λ)d(x),有两种情况下透射图会趋近于零:一种是在朦胧区域,另一种是在无穷远的天空区域(即 d(x) 接近 ∞)。观察图 10 (b),可以明显看出,在单通道传输图中,红框标出的白色椅子的传输图不应该趋近于零。相比之下,三通道透射图相对更加精确,从而获得了更好的除杂效果。

下游任务的优势。

        为了突出通过减少雾度增强真实世界图像对后续任务的益处,我们使用了 FastSAM 工具2 [75]。我们用它来评估不同去雾模型在图像分割方面的优势。如图 11 所示,与其他最先进的去毛刺技术相比,我们的去毛刺结果表明,我们能够更有效地分割较小的物体(如窗户和电线)。性能的提高归功于我们能够在更远的距离上减轻雾度,恢复更精细的纹理细节和场景亮度。

局限性。

        下面,我们将讨论我们的非对齐去毛刺框架的局限性。处理浓雾是一个巨大的挑战,因为它使得去噪 CNN 网络难以提取有意义的特征,这主要是因为除了浓雾的存在之外,网络的输入缺乏有用的信息。因此,我们的模型偶尔会在去噪结果中引入伪影。如图 12 所示,红框所示的去毛刺结果不符合我们所期望的质量标准,出现了伪影。

6 结论

        我们为真实世界的图像提出了一个新颖有效的去毛刺框架,该框架使用非对齐监督。该框架利用多尺度参考损失,将去毛刺网络的预测与清晰的非对齐参考图像进行比较。它能从真实世界的环境中收集朦胧/清晰图像对,即使它们并非完全对齐。此外,我们的框架还包括一个 mvSA 网络,该网络使用暗通道先验作为定位指导,以改进对无限空气光平均值和变化的估计。我们的框架通过大量实验证明了其有效性,实验结果表明,该框架在对真实世界图像进行去噪处理方面优于最先进的方法。

        表 5:PhoneHazy 数据集上不同尺度 Lmsr 的比较。

        图 9:mvSA 和 SA 的 A∞、t 和 J 的直观对比。

        图 10:单通道和三通道传输中传输图 t 的比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/27069.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

three.js纹理贴图褪色失真问题解决

网上查的都是加encoding配置,但是最新版本,纹理对象属性名.encoding已经变更为.colorSpace // 纹理贴图加载器 const texLoader new THREE.TextureLoader(); const texture texLoader.load("./test.jpg"); texture.colorSpace THREE.SRGBC…

掌握这招,串口通信高频收发32W数据,0丢包!

我做过挺多串口通讯类的产品,有用485通讯的pdu,有wifi/4G/蓝牙通讯类的网关... 做串口的应用,把串口外设调通只是第一步,串口只是数据传输的媒介,在此基础上,两个设备/器件要进行通信,传递更有意…

nginx 启动报错:Failed to start The nginx HTTP and reverse proxy server.

1,启动 nginx报错 systemctl start nginx[rootlaoban yum.repos.d]# systemctl start nginx Job for nginx.service failed because the control process exited with error code. See "systemctl status nginx.service" and "jetails. [rootlaoban…

react用ECharts实现组织架构图

找到ECharts中路径图。 然后开始爆改。 <div id{org- name} style{{ width: 100%, height: 650, display: flex, justifyContent: center }}></div> // data的数据格式 interface ChartData {name: string;value: number;children: ChartData[]; } const treeDep…

未来之门开启:探索电子墨水屏日历的无界可能

导语: 在科技的浪潮中&#xff0c;一种全新的电子产品正悄然改变我们的生活——电子墨水屏日历。不同于传统日历&#xff0c;它以极简的设计、超低的功耗和无光污染的特性&#xff0c;掀起了一场桌面革命。无需插座&#xff0c;一年一充&#xff0c;便携易用&#xff0c;它是如…

计算机网络 —— 应用层(应用层概述及服务方式)

计算机网络 —— 应用层&#xff08;应用层概述及服务方式&#xff09; 应用层服务方式C/S&#xff08;客户端-服务器&#xff08;C/S&#xff09;模型&#xff09;基本概念特点B/S&#xff08;Browser/Server&#xff09;基本概念特点应用场景 p2p &#xff08;对等网络&#…

【UML用户指南】-13-对高级结构建模-包

目录 1、名称 2、元素 3、可见性 4、引入与引出 用包把建模元素安排成可作为一个组来处理的较大组块。可以控制这些元素的可见性&#xff0c;使一些元素在包外是可见的&#xff0c;而另一些元素要隐藏在包内。也可以用包表示系统体系结构的不同视图。 狗窝并不复杂&#x…

【单片机毕业设计选题24003】-基于STM32和阿里云的家庭安全监测系统

系统功能: 此设计采用STM32单片机采集环境温湿度,烟雾浓度和一氧化碳浓度显示在OLED上&#xff0c;并将这些信息上报至阿里云平台。 1. 上电连接手机热点后自动连接阿里云&#xff0c;可通过阿里云平台收到系统上报的温湿度&#xff0c;烟雾 浓度&#xff0c;一氧化碳数据以…

一个顶级产品经理的自我修养,从掌控AI工具开始

前言 在数字化浪潮的推动下&#xff0c;人工智能&#xff08;AI&#xff09;技术的快速发展正深刻地改变着各行各业的运营模式与竞争格局。产品经理&#xff0c;作为连接用户需求与产品设计之间的桥梁&#xff0c;在这场变革中扮演着至关重要的角色。随着AI技术的广泛应用&…

1. NAS和SAN存储

NAS和SAN存储 一、存储设备1、根据工作方式2、DAS 直接附加存储3、NAS存储4、SAN存储 二、模拟配置SAN存储1、创建虚拟机、安装openfiler2、访问openfiler webUI3、创建RAID设备4、开启iSCSI服务5、配置SAN存储设备共享空间5.1 设置IQN 6、业务服务器连接使用存储6.1 安装客户端…

OceanBase 并行执行参数 parallel_servers_target 理解

为了最大程度降低 PX 使用难度&#xff0c;OceanBase 3.1 版起&#xff0c;parallel_max_servers 参数废弃。 用户只需用好 parallel_servers_target 即可。 target 的用途 用一个酒吧的例子来粗略理解下 parallel_servers_target 的意思&#xff1a; target 先生开了一个酒…

【中科蓝讯BT896X】app.lst、ram.ld、map.txt文件的分析和使用

【中科蓝讯BT896X】app.lst、ram.ld、map.txt文件的分析和使用 测试SDK版本&#xff1a;《SDK_BT896X_S12685_20240314》 文章目录 【中科蓝讯BT896X】app.lst、ram.ld、map.txt文件的分析和使用前言一、app.lst、ram.ld、map.txt文件介绍1.1 app.lst文件1.2 ram.ld文件1.3 map…

【FPGA项目】bin文件ram存取回环测试

&#x1f389;欢迎来到FPGA专栏~bin文件ram存取回环测试 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒&#x1f379; ✨博客主页&#xff1a;小夏与酒的博客 &#x1f388;该系列文章专栏&#xff1a;FPGA学习之旅 文章作者技术和水平有限&#xff0c;如果文中出现错误&#xff0c;希望大…

探秘大数据信用报告:最佳查询方式

大数据信用报告查询方式一般有几种?哪种比较好?在了解这个问题之前&#xff0c;想必你对大数据信用与人行信用的区别都是比较清楚了&#xff0c;本文呢就着重讲一下大数据信用报告查询方式有几种&#xff0c;哪种比较好&#xff0c;感兴趣的朋友不妨一起去看看。 大数据信用报…

跟卖五种常用采集方式,关键词采集升级,更加让新手上手更快!

今天给大家分享一个跟卖选品软件&#xff0c;相信很多卖家都在为选品而苦恼&#xff0c;人工筛选一天也筛选不出几个能用的链接&#xff0c;不仅耗费时间精力&#xff0c;还提升不了选品效率&#xff0c;今天就分享一款实用的选品工具&#xff0c;它能够帮助我们节省选品时间&a…

诊所管理系统哪家会好一点

随着医疗行业的快速发展和信息化进程的加速&#xff0c;诊所作为医疗服务的重要基层单位&#xff0c;其运营管理效率与服务质量的提升愈发依赖于现代化的管理工具。诊所管理系统应运而生&#xff0c;旨在通过集成化、智能化的技术手段&#xff0c;帮助诊所实现诊疗流程优化、资…

Python 显示笔记本电脑的电池状态和百分比

方法一&#xff1a; import psutil import psutil battery psutil.sensors_battery() if battery is None:print("No battery is found.")exit() print (battery) percentagebattery.percent print(f"Battery Percentage: {percentage}%")Battery的信息…

『大模型笔记』缩放定律(scaling laws)是由记忆而非智力解释的吗?

MAC 文章目录 一. 缩放定律(scaling laws)是由记忆而非智力解释的吗?1. 视频原文内容2. 要点总结一般智能的定义规模最大化的论点性能衡量的方式及其影响大语言模型的基准测试大语言模型的本质与记忆基准测试插值的概念与基准测试实例人类和模型的推理与样本效率二. 参考文献一…

期末测试2--函数题---指针链表如何输出?

总结写代码时候遇到的问题 1.遍历指针链表 指针head在做for循环遍历的时候 for&#xff08;head, head!NULL;head&#xff09; head不能 for(head,head!NULL;headhead->next)-------正确的写法 int i; for(ihead;head!NULL;headhead->next) i 是 int 类型的&#x…