【传知代码】从零开始搭建图像去雾神经网络-论文复现

文章目录

  • 概述
  • 原理介绍
    • 网络结构
  • 核心逻辑
    • 迁移学习子网
    • 数据拟合子网
  • 环境配置
    • 训练本次复现代码所用数据集
    • 测试本次复现代码所用的评价指标
  • 结果展示
    • 在O-Haze数据集上的结果
    • 在I-Haze数据集上的结果
  • 小结

本文涉及的源码可从从零开始搭建图像去雾神经网络该文章下方附件获取

本文复现了一种简单而有效的基于集成学习的双分支非均匀去雾神经网络。该方法使用一个双分支神经网络分别处理上述问题,然后通过一个可学习的融合尾映射它们的不同特征。
论文地址:https://arxiv.org/pdf/2104.08902.pdf

概述

图像去雾神经网络的应用范围相当广泛:

  1. 交通和安全领域:在交通监控和自动驾驶系统中,清晰的图像对于准确识别和判断道路和交通状况至关重要。然而,由于雾霾的存在,图像质量下降,给交通监控和自动驾驶系统带来了困难。图像去雾技术可以应用于这些领域,提高交通监控和自动驾驶系统的可靠性和安全性。
  2. 航海领域:在雾霾天气下,船舶航行的安全性会受到严重影响。图像去雾技术可以提高船舶雾霾天气下入港效率,保障航行安全。
  3. 目标跟踪领域:在目标跟踪系统中,往往要求有较为清晰的输入。图像去雾技术可以在雾霾天气条件下为这些系统提供依旧清晰的输入,保证这类系统的正常识别跟踪。

原理介绍

网络结构

基于集成学习的双分支非均质去雾网络由两个子网络组成,即迁移学习子网和数据拟合子网。每个子网有着特定的目的:迁移学习子网利用预先训练的权重从输入图像中提取鲁棒全局表示;数据拟合子网对当前数据进行处理。融合层采用这两个子网络的级联特征图,并输出无雾图像。

在这里插入图片描述

核心逻辑

迁移学习子网

迁移学习子网是一个编码器-解码器结构的网络。该子网络使用Res2Net作为编码器,因为它在分类任务上有很好的性能。具体来说,在编码器中,该网络只使用了Res2Net的前端部分,没有使用全连接层。Res2Net由ResNet改进,传统的ResNet是一个瓶颈结构,由1×1、3×3、1×1的三层不同大小的卷积层组成。Res2Net为了能够在残差模块中实现多尺度多通道,将中间的3×3模块由Bottle2neck实现。
Bottle2neck的实现代码如下,首先通过torch.split拆分特征向量,除了第一个分支经过卷积之外,拆出来的每个分支通过3x3的卷积之后与下一个分支进行拼接之后分两步,一步保存继续,一步再与下一个分支做拼接。将一个3×3卷积层替换为对每个拆分的通道的3×3卷积使得该模块在不增加额外参数量的同时,泛化性能增强。

​```class Bottle2neck(nn.Module):expansion = 4def __init__(self, inplanes, planes, stride=1, downsample=None, baseWidth=26, scale=4, stype='normal'):super(Bottle2neck, self).__init__()width = int(math.floor(planes * (baseWidth / 64.0)))self.conv1 = nn.Conv2d(inplanes, width * scale, kernel_size=1, bias=False)self.bn1 = nn.BatchNorm2d(width * scale)if scale == 1:self.nums = 1else:self.nums = scale - 1if stype == 'stage':self.pool = nn.AvgPool2d(kernel_size=3, stride=stride, padding=1)convs = []bns = []for i in range(self.nums):convs.append(nn.Conv2d(width, width, kernel_size=3, stride=stride, padding=1, bias=False))bns.append(nn.BatchNorm2d(width))self.convs = nn.ModuleList(convs)self.bns = nn.ModuleList(bns)self.conv3 = nn.Conv2d(width * scale, planes * self.expansion, kernel_size=1, bias=False)self.bn3 = nn.BatchNorm2d(planes * self.expansion)self.relu = nn.ReLU(inplace=True)self.downsample = downsampleself.stype = stypeself.scale = scaleself.width = widthdef forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)spx = torch.split(out, self.width, 1)for i in range(self.nums):if i == 0 or self.stype == 'stage':sp = spx[i]else:sp = sp + spx[i]sp = self.convs[i](sp)sp = self.relu(self.bns[i](sp))if i == 0:out = spelse:out = torch.cat((out, sp), 1)if self.scale != 1 and self.stype == 'normal':out = torch.cat((out, spx[self.nums]), 1)elif self.scale != 1 and self.stype == 'stage':out = torch.cat((out, self.pool(spx[self.nums])), 1)out = self.conv3(out)out = self.bn3(out)if self.downsample is not None:residual = self.downsample(x)out += residualout = self.relu(out)return out

此外,该网络采用了由通道注意力模块(CA)和像素注意力模块(PA)组成的特征注意作为注意力模块,插入在网络的高维部分以提取图像的结构特征和细节特征。
通道注意力CA的代码如下:
解码器部分,该网络使用用于图像超分辨率恢复的Pixel Shuffle作为该子网中的上采样模块。该模块可以将低分辨的特征图,通过卷积和多通道间的重组得到高分辨率的特征图,在实现时可以直接使用torch库中的nn.PixelShuffle函数,代码如下。
该网络受enhanced pix2pix dehazing network (EPDN)的启发,使用。在训练阶段,在特征进入融合层之前引入了一个增强模块。该模块使用了DCPDN中的金字塔池化模块,以两个3×3的卷积层作为开端,输出结果经平均池化层下采样为4×、8×、16×和32×四个不同尺寸的特征图。不同尺度的特征图提供不同的感受野,帮助图像在不同尺度上重建图像。之后,不同尺度的特征图由1×1卷积层进行降维并恢复到与原始图像尺寸相同的大小,最后与开端卷积层的输出进行拼接,作为最后3×3卷积层的输入。该模块将不同尺度的特征细节融入到最终的结果,起到对恢复的图像特征进行保持增强的作用。该模块的代码如下。

​```class Enhancer(nn.Module):def __init__(self, in_channels, out_channels):super(Enhancer, self).__init__()self.relu = nn.LeakyReLU(0.2, inplace=True)self.tanh = nn.Tanh()self.refine1 = nn.Conv2d(in_channels, 20, kernel_size=3, stride=1, padding=1)self.refine2 = nn.Conv2d(20, 20, kernel_size=3, stride=1, padding=1)self.conv1010 = nn.Conv2d(20, 1, kernel_size=1, stride=1, padding=0)self.conv1020 = nn.Conv2d(20, 1, kernel_size=1, stride=1, padding=0)self.conv1030 = nn.Conv2d(20, 1, kernel_size=1, stride=1, padding=0)self.conv1040 = nn.Conv2d(20, 1, kernel_size=1, stride=1, padding=0)self.refine3 = nn.Conv2d(20 + 4, out_channels, kernel_size=3, stride=1, padding=1)#self.upsample = F.upsample_nearestself.upsample=F.interpolateself.batch1 = nn.InstanceNorm2d(100, affine=True)def forward(self, x):dehaze = self.relu((self.refine1(x)))dehaze = self.relu((self.refine2(dehaze)))shape_out = dehaze.data.size()shape_out = shape_out[2:4]x101 = F.avg_pool2d(dehaze, 32)x102 = F.avg_pool2d(dehaze, 16)x103 = F.avg_pool2d(dehaze, 8)x104 = F.avg_pool2d(dehaze, 4)x1010 = self.upsample(self.relu(self.conv1010(x101)), size=shape_out)x1020 = self.upsample(self.relu(self.conv1020(x102)), size=shape_out)x1030 = self.upsample(self.relu(self.conv1030(x103)), size=shape_out)x1040 = self.upsample(self.relu(self.conv1040(x104)), size=shape_out)dehaze = torch.cat((x1010, x1020, x1030, x1040, dehaze), 1)dehaze = self.tanh(self.refine3(dehaze))return dehaze

总览整个迁移子网络,编码器模块加载比随机初始化参数的模型更具鲁棒性的ImageNet[作为预训练参数,但由于其仅使用了Res2net的前端部分,容易使网络丢失恢复图像细节的重要信息。为了改善该问题,本方法建立了第二个子网——数据拟合子网。

数据拟合子网

数据拟合子网由多个残差注意力模块组成,每个残差注意力模块由卷积层和通道注意力组成。对于残差注意力模块的实现如下所示,通道注意力模块有两条分支,一条负责提取不同的通道特征,另一条负责生成特征权重,最后将两个结果进行融合得到通道特征权重。通道注意力的使用突出了显著特征,增强了模型对数据的拟合能力。

​```class Residual_CA(nn.Module):def __init__(self, channels):super(Residual_CA, self).__init__()self.PointWise = nn.Conv2d(channels, channels, 1)self.RELU = nn.ReLU()self.GlobalPlooling = nn.AvgPool2d(1)self.sigmoid = nn.Sigmoid()def forward(self, x):out1 = self.PointWise(x)out1 = self.RELU(out1)out1 = self.PointWise(out1)out2 = self.GlobalPlooling(out1)out2 = self.PointWise(out2)out2 = self.RELU(out2)out2 = self.PointWise(out2)out2 = self.sigmoid(out2)out = out1 * out2out = x + outreturn out

该网络为了防止梯度下降,还在不同的模块之间使用了跳跃连接。为了保留细致的特征,该子网没有使用下采样和上采样操作。这些获得的细节特征可以看作是对迁移学习子网特性的补充。由于数据拟合子网络是从零开始训练的,并且是基于全分辨率目的构建的,因此它将适合数据并提取更多指定的特征且有着优秀的拟合能力。但同时,更容易遇到过拟合问题。因此,为了改善该数据拟合子网的过拟合问题,建立迁移学习分支的作用是不可忽视的。
##融合尾
该网络的融合尾使用集成的方法产生最终的输出。具体来说,融合尾从两个分支获取特征的拼接,然后学习映射这些特征来恢复图像。融合尾由一个卷积层和一个双曲切线激活函数(Tanh)组成。该模块之所以只采用单一的卷积运算,是因为这两个分支已经为恢复清晰的图像提供了充分而鲜明的特征。相比之下,过多的融合尾会影响方法的整体泛化能力,导致性能下降。整个双分支网络的整体代码如下。

环境配置

使用Pytorch1.12和一台24GB RTX 3090 GPU来实现所有的实验。在所有的实验中,采用平滑L1损失和MS-SSIM损失作为模型的损失函数。选择ADAM优化器作为优化算法,并设置学习率为0.0001,批次大小为1。在训练过程中,降低学习率,每100个epochs降低25%。在训练过程中为了测试模型的普适性,对不同的数据集选取不同的图像大小。

训练本次复现代码所用数据集

O-Haze和I-Haze数据集是由专业雾霾机生成的真实雾霾分别在户外和室内拍摄的图像,。NH-Haze数据集是CVPR-NTRIRE2020竞赛中去雾赛道使用的数据集,具体的组成将在表1详细介绍。为了验证我们网络的鲁棒性,我们选取O-Haze的前40对有雾/无雾图像对、I-Haze的前30对有雾/无雾图像对、NH-Haze的前50对有雾/无雾图像对分别作为训练数据集。剩余有雾/无雾图像对分别作为测试数据集以验证结果。

数据集图片数量真实\合成室内\室外
O-Haze45真实室外
I-Haze35真实室内
NH-Haze55真实室外

测试本次复现代码所用的评价指标

为了评价所提出的模型及方法,本文使用常用的峰值信噪比(PSNR)和结构相似度指数(SSIM)来评价模型的性能。其中,PSNR或SSIM值越高,代表恢复的效果越好。均使用均值的形式处理测试集实验结果。

结果展示

在O-Haze数据集上的结果

在这里插入图片描述

由图中的PSNR和SSIM值所示,本文方法在O-Haze数据集上表现稳定,在训练200次的时候便接近收敛,收敛速度较快;在训练300次时取得最好的模型,PSNR达到19.38,SSIM达到0.67。在剩余的1700次训练中,PSNR基本稳定在19.25左右,SSIM基本稳定在0.66左右。

在这里插入图片描述

本文方法在300次训练出的模型在O-Haze[测试集上的测试结果如图3所示,第一列是原始有雾图像,第二列是本文方法的去雾结果,第三列是真实无雾图像。可以发现,本文方法得到的恢复图像对比原始有雾图像几乎没有雾霾残留,去雾效果明显。但对比真实无雾图像,可以发现,本文方法得到的恢复图像存在细节模糊,色调昏暗的缺点,饱和度较低。
综上,本文方法在O-Haze数据集上虽然能够快速收敛并表现稳定,但由于边缘模糊,色彩饱和度较低使得恢复的图像缺失愉悦的视觉感受。

在I-Haze数据集上的结果

同样,在I-Haze数据集中,选择了前30对图像用以2000次的网络训练,每100次生成一个模型。生成的20个模型在I-Haze的剩余5对图像上的测试结果如图所示。由图可以发现,在I-Haze数据集上,其收敛速度快于O-Haze数据集,仅训练了100次便趋向拟合,仅训练200次便得到最优模型,PSNR达18.71,SSIM达0.71。在之后的1800次训练中,其PSNR稳定在18.60左右,SSIM稳定在0.71左右。

在这里插入图片描述

下图展示了本文方法训练得到的最优模型在I-Haze测试集上的结果,其中,第一列是原始有雾图像,第二列是本文方法的去雾结果,第三列是真实无雾图像。将本文方法的去雾结果对比原始有雾图像可以发现,本文方法能够有效的去除室内的均匀雾霾,但对白色区域的恢复效果不理想。对比真实无雾图像可以发现,本文方法恢复的图像与原图还有较大差距,有着与在O-Haze数据集上的模型相同的缺点。对于均匀雾霾室内场景下物体边缘及整体色彩的恢复表现较差。

在这里插入图片描述

小结

图像去雾神经网络在图像处理领域具有重要意义,主要体现在以下几个方面:

  1. 提升图像质量:雾天拍摄的图像通常存在对比度低、细节模糊、颜色失真等问题,这严重影响了图像中目标物体的可见性和可识别性。图像去雾神经网络能够有效地改善这些问题,通过去除或减轻图像中的雾气,提高图像的整体对比度和亮度,使原本被遮蔽的物体细节得以显现,从而提升图像质量。
  2. 提高目标检测准确性:在自动驾驶、视频监控、遥感探测等领域,目标检测的准确性直接影响着系统的可靠性和安全性。经过去雾处理的图像,能够让目标检测模型在不利天气条件下保持甚至提高原有的检测精度,避免因图像质量下降而导致的误检或漏检。
  3. 增强特征提取:目标检测算法通常依赖于从图像中提取有效的特征,例如边缘、纹理、颜色和形状等。去雾后的图像,其特征更为鲜明,有利于卷积神经网络(CNN)等深度学习模型更准确地捕获和学习目标物体的关键特征,从而提升检测的准确性。
  4. 提高鲁棒性:通过集成图像去雾模块,可以在前端图像预处理阶段就改善输入到目标检测模型的数据质量,增强了整个视觉系统的鲁棒性,使其能够在各种复杂的气象环境中稳定、高效地工作。
  5. 扩大应用场景:图像去雾技术不仅限于提高目标检测准确性,还可以应用于其他领域,如医学影像分析、遥感图像处理、安防监控等。在这些领域,图像去雾技术同样能够提升图像质量,帮助人们更准确地获取和分析图像中的信息。

图像去雾神经网络对于提升图像质量、提高目标检测准确性、增强特征提取、提高鲁棒性以及扩大应用场景等方面都具有重要意义。随着深度学习技术的不断发展,图像去雾神经网络将在更多领域发挥重要作用。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/13610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

tomcat--应用部署

tomcat根目录结构 Tomcat中默认网站根目录是/usr/local/apache-tomcat-8.5.100/webapps/在Tomcat的webapps目录中,有个非常特殊的目录ROOT,它就是网站默认根目录。将eshop解压后的文件放到这个/usr/local/apache-tomcat-8.5.100/webapps/ROOT中。bbs解压…

Git简单理解

Git 概述 Git 是一个免费的开源的,分布式版本控制系统,可以快速高效的处理从小型到大型的各种项目 Git占地面积小,性能极快,具有廉价的本地库,方便的暂存区和多个工作流分支等特性 版本控制 版本控制是一种记录文件…

低耦合双写一致性方案-使用canal+MQ

需求:继上一篇使用xxljob实现数据的全量同步到es后,当数据库中新增、删除、修改数据时,应该对es中的对应索引库实现增量同步。 本文介绍了2种双写一致性方案,对其中使用MQ的方案进行了实现。 1. 方案设计 1.1 数据一致性问题分析…

2024.5.21欧洲商会网络安全大会(上海)

本次安策将将参加超越 2024 年网络安全大会:驾驭数字前沿大会(上海),2024年5月21日,期待和欢迎新老朋友在大会上会面和交流。 时间 2024-05-21 |14:00 - 16:30 场地: 上海瑞士大酒店 地址: 3rd Floor, Davo…

iOS 17.5 release notes

文章目录 iOS 17.5 更新恢复了多年前删除的一些图片新增彩虹壁纸欧盟用户可直接从网站下载应用新增了追踪通知改进 Apple News图书应用"阅读目标"设计更新颜色匹配的播客小部件Web浏览器安全权限的访问下一代“Beats Pill”扬声器在iOS 17.5代码中得到确认店内Vision…

【C++】 单例设计模式的讲解

前言 在我们的学习中不免会遇到一些要设计一些特殊的类,要求这些类只能在内存中特定的位置创建对象,这就需要我们对类进行一些特殊的处理,那我们该如何解决呢? 目录 1. 特殊类的设计1.1 设计一个类,不能被拷贝&#xf…

Android Studio 与 Gradle 及插件版本兼容性

Android Studio 开始新项目时,会自动创建其中部分文件,并为其填充合理的默认值。 项目文件结构布局: 一、Android Gradle 及插件作用: Android Studio 构建系统以 Gradle 为基础,并且 Android Gradle 插件 (AGP) 添加…

代码随想录阅读笔记-动态规划【不同路径 II】

题目 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为“Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为“Finish”)。 现在考虑网格中有障碍物。那么从左上角到右…

全球视频会议软件巨头Zoom,率先引入后量子端到端加密

5月21日,Zoom Video Communications公司宣布,后量子端到端加密(E2EE)现已面向全球推出,适用于Zoom Workplace。目前,Zoom已将该功能加入Zoom Meetings,稍后将扩展至Zoom Phone和Zoom Rooms。 图…

视频批量裁剪助手:一键式高效缩小视频尺寸,极速提升工作效率的必备神器!

视频已经成为我们日常生活和工作中不可或缺的一部分。无论是个人vlog、企业宣传片,还是教学视频、广告素材,视频都承载着大量的信息和情感。然而,很多时候,我们手中的视频尺寸并不符合我们的需求,这时,一款…

He3DB MySQL计算下推优化设计

前言 计算下推是数据库优化器优化查询性能的一种常见手段,早期的数据库系统提及的计算下推一般是指谓词下推,其 理论源自关系代数理论。 2000 年以后,随着 Oracle RAC 的盛行以及一众开源分布式数据库的崛起,存算分离的概 念逐步…

k8s 声明式资源管理

一、资源配置清单的管理 1.1 查看资源配置清单 声明式管理方法: 1.适合于对资源的修改操作 2.声明式资源管理方法依赖于资源配置清单文件对资源进行管理 资源配置清单文件有两种格式:yaml(人性化,易读),j…

Flink 调度源码分析4:Physical Slot 分配过程

Flink 调度源码分析1:拓扑图创建与提交过程 Flink 调度源码分析2:调度过程 Flink 调度源码分析3:Shared Slot 分配策略 Flink 调度源码分析4:Physical Slot 分配过程 1 整体过程 在 SlotSharingExecutionSlotAllocator.allocate…

【EXCEL_VBA_实战】两组数据比对是否一致(字符串数组)

工作背景:比对两组数据是否一致(位置非一一对应) 思路构建:两组数据转换为两组字符串数组,比对所包含元素是否相同 问题点:A数组的第一个元素不一定与B数组的第一个元素对应,此时无法通过公式…

es数据备份和迁移Elasticsearch

Elasticsearch数据备份与恢复 前提 # 注意: 1.在进行本地备份时使用--type需要备份索引和数据(mapping,data) 2.在将数据备份到另外一台ES节点时需要比本地备份多备份一种数据类型(analyzer,mapping,data,template) …

岛屿问题刷题

200. 岛屿数量 - 力扣&#xff08;LeetCode&#xff09; class Solution {public int numIslands(char[][] grid) {int n grid.length;//grid行数int m grid[0].length;//grid列数int res 0;for(int r 0;r<n;r){for(int c0;c<m;c){if(grid[r][c]1){dfs(grid,r,c);res…

分布式异步框架celery + Redis 安装配置

引入 这里不对web框架做过多说明&#xff0c;到时候在总结一篇 python的常见web框架 django、flask、tornado、sanic、fastapi..各框架区别 - 内部集成功能的多少 django&#xff0c;内部提供了很多组件。 【相对大】flask、tornado、sanic、fastapi… 本身自己功能很少第…

java集合类详解

目录 1、数组导入&#xff1a; 2、单列集合 List接口 1、ArrayList&#xff1a;数组列表 ArrayList类中的方法 2、LinkedList&#xff1a;链表列表 3、Vector&#xff1a;数组列表 4、list集合的遍历 1、for循环遍历 2、增强for循环 3、迭代器遍历 Set接口 1、Has…

data studio连接到虚拟机上的openGauss

参考&#xff1a;使用DataStudio连接本地虚拟机中的opengauss数据库_big data_白日梦想家_胖七七-华为云开发者联盟 本实验虚拟机安装的是CentOS7 数据库版本是&#xff1a;openGauss-5.0.2-CentOS-64bit-all.tar.gz 1.配置pg_hba.conf 首先使用su - omm登录到omm用户&…

MySQL数据库,创建表及其插入数据和查询数据

首先&#xff0c;由上图创建表 mysql> create table worker( -> dept_id int(11) not null, -> emp_id int (11) not null, -> work_time date not null, -> salary float(8,2) not null, -> poli_face varchar(10) not null default 群众, -> name…