计算机视觉——基于改进UNet图像增强算法实现

1. 引言

在低光照条件下进行成像非常具有挑战性,因为光子计数低且存在噪声。高ISO可以用来增加亮度,但它也会放大噪声。后处理,如缩放或直方图拉伸可以应用,但这并不能解决由于光子计数低导致的低信噪比(SNR)。短曝光图像受到噪声的影响,而长曝光可能会引起模糊,通常也不切实际。已经提出了各种去噪、去模糊和增强技术,但在极端条件下,如夜间视频速率成像,它们的有效性是有限的。有物理手段可以增加低光照下的SNR,包括打开光圈、延长曝光时间以及使用闪光灯。但每种方法都有其特有的缺点。例如,增加曝光时间可能会因为相机抖动或物体运动引入模糊。
在这里插入图片描述
为了支持基于学习的低光照图像处理流程的开发,我们正在处理See-in-the-Dark(SID)数据集,它包含原始的短曝光低光照图像,以及相应的长曝光参考图像。使用所呈现的数据集,我们开发了一个处理低光照图像的流程,该流程基于端到端训练的全卷积网络。该网络直接在原始传感器数据上操作,并取代了在这些数据上表现不佳的传统图像处理流程。

原文:https://medium.com/@arijitdey3410/learning-to-see-in-the-dark-using-convolutional-neural-network-4c03766bfd8

2. 现有的经典图像处理技术

2.1图像去噪

图像去噪是低级视觉中一个发展成熟的主题。有一些最先进的方法使用诸如全变分、小波域处理、稀疏编码、核范数最小化和3D变换域滤波(BM3D)等技术。这些方法通常基于特定的图像先验,如平滑性、稀疏性、低秩或自相似性。不幸的是,大多数现有方法已经在合成数据上进行了评估,例如添加了高斯噪声或椒盐噪声的图像。最近一项对真实数据的仔细评估发现,在真实图像上,BM3D的性能超过了更近期的技术。

2.2 低光照图像增强

已经应用了各种技术来增强低光照图像的对比度。一个经典的选择是直方图均衡化,它平衡了整个图像的直方图。另一种广泛使用的技术是伽马校正,它增加了暗区的亮度,同时压缩了亮像素。更先进的方法执行更全局的分析和处理,例如使用逆暗通道先验、小波变换、Retinex模型和照明图估计。

图1:经典图像处理技术
在这里插入图片描述

然而,研究人员还探索了将深度网络应用于去噪,包括堆叠稀疏去噪自编码器(SSDA)、可训练的非线性反应-扩散(TNRD)、多层感知器、深度自编码器和卷积网络。当在特定噪声水平上训练时,这些数据驱动的方法可以与最先进的经典技术如BM3D和稀疏编码相媲美。

3. See-in-the-Dark 数据集

See-in-the-Dark(SID)数据集包含1865张原始短曝光图像,每张图像都有相应的长曝光参考图像。请注意,多个短曝光图像可以对应于同一个长曝光参考图像。例如,我们收集了一系列短曝光图像来评估突发去噪方法。序列中的每张图像都被视为一个独特的低光照图像,因为每张图像都包含真实的成像伪影,并且对于训练和测试都是有用的。SID中不同长曝光参考图像的数量是424。
在这里插入图片描述
该数据集包含室内和室外图像。室外图像通常在夜间捕获,月光或路灯下。室外场景中相机的照度通常在0.2 lux到5 lux之间。室内图像甚至更暗。它们是在关闭房间内,关闭常规灯光,并为此目的设置的微弱间接照明下捕获的。室内场景中相机的照度通常在0.03 lux到0.3 lux之间。

4. 全连接深度学习模型实现

4.1. 流程

为了提升低光照条件下单张图像的直接处理能力,我们设计并构建了一个深度学习网络,该网络采用端到端的学习方式,能够快速处理这类图像。具体而言,我们训练了一个全卷积网络(FCN),来完成整个图像处理的流程。近期的研究表明,纯粹的FCN能够有效地实现众多图像处理算法,这一发现激发了我们的灵感,并促使我们探索这种方法在极低光照成像领域的应用。

经过初步的探索,我们决定专注于两种全卷积网络的通用架构,它们构成了我们流程的核心:一种是最近在快速图像处理中采用的多尺度上下文聚合网络(CAN),另一种是U-Net。尽管其他研究工作探讨了残差连接的应用,但我们在当前的实验设置中并未发现其带来显著益处,这可能是因为我们的输入和输出图像采用了不同的颜色空间。此外,我们还考虑了内存消耗的问题,因此选择了能够在GPU内存中处理全分辨率图像(如4240×2832或6000×4000分辨率)的架构。基于这些考虑,我们避免了使用需要处理小图像块并重新组合的全连接层。最终,我们选择U-Net作为默认的网络架构。

图2:通用U-Net架构
在这里插入图片描述

4.2. 训练

  • 训练策略:网络的训练是从零开始的,这意味着没有使用任何预训练的权重。他们选择了L₁损失函数和Adam优化器来进行网络的优化。
  • 输入与输出:在训练过程中,网络接收的输入是短曝光图像的原始数据,而期望的输出(即地面真实)是相应的长曝光图像。这些长曝光图像通过libraw库处理,libraw是一个专门用于原始图像处理的软件库。
  • 针对不同相机的网络训练:考虑到不同相机可能有不同的成像特性,他们为每个相机分别训练了一个网络。
  • 数据增强:为了提高网络的泛化能力,他们在每次迭代中采用一个256×256像素的图像补丁,并引入了随机翻转和旋转作为数据增强手段。
  • 学习率调整:初始学习率设置得相对较小,为10⁻³。如果在过去的三个周期中学习率保持不变,它会通过乘以一个常数因子0.2来减少,这是一种常见的学习率衰减策略,用于避免陷入局部最小值并加快收敛。
  • 训练周期:标准的训练周期设置为60个epoch,但为了达到更优的性能,训练周期可以延长至100个epoch或者更多。

通过这种训练方法,网络能够学习如何从短曝光的低光照图像中恢复出高质量的视觉效果,以匹配长曝光图像的细节和清晰度。

在这里插入图片描述

5. 实验结果

(a) 经典方法

一旦我们遵循了使用块匹配和3D去噪的经典方法,我们得到了如下的输出:

图4:使用BM3D(块匹配和3D去噪)增强后的输出
在这里插入图片描述
我们通过这种方法获得的PSNR是15.64 dB。

我们还选择了另一种方法,称为使用改进的暗通道和大气散射的图像去雾。输出如下:

图5:图像去雾增强后的输出
在这里插入图片描述
然而,在应用这种方法后,PSNR显著提高(17.10 dB)。

(b) 使用CNN的基于深度学习的方法:

传统方法没有产生更好的暗图像重建,我们可以确定相应的PSNR。然而,使用U-Net架构的最新CNN模型提供了远更好的结果,我们可以在这里观察到。

2个周期后的输出

图6:从左到右:输入短曝光图像,地面真实长曝光图像,预测输出
在这里插入图片描述
10个周期后的输出

图7:从左到右:输入短曝光图像,地面真实长曝光图像,预测输出
在这里插入图片描述
40个周期后的输出
图8:从左到右:输入短曝光图像,地面真实长曝光图像,预测输出
在这里插入图片描述
遵循这种基于深度学习的方法,我们获得:

(a) 平均绝对误差:0.08

(b) PSNR:23.81 dB

我们当然可以推断,在这种情况下,PSNR已经显著提高。

6. 结论

在这种场景中,传统的图像增强方法对于暗图像的效果并不好,而基于深度学习的全连接CNN大大提高了性能。
在这里,我们考虑了See-in-the-Dark(SID)数据集,该数据集是为了支持开发可能实现这种极端成像的数据驱动方法而创建的。使用SID,我们开发了一个简单的流程,改进了对低光照图像的传统处理。所提出的流程基于端到端训练的全卷积网络。
然而,这种分析为进一步的范围和研究开辟了许多机会。我们没有解决HDR色调映射问题。SID数据集的局限性在于不包含人类和动态对象。然而,这种呈现的流程的结果仍然需要完善,并且可以改进。
SID数据集的另一个缺点是处理全分辨率图像的延迟。这将使整个流程在实时处理中显著变慢。然而,可以使用适当的优化技术实时生成低分辨率预览。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11191.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Spring】@ServerEndpoint 与 Spring 是如何集成的

文章目录 前言表象理解后记更多文章 前言 最近工作需要用到 Websocket 协议。好奇来自 Jdk 包的 ServerEndpoint 是如何与 Spring Boot 集成的,特此记录一下结论。 表象 如果要暴露形如 ws://${ip}:${port}/ws 的服务地址,用于websocket 通信&#xf…

STC8增强型单片机开发——串口调试UART

一、什么是串口 串口是一种在数据通讯中广泛使用的通讯接口,通常我们叫做UART (通用异步收发传输器Universal Asynchronous Receiver/Transmitter),其具有数据传输速度稳定、可靠性高、适用范围广等优点。在嵌入式系统中,串口常用于与外部设备…

关于Speech processing Universal PERformance Benchmark (SUPERB)基准测试及衍生版本

Speech processing Universal PERformance Benchmark (SUPERB)是由台湾大学、麻省理工大学,卡耐基梅隆大学和 Meta 公司联合提出的评测数据集,其中包含了13项语音理解任务,旨在全面评估模型在语音处理领域的表现。这些…

基于深度学习神经网络的AI图像PSD去雾系统源码

第一步:PSD介绍 以往的研究主要集中在具有合成模糊图像的训练模型上,当模型用于真实世界的模糊图像时,会导致性能下降。 为了解决上述问题,提高去雾的泛化性能,作者提出了一种Principled Synthetic-to-real Dehazing (…

Windows 跨服务器进行 MYSQL备份脚本

Windows 服务器进行 MYSQL备份的脚本,使用该脚本前,请先测试一下 1、新建一个文本文档 2、将下面代码放入文本文档中,保存退出 echo off :: 命令窗口名 title mysql-bak:: 参数定义 set "Y%date:~,4%" set "m%date:~5,2%&qu…

【计算机网络篇】数据链路层(9)使用集线器的共享式以太网

文章目录 🛸使用同轴电缆的共享总线以太网 🎆使用集线器的共享式以太网🥚集线器的特点 🍔10BASE-T星型以太网 🛸使用同轴电缆的共享总线以太网 若总线上的某个机械连接点接触不良或断开,则整个网络通信就不…

Nginx part3 创建一个https的网站

目录 HTTPS 公钥和密钥 加密解密方式: https搭建步骤 强调一下 1、准备环境 2、配置文件 3、制作证书 4、进行设置 HTTPS 啥是https,根据百度:HTTPS (全称:Hypertext Transfer Protocol Secure)&a…

HCIE学习笔记----OSPF详解

OSPF邻居建立的条件 OSPF建立邻居“41”条件总结 4个一致 一个不一致 1.保证接口的前缀 网络信息一致 2.保证ospf区域号和区域类型一致 3.hello包间隔时间和死亡时间一致 4.认证类型和认证认证信息一致 5.路由器的ID不一致 保证唯一性 一-----OSPF 邻接关系建立过程与状…

耦合协调分析模型

耦合协调分析模型(Coupling Coordination Analysis Model)是一种用于评估两个或多个系统之间相互作用和协调性的数学模型。广泛应用于多个领域,包括但不限于社会科学、经济学、环境科学和工程学。耦合协调分析模型的核心在于量化系统间的耦合…

本地项目上传到gitee

1. 新建仓库,不要勾选 2. git init git add . git commit -m "test" git remote add origin 【url】 git push --set-upstream origin master

MySQL·索引

目录 索引的意义 索引的理解 为何IO交互要是 Page 理解Page 其他数据结构为何不行? 聚簇索引 VS 非聚簇索引 索引操作 主键索引操作 唯一键索引操作 普通索引的创建 总结 全文索引 索引的意义 索引:提高数据库的性能,索引是物美…

css backdrop-filter 实现背景滤镜

官方给出的定义是:backdrop-filter属性允许您将图形效果(如模糊或颜色偏移)应用于元素后面的区域。因为它适用于元素后面的所有内容,所以要查看元素或其背景的效果,需要透明或部分透明。 大致分为以下10种&#xff1a…

云计算十三课

centos安装 点击左上角文件 点击新建虚拟机 点击下一步 点击稍后安装操作系统,下一步 选择Linux(l)下一步 设置虚拟机名称 点击浏览选择安装位置 新建文件夹设置名称不能为中文,点击确定 点击下一步 设置磁盘大小点击下一步…

rust开发web服务器框架,github排名对比

Rocket Star最多的框架 github仓库地址:GitHub - rwf2/Rocket: A web framework for Rust. Rocket 是一个针对 Rust 的异步 Web 框架,重点关注可用性、安全性、可扩展性和速度。 Axum 异步运行时 githuh仓库地址:GitHub - tokio-rs/axum: …

高精度原理介绍及代码实现

目录 高精度 引入 使用场景 实现原理 高精度加法 数据存储 加法实现 总代码 高精度减法 与加法的不同点: 总代码 高精度乘法 总代码 高精度除法 总结 总注意点 减法注意点 高精度 引入 所谓高精度并不是很高级难懂的东西,只是对传统的…

【C++】多态(上)超详细

封装,继承,多态不只是C的三大特性,而是面向对象编程的三大特性。 什么是多态: 不同的对象做同一件事情,结果会出现多种形态。 1.满足多态的几个条件 1.父子类完成虚函数重写(需要满足三同:函…

VP Codeforces Round 944 (Div 4)

感受&#xff1a; A~G 其实都不难&#xff0c;都可以试着补起来。 H看到矩阵就放弃了。 A题&#xff1a; 思路&#xff1a; 打开编译器 代码&#xff1a; #include <iostream> #include <vector> #include <algorithm> #define int long long using na…

Windows Docker 使用 httpd 部署静态 Web 站点

一、简介 httpd 是 Apache超文本传输协议&#xff08;HTTP&#xff09;服务器的主程序&#xff0c;是一个独立运行的后台进程&#xff0c;专门负责处理 HTTP 请求。它通过建立子进程或线程的池来高效管理请求&#xff0c;确保服务器能够迅速响应客户端的需求。httpd 因其高效率…

MySQL查询篇-聚合函数-窗口函数

文章目录 distinct 关键字聚合函数常见的聚合函数group by和having 分组过滤 窗口函数with as窗口聚合函数排名窗口函数值窗口函数 distinct 关键字 distinct 去重数据&#xff0c;ps:null值也会查出来 select distinct column from table;聚合函数 常见的聚合函数 select …

[AutoSar]BSW_Diagnostic_002 DCM模块介绍

目录 关键词平台说明背景一、DCM所处架构位置二、DCM 与其他模块的交互三、DCM 的功能四、DCM的内部子模块4.1 Diagnostic Session Layer (DSL)4.1 DSL 与其他模块的交互 4.2 Diagnostic Service Dispatcher (DSD)4.3 Diagnostic Service Processing (DSP)4.4 小结 关键词 嵌入…