30、论文阅读:基于小波的傅里叶信息交互与频率扩散调整的水下图像恢复

Wavelet-based Fourier Information Interaction with Frequency Diffusion Adjustment for Underwater Image Restoration

  • 摘要
  • 介绍
  • 相关工作
    • 水下图像增强
    • 扩散模型
  • 论文方法
    • 整体架构
    • 离散小波变换与傅里叶变换
    • 频率初步增强
      • Wide Transformer Block
      • Spatial-Frequency Fusion Block
      • 损失函数
    • Cross-Frequency Conditioner
  • Frequency Diffusion Adjustment

摘要

水下图像受到复杂多样的退化,不可避免地影响水下视觉任务的有效性。然而,大多数方法主要是在图像的原始像素空间中运行,这限制了对水下图像频率特性的探索,导致深度模型在产生高质量图像时没有充分利用其表征能力。在本文中,我们介绍了一种新的水下图像增强(UIE)框架,命名为WF-Diff,旨在充分利用频域信息和扩散模型的特性WF-Diff由两个可分离的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调整模块(FR-DAM)。通过对频域信息的充分探索,WFI2-net旨在初步实现小波空间中频率信息的增强。我们提出的FRDAM可以进一步细化初始增强图像的高频和低频信息,可以将其视为一个即插即用的通用模块,用于调整水下图像的细节。通过上述技术,我们的算法可以在真实的水下图像数据集上显示SOTA性能,并在视觉质量上达到具有竞争力的性能。代码可https://github.com/zhihefang/WF-Diff上获得。

介绍

水下图像修复是水下视觉领域中的一项实际而具有挑战性的技术,广泛应用于水下机器人[26]和水下物体追踪[6]等任务。由于水下场景中的光线折射、吸收和散射,水下图像通常受到严重的失真,表现为低对比度和模糊[2]。因此,清晰的水下图像在需要与水下环境互动的领域中起着至关重要的作用。水下图像增强(UIE)的主要目标是通过去除散射和校正退化图像中的颜色失真,从而获得高质量的图像。UIE对于与视觉相关的水下任务至关重要。

为了应对这一问题,基于水下图像物理特性的传统UIE方法被提出[15, 17, 29–31]。这些方法研究了由颜色偏差或散射引起的退化的物理机制,并通过补偿这些因素来增强水下图像。然而,这些基于物理学的模型由于表征能力有限,无法处理水下场景中所有复杂的物理和光学因素,从而导致在高度复杂和多样的水下场景中增强效果较差。近年来,一些基于学习的方法[7, 18, 28, 36]因其神经网络强大的特征表示和非线性映射能力,能够产生更好的结果。这些方法可以通过大量的配对训练数据学习图像从退化到清晰的映射。然而,大多数之前的方法都是基于图像的原始像素空间,未能充分探索水下图像在频率空间中的特性,这导致无法有效地利用深度模型的表示能力来生成高质量的图像。

在这里插入图片描述
【图1. 我们的动机。幅度和相位是通过快速傅里叶变换(FFT)得到的,重新组合的图像是通过逆傅里叶变换(IFFT)获得的。我们进一步探索了水下图像在小波空间中的频率特性。】

基于之前傅里叶方法的启示[12, 48],我们探索了傅里叶频率信息在UIE任务中的特性,如图1所示。给定两张图像(一个水下图像及其对应的地面真值图像),我们交换它们的幅度分量并将其与对应的相位分量在傅里叶空间中结合。重新组合的结果表明,视觉效果随着幅度交换而发生变化,这表明水下图像的退化信息主要包含在幅度分量中。我们进一步探索了幅度分量在小波空间中的特性。具体来说,图像可以通过离散小波变换(DWT)分解为低频子图像和高频子图像,然后我们交换低频子图像的幅度分量。从视觉结果来看,我们发现了类似的现象,这意味着颜色退化信息主要包含在低频子图像中,而纹理和细节退化信息主要包含在高频子图像中。表1展示了不同频域策略的定量评估,证明了我们的发现是客观的。因此,如何充分利用频域信息的特性,并将其有效地融入到一个统一的图像增强网络中,是一个关键问题。

近年来,基于扩散的方法[10, 35]因其在图像合成[23, 24, 32, 34, 52]和修复任务[5, 40, 46, 51]中的优异表现而受到广泛关注。这些方法依赖于分层去噪自编码器架构,使得它们能够迭代地逆转扩散过程,从随机采样的高斯噪声生成目标图像或潜在分布,并实现高质量的映射[10]。Tang等人[36]提出了一种用于水下场景的扩散模型图像增强方法。尽管标准扩散模型表现出足够的能力,但由于从随机生成的高斯噪声到图像的采样过程中引入的多样性,可能会出现一些预料之外的伪影[45]。此外,扩散模型需要同时恢复图像的高频和低频信息,这限制了它们对细粒度信息的关注,导致错过了纹理和细节。因此,充分利用扩散模型强大的表示能力变得尤为关键。

在本文中,我们开发了一种新的水下图像增强(UIE)框架,充分利用频域信息和扩散模型的特性,命名为 WF-Diff,该框架主要由两个阶段组成:频率初步增强和频率扩散调整第一个阶段旨在利用频域特性,初步增强水下图像的高频和低频分量。具体来说,我们首先通过离散小波变换(DWT)将输入图像转换到小波空间,得到一个代表输入图像低频内容信息的平均系数,以及三个代表输入图像稀疏的垂直、水平和对角线细节的高频系数。然后,我们设计了一个基于小波的傅里叶信息交互网络(WFI2-net),充分融合了Transformer [22] 和傅里叶先验信息的特性,分别增强高频和低频内容此外,为了实现高频和低频信息的交互,我们提出了一个跨频条件器(CFC),进一步提高生成质量第二阶段的目标是通过扩散模型对初步增强的粗略结果在细节和纹理上进行调整因此,我们提出了一个频率残差扩散调整模块(FRDAM)与之前的基于扩散的工作不同,FRDAM通过在小波空间中使用两个扩散模型,学习地面真值和初步增强结果之间的高频和低频信息残差分布,既能增强模型对细粒度信息的关注,又能减轻采样过程中多样性带来的不良影响。

总之,我们方法的主要贡献如下:

  • 我们深入探索了水下图像在频域中的特性。基于这些特性和扩散模型,我们提出了一个新的UIE框架——WF-Diff,旨在实现频率增强和扩散调整。
  • 我们提出了一个频率残差扩散调整模块(FRDAM),进一步优化初步增强图像的高频和低频信息。FRDAM可以视为一个即插即用的通用模块,用于调整水下图像的细节。
  • 我们提出了一个跨频条件器(CFC),以实现高频和低频信息的跨频交互。
  • 与现有的最先进方法(SOTA)相比,实验结果显著表明,我们提出的WF-Diff在性能上优于之前的UIE方法,并且通过广泛的消融实验验证了我们贡献的有效性。

相关工作

水下图像增强

目前,现有的水下图像去雾(UID)方法可以简要地分为物理模型和深度模型两种方法[15, 18, 28–30, 36]。大多数基于物理模型的UID方法利用先验知识来建立模型,如水下暗通道先验[29]、衰减曲线先验[38]、模糊先验[4]等。此外,Akkaynak和Treibitz[1]提出了一种基于修订物理成像模型的方法。然而,水下场景的深度图难以获取,这导致了不稳定的性能,通常受到严重的颜色偏差和伪影的影响。因此,手动建立的先验模型限制了模型在复杂多变的环境下的鲁棒性和可扩展性。

近年来,基于深度学习的方法[18, 28, 36]已取得了较为可接受的性能。为了缓解对真实水下配对训练数据的需求,许多方法引入了基于GAN的框架进行水下图像增强(UIE)[7, 14, 21, 49],例如WaterGAN [21]、UGAN [7]和UIE-DAL [37]。最近,一些复杂的框架被提出并取得了最先进的性能[15, 29]。例如,Ucolor[19]结合了水下物理成像模型,并设计了一个中介传输引导模型。Yang等人[43]提出了一种反射光感知的多尺度渐进修复网络,用于在各种水下场景中获得颜色均衡和丰富纹理的图像。Huang等人[13]提出了一种基于均值教师的半监督网络,能够有效地利用未标注数据中的知识。然而,大多数之前的方法都是基于空间域,未能充分探索水下图像的频率空间,这导致无法有效地利用深度模型的表示能力。

扩散模型

最近,扩散概率模型(DPMs)[10, 35]已广泛应用于条件图像生成[5, 40, 42, 46, 50]。Saharia等人[33]提出了Palette,展示了扩散模型在条件图像生成领域(包括上色、图像修补和JPEG修复)中的优异性能。Tang等人[36]提出了一种基于扩散模型的水下图像增强方法。然而,扩散模型的反向过程从随机采样的高斯噪声开始,生成完整的图像[45],由于采样过程的多样性,这可能导致意外的伪影。此外,扩散模型需要恢复图像中的高频和低频信息,这限制了其在关注细粒度信息方面的能力。因此,如何将扩散模型融入一个统一的水下图像增强网络是一个至关重要的问题。

论文方法

在这里插入图片描述

整体架构

给定一张水下图像作为输入,我们的目标是学习一个网络,生成一个输出,去除输入图像的颜色偏差,同时增强图像的细节。WF-Diff的整体框架如图2所示。WF-Diff旨在充分利用频域信息的特性和扩散模型的强大能力。具体来说,WF-Diff由两个可拆卸的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调整模块(FRDAM)。我们首先通过离散小波变换(DWT)将输入图像转换到小波空间,得到一个低频系数和三个高频系数WFI2-net致力于实现频率信息的初步增强。我们充分整合Transformer和傅里叶先验信息的特性,设计了宽Transformer块(WTB)和空间-频率融合块(SFFB),分别增强高频和低频内容。FRDAM由低频扩散分支(LDFB)和高频扩散分支(HDFB)组成,旨在进一步调整初步增强图像的高频和低频信息。需要注意的是,我们提出的FRDAM通过使用两个扩散模型分别学习地面真值和初步增强结果之间的高频和低频信息的残差分布。此外,所提出的跨频条件器(CFC)旨在实现高频和低频信息之间的跨频交互

离散小波变换与傅里叶变换

离散小波变换(DWT)已广泛应用于低层视觉任务[11, 16]。我们首先使用DWT将输入图像分解为多个频率子带,以便分别实现低频信息的颜色校正和高频信息的细节增强。给定一张水下图像作为输入在这里插入图片描述
,我们使用Haar小波对输入进行分解。Haar小波由低通滤波器 L 和高通滤波器 H 组成,如下所示:
在这里插入图片描述
我们可以获得四个子带,其可以表示为:
在这里插入图片描述
其中,在这里插入图片描述
分别表示输入图像的低频分量和垂直、水平、对角方向的高频分量。更具体地说,低频分量包含了输入图像的内容和颜色信息,而其他三个高频系数则包含了全局结构和纹理的细节信息[31]。这些子带的分辨率是输入图像的一半,但由于DWT的双正交性质,它们不会导致信息丢失对于低频分量 ILL,我们将在傅里叶空间中进一步探讨其特性

接着,我们引入傅里叶变换的操作[48]。给定一个图像 在这里插入图片描述
,其形状为 H x W,傅里叶变换 F 将 x 转换到傅里叶空间 X ,其表达式为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中, R(x) 和 I(x) 分别表示 X(u, v) 的实部和虚部。需要注意的是,傅里叶操作可以在每个通道的特征图上独立计算。根据图1和表1(我们的动机),我们得出结论:水下图像的颜色退化信息主要包含在低频子带的幅度分量中,而纹理和细节退化信息则主要包含在高频子带中。

频率初步增强

基于上述分析,在频率初步增强阶段,我们设计了一个简单但有效的WFI2-net,采用并行的编码器-解码器(类似U-Net)的结构,分别恢复低频信息的幅度分量和高频分量。我们还利用跳跃连接将编码器和解码器中相同层次的特征连接起来。对于高频分支,我们利用变压器(Transformer)建模全局信息的优势来增强高频系数。我们设计了宽变压器块(WTB),使用多尺度信息,旨在建模长距离依赖关系我们的低频分支旨在恢复傅里叶空间中的幅度分量为了获得丰富的频率和空间信息,我们设计了空间-频率融合块(SFFB)

在这里插入图片描述

Wide Transformer Block

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Spatial-Frequency Fusion Block

在这里插入图片描述
在这里插入图片描述

损失函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Cross-Frequency Conditioner

在这里插入图片描述
在这里插入图片描述
类似地,可以获得高频嵌入的VT和低频嵌入的VF:

在这里插入图片描述
输出特征图Tout和Fout然后可以从以下公式获得:

在这里插入图片描述
其中R表示复制操作,√ dk是矩阵Q的列数。

Frequency Diffusion Adjustment

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/891971.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Zero to JupyterHub with Kubernetes 下篇 - Jupyterhub on k8s

前言:纯个人记录使用。 搭建 Zero to JupyterHub with Kubernetes 上篇 - Kubernetes 离线二进制部署。搭建 Zero to JupyterHub with Kubernetes 中篇 - Kubernetes 常规使用记录。搭建 Zero to JupyterHub with Kubernetes 下篇 - Jupyterhub on k8s。 官方文档…

Matlab回归预测大合集(不定期更新)-188

截至2025-1-2更新 1.BP神经网络多元回归预测(多输入单输出) 2.RBF神经网络多元回归预测(多输入单输出) 3.RF随机森林多元回归预测(多输入单输出) 4.CNN卷积神经网络多元回归预测(多输入单输…

【读书与思考】历史是一个好东西

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】 导言 以后《AI日记》专栏我想专注于 AI 相关的学习、成长和工作等。而与 AI 无关的一些读书、思考和闲聊,我打算写到这里,我会尽量控制自己少想和少写。 下图的一些感想…

Git使用mirror备份和恢复

Git使用mirror备份和恢复 使用到的命令总结备份1.进入指定代码仓库,拷贝地址2.进入要备份到的文件夹,右键打开git命令行,输入以下命令3.命令执行完成后会生成一个新文件夹 恢复1.在gitee上创建代码仓库![请添加图片描述](https://i-blog.csdn…

人工智能的可解释性:从黑箱到透明

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​ ​ 人工智能(AI)的快速发展和广泛应用,带来了许多革新的成果,但也引发了对其透明性和可解释…

Nacos注册中心介绍及部署

文章目录 Nacos注册中心介绍及部署1. 注册中心简介2. 注册中心原理3. Nacos部署-基于Docker3.1 Nacos官网下载3.2 基础数据信息3.3 环境信息3.4 docker安装部署3.5 测试3.5 测试 Nacos注册中心介绍及部署 1. 注册中心简介 Spring Cloud注册中心是Spring Cloud微服务架构中的一…

Nginx与frp结合实现局域网和公网的双重https服务

背景: 因为局域网内架设了 tiddlywiki、 Nextcloud 等服务,同时也把公司的网站架设在了本地,为了实现局域网直接在局域网内访问,而外部访问通过frps服务器作为反向代理的目的,才有此内容。 实现的效果如下图琐事 不喜欢…

zephyr移植到STM32

Zephy如何移植到单片机 1. Window下搭建开发环境1.1 安装Choncolatey1.2 安装相关依赖1.3创建虚拟python环境1.4 安装west1.4.1 使用 pip 安装 west1.4.2 检查 west 安装路径1.4.3 将 Scripts路径添加到环境变量1.4.4 验证安装 1.5 获取zephyr源码和[安装python](https://so.cs…

【分糖果——DFS】

题目 代码1 #include <bits/stdc.h> using namespace std; set<string> s; void dfs(int num1, int num2, int u, string ans) {if (u 7){if (num1 num2 > 5)return;ans (char)((num1) * 17 num2);s.insert(ans);return;}for (int i 0; i < num1; i){f…

【HarmonyOS】鸿蒙应用实现屏幕录制详解和源码

【HarmonyOS】鸿蒙应用实现屏幕录制详解和源码 一、前言 官方文档关于屏幕录制的API和示例介绍获取简单和突兀。使用起来会让上手程度变高。所以特意开篇文章&#xff0c;讲解屏幕录制的使用。官方文档参见&#xff1a;使用AVScreenCaptureRecorder录屏写文件(ArkTS) 二、方…

解决在VS2019/2022中编译c++项目报错fatal error C1189: #error : “No Target Architecture“

解决在VS2019/2022中编译c项目报错fatal error C1189: #error : “No Target Architecture” 报错原因 在winnt.h中&#xff0c;不言而喻&#xff0c;一目了然&#xff1a; 代码节选&#xff1a; #if defined(_AMD64_) || defined(_X86_) #define PROBE_ALIGNMENT( _s ) TY…

Python教程丨Python环境搭建 (含IDE安装)——保姆级教程!

工欲善其事&#xff0c;必先利其器。 学习Python的第一步不要再加收藏夹了&#xff01;提高执行力&#xff0c;先给自己装好Python。 1. Python 下载 1.1. 下载安装包 既然要下载Python&#xff0c;我们直接进入python官网下载即可 Python 官网&#xff1a;Welcome to Pyt…

实现AVL树

目录 AVL树概念 AVL树结构 AVL树插入 LL型 - 右单旋 RR型 - 左单旋 LR型 - 左右双旋 RL型 - 右左双旋 插入代码实现 AVL树测试 附AVL树实现完整代码 AVL树概念 前面的博客介绍了搜索二叉树&#xff0c;二叉搜索树-CSDN博客 在某些特定的情况下&#xff0c;⼆叉搜索树…

极客说|微软 Phi 系列小模型和多模态小模型

作者&#xff1a;胡平 - 微软云人工智能高级专家 「极客说」 是一档专注 AI 时代开发者分享的专栏&#xff0c;我们邀请来自微软以及技术社区专家&#xff0c;带来最前沿的技术干货与实践经验。在这里&#xff0c;您将看到深度教程、最佳实践和创新解决方案。关注「极客说」&am…

React+redux项目搭建流程

1.创建项目 create-react-app my-project --template typescript // 创建项目并使用typescript2.去除掉没用的文件夹&#xff0c;只保留部分有用的文件 3.项目配置&#xff1a; 配置项目的icon 配置项目的标题 配置项目的别名等&#xff08;craco.config.ts&…

HTML+CSS+JS制作高仿小米官网网站(内附源码,含6个页面)

一、作品介绍 HTMLCSSJS制作一个高仿小米官网网站&#xff0c;包含首页、商品详情页、确认订单页、订单支付页、收货地址管理页、新增收获地址页等6个静态页面。其中每个页面都包含一个导航栏、一个主要区域和一个底部区域。 二、页面结构 1. 顶部导航栏 包含Logo、主导航菜…

obs directx11

创建逻辑 obs 在windows 下分为Opengl 和 directx 两种渲染模式&#xff0c;默认使用的是directx &#xff0c;兼容性更好&#xff1b; 代码路径&#xff1a; E:\opensrc\obs_studio_src\obs-studio\UI\obs-app.cpp 选择渲染模式 const char* OBSApp::GetRenderModule() con…

QT实现 端口扫描暂停和继续功能 3

上篇QT给端口扫描工程增加线程2-CSDN博客 为按钮pushButton_Stop添加clicked事件&#xff0c;功能为暂停扫描&#xff0c;并在暂停后显示继续按钮&#xff0c;点击继续按钮之后继续扫描 1.更新UI 添加继续按钮 点击转到槽则会自动声明 2. 更新 MainWindow.h 需要新增的部分…

nginx-限流(请求/并发量)

一. 简述&#xff1a; 在做日常的web运维工作中&#xff0c;难免会遇到服务器流量异常&#xff0c;负载过大等情况。恶意攻击访问/爬虫等非正常性请求&#xff0c;会带来带宽的浪费&#xff0c;服务器压力增大&#xff0c;影响业务质量。 二. 限流方案&#xff1a; 对于这种情…

分布式ID生成-雪花算法实现无状态

雪花算法这里不再赘述&#xff0c;其缺点是有状态&#xff08;多副本隔离时&#xff0c;依赖手动配置workId和datacenterId&#xff09;&#xff0c;代码如下&#xff1a; /*** 雪花算法ID生成器*/ public class SnowflakeIdWorker {/*** 开始时间截 (2017-01-01)*/private st…