【IVIF】Equivariant Multi-Modality Image Fusion

2024CVPR Zixiang Zhao团队
分析透彻,方法耳目一新
统一融合架构

1、Motivation

Our approach is rooted in the prior knowledge that natural imaging responses are equivariant to certain transformations

我们的方法根植于自然成像响应对于某些变换的等变性这一先验知识。因此,我们引入了一个新颖的训练范式,包括融合模块、伪感知模块和等变融合模块。这些组件使得网络训练能够遵循自然感知成像过程的原则,同时满足等变成像先验。

对IVIF任务的描述:产生的融合图像减轻了受光照变化影响的可见光图像和易受低分辨率和噪声影响的红外图像的局限性

作者的分析与假设:
我们假设潜在的GT融合图像具有丰富的信息,但在实践中,我们只能通过不同的感知过程来测量相同的GT,这些过程通常是非线性的且难以建模,因此获得了不同模态的观察结果。因此,多模态图像融合问题可以被视为一个具有挑战性的非线性盲反问题,可以被视为以下负对数似然最小化问题:
在这里插入图片描述
where i1, i2, and f represent two input source images and the output fusion image, respectively. Eq. (1b) originates from Bayes’ theorem. In Eq. (1c), the first term is the data fidelity term, indicating that i1 and i2 are sensed from f ; the second term is the prior term, indicating that f needs to satisfy certain fusion image prior or empirical characteristics.

1c的第一项,表示从融合图像f中感知到i1i2,显然各个传感器都受限于捕获特定模态的特征;实际上不存在能够同时感知所有模态信息的“超级”传感器。因此,缺乏GT妨碍了将深度学习的监督学习范式有效应用于图像融合任务。(指出没有GT的困难)
虽然基于生成模型的方法试图通过使源图像和融合图像属于类似分布来实现融合,但它们存在解释性不足、可控性不足以及训练挑战等问题。(说明基于生成式方法的不足)
基于手工设计的损失函数的方法通常通过最小化 ℓ1 或 ℓ2 距离来使融合图像类似于源图像。然而,直接计算 ∥f − i1∥ + ∥f − i2∥
来确定 f 忽略了融合图像与源图像之间的潜在领域差异,未考虑到 f 可能不位于与 i1 和 i2 相同的特征流形上。(?!)

1c的第二项,为先验项,表示f需要满足某些融合图像的先验或经验特征。研究人员通常假定融合图像具有某些结构,如低秩、稀疏性、多尺度分解等,并施加先验来限制解空间。然而,由于无法获取GT融合图像,这些先验通常依赖于对融合图像的猜测性假设或从自然图像先验推导出来,因此过度依赖领域知识,并且在未见情景下表现出有限的适应性。

针对上述挑战,我们计划从两个方面解决它们。
首先,由于调整分布和手工设计的损失函数是具有挑战性的任务,我们建议从感知和成像过程开始。我们的目标是学习感知,或者说从融合图像返回到各种模态图像的逆映射。这种方法直观上比掌握融合过程本身更简单。通过这样做,我们可以衡量输入源图像与(伪)感知结果之间的损失,这些结果是通过将融合图像应用于不同的感知函数获得的。这种策略克服了融合没有GT的问题。
此外,由于图像融合本质上是一个不适定问题,仅优化上述感知损失可能不会产生最优的融合图像。因此,我们引入了一个概念简单但有效的先验,该先验基于成像系统的固有先验,并且不依赖于融合图像的领域特定知识。这种非领域特定的先验建立在自然成像系统对于变换(如平移、旋转和反射)等等变性的理解基础上。换句话说,**在感知和重新融合之后,经过变换的融合图像应该产生与之前相同的结果。**利用自然成像系统的等变先验为融合网络内的学习过程提供了更强的约束和指导。总之,针对图像融合的常见学习范式,我们进行了以下改进:
在这里插入图片描述
在这里插入图片描述
EMMA中的伪感知损失项在等式(2)中减轻了传统损失中由于 f 和 {i1, i2} 之间流形差异引起的不合理性,确保了在 {ˆi1, i1} 和 {ˆi2, i2} 之间计算的距离处于同一域内。【?!】

作者也说了,类似的融合到源映射概念旨在使 f 可分解为 {i1, i2},以确保其包含源图像信息。(这边列举了两篇文章,统一的融合架构SDNet和一片低光增强领域的)
然而,它们的分解模块作为融合算法的一个组成部分,在训练过程中进行更新,**并且融合输出被视为源重建的特征。**因此,分解学习的熟练程度并不总是与融合中的信息增强相一致。相比之下,在EMMA范式中,**伪感知模块的学习与融合网络的学习是解耦的,**而且在EMMA训练期间保持冻结状态,从而确保从融合图像到源图像的映射是明确和确定的。这增强了感知模块的合理性和可解释性。
其他基于先验的优化方法通常需要融合图像的领域知识。然而,在EMMA中,我们只需要使用成像系统先验而不是融合图像先验来完成自监督学习。

2.等变成像

等变成像(EI)是一种新兴的完全无监督成像框架,利用自然信号中的群不变性特性,仅通过部分测量数据学习重建函数。EI背后的主要思想是利用自然信号通常具有某些对称性。例如,图像通常是平移不变的,这意味着它们如果被移动,看起来是相同的。有了这种不变性先验,整个成像系统(从感知到重建)都是变换等变的。在某些感知条件下,重建函数将能够正确重建被转换的图像,即使它以前从未见过这些图像。作为成像的一种有前景的新方法和一种获取和处理图像的新途径,EI已经被证明对于各种线性逆问题是有效的。本文致力于探索EI在更具挑战性的任务上的潜力,即多模态图像融合中的非线性盲逆问题。

列举了最近两年的文章,有3篇研究这个的。

3.Method

我们假设存在一个信息丰富的f,它包含多感官和多模态信息,需要预测。然而,到目前为止,现实生活中还没有一种感知设备能够完全感知到它。
问题建模为:
在这里插入图片描述
在传统的图像反问题y = A(x) + n中,其中x和y分别为GT和测量值,退化算子A(·)是已知的(如去噪任务中的噪声分布和超分辨率任务中的模糊核)。然而,在图像融合中,我们无法明确地获得Ai和Av,但我们可以将它们设置为可学习的,以模拟感知过程,辅助网络进行自监督学习。

假设1:测量一致性。

假设融合函数F(·,·)在测量域内保持一致性,即:在这里插入图片描述
由于传感过程的待定性质,无法通过估计Ai或Av的逆来估计F (i, v),我们需要学习更多的超出其逆范围空间的信息。

不变集一致性

给出equivariant imaging的两个定义:

def1:

def2:

根据定义 1 的推论,如果 X 代表一组自然图像,那么很明显,在经过平移、旋转和反射等变换后,其结果仍然是自然图像。因此,X 是变换组 G 的不变集。此外,在定义 1 和 2 中,"不变性 "指的是数据集的属性,而 "等变性 "指的是成像系统的属性,即成像系统(在本文中表示为 F ◦A)是相对于 G 的等变函数:

假设定义2中的L为复合函数F * A,其中F为融合模型,A(包括Ai和Av)为感知模型,则等变图像融合定理为:在这里插入图片描述
证明:考虑一组满足不变性的自然图像X,根据定义2,成像系统F * a应与群作用{Tg}相等。因此,对于∀f∈X,我们有f◦A(Tgf) = Tgf◦A(f)。进一步,将A分成Ai和Av,可以得到Eq.(5)。它(5)不要求F * A与Tg等变,相反,要求F * A等变。因此,这里的F和A可以不受限制地设置为任何形式的映射。

4.网络

在这里插入图片描述
我们是怎么约束的?
在这里插入图片描述

U-Fuser module:

我们采用类似u - net的结构对i和v进行融合,生成融合后的图像f。在每个尺度上,由于输入的跨模态特征既包含**全局特征(如环境和背景信息),也包含局部特征(如高亮和详细纹理对象特征)**,我们设计了一个Transformer-CNN结构,通过利用它们各自的归纳偏差来更好地建模跨模态特征。

特征融合和重建块结构和特征提取块都是一样的。

Pseudo sensing module:

由于明确给出Ai和Av的结构是不可行的,我们采用数据驱动的学习方法来获得它们。

Equivariant image fusion:

如图1所示,我们首先将图像对 {i, v} 输入到 F 中,并获取融合图像 f(这是传统融合算法的整个操作)。然后,我们对 f 应用一系列变换 Tg,包括平移、旋转、反射等,得到 f t。随后,将 f t 输入到经过良好训练的 {Ai, Av} 中,获取伪感知图像 {it, vt},它们分别包含了来自 f t 的信息,并满足红外和可见图像的成像特征。最后,配对的 {it, vt} 输入到 F 中,获取重新融合的图像 ˆ f t。在整个框架中,我们的目标是将 {i, v} 中的信息聚合到 f 中,并根据等变图像融合定理(定理1),f t 和 ˆ f t 应该足够接近。这将通过设计的损失函数来保证。

5.怎么训练的?

在这里插入图片描述
where ̃ f are the fusion results from the SOTA methods in Sec. 3.3.就是使用其他SOTA的结果当作融合图像的一个GT
说白了就是训练了从融合图像分解成IR和VIS的两个编码器,然后固定这两个编码器,更新损失函数,
在这里插入图片描述
特别是,Eq.(6)的第一项和第二项保证了我们的范式满足3.2节中模型假设的测量一致性,而第三项保证了它满足模型假设的不变集一致性。

作者指出:所提出的等变融合模块与数据增强(DA)不同,DA主要是基于ground truth对数据进行扩展。然而,在图像融合任务中,GT是不可接近的,没有GT的图像学习不能提供额外的信息增益

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode python pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

在vscode中控制台运行python文件出现:无法将"pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 使用vscode开发python,需要安装python开发扩展: 本文已经安装,我们需要找的是python安装所在目录,本文…

大气的wordpress官网主题

海外就医wordpress主题 出国看病、海外就医是越来越多中产家庭的选择,此wordpress主题适合做相关业务的公司官网。 https://www.jianzhanpress.com/?p5220 通用多用途wordpress模板 中国红WordPress模板,适合服务行业企业建站的通用多用途wordpress模…

2024高考-优先选专业还是优先选学校

分数限制下,选好专业还是选好学校? 24年高考帷幕落下,一场新的思考与选择悄然来临。对于每一位高考考生,学校和专业都是开启大学新生活的两个前置必选项。但有时候“鱼与熊掌不可兼得”,在分数受限的条件下&#xff0…

Golang -----channel

Channel channel的作用 channel主要用于goroutine之间通讯和同步 设计思路是:不要通过共享内存来通讯,而是通过通讯来共享内存(前者就是传统的加锁,后者就是channel) channel的底层数据结构 type hchan struct {//channel分为无缓冲和有缓…

选专业,如何分析自己的兴趣爱好?

在学习的过程中,我们对于有兴趣的学科往往精力充足,不知疲倦,从而相应科目的分数较高,而在得到较高的分数之后,个人自信更足,学习更轻松,竞争力更强大。 在专业选择当中,如果我们就…

基于matlab的高斯滤波与图像去噪

1 高斯滤波原理 1.1 原理 高斯滤波是一种线性平滑滤波技术,主要用于消除图像中的高斯噪声。它的工作原理可以理解为对整幅图像进行加权平均的过程,即每个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到。 高斯滤波实质上是一种信号的滤…

驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接的解决方法

在连接数据库的时候出现了下面图面中的错误,尝试集中方法后终于解决了这个问题。 1.修改驱动程序版本 出现这种错误可能是因为你的驱动程序版本不兼容,我们可以尝试修改版本解决。而我们的驱动程序往往是以依赖的形式导入,因此可以在maven仓…

HTML(16)——边距问题

清楚默认样式 很多标签都有默认的样式,往往我们不需要这些样式,就需要清楚默认样式 写法: 用通配符选择器,选择所有标签,清除所有内外边距选中所有的选择器清楚 *{ margin:0; padding:0; } 盒子模型——元素溢出 作…

MySQL锁、加锁机制(超详细)—— 锁分类、全局锁、共享锁、排他锁;表锁、元数据锁、意向锁;行锁、间隙锁、临键锁;乐观锁、悲观锁

文章目录 一、概述1.1 MySQL锁的由来1.2 锁定义1.3 锁分类 二、共享锁与排他锁2.1 共享锁(S锁)2.2 排他锁(X锁)2.3 MySQL锁的释放 三、全局锁3.1 介绍3.2 语法3.3 特点 四、表级锁4.1 介绍4.2 表锁4.3 元数据锁(Meta D…

雷达标定与解析

融合雷达与解析雷达数据的相关代码。感谢开源社区的贡献。以下代码继承了很多人的工作。 如果是单雷达: 直接进行标定,所以就是接收相关的话题然后发布。 lidar_calibration_params.yaml: calibration:在这个接口里面x_offset: 0.0y_offset:…

u盘sd卡格式化怎么恢复,3种恢复方法教学

u盘sd卡格式化怎么恢复,这是许多人在误操作后最关心的问题。我们会详细介绍五种有效的恢复方法,并且提供恢复原理的教学视频,帮助您轻松找回U盘和SD卡上被格式化的数据。 一. 数据存储与恢复的原理 1. U盘、移动硬盘、硬盘以及固态盘存储数据…

游戏高度可配置化(一)通用数据引擎(data-e)及其在模块化游戏开发中的应用构想图解

游戏高度可配置化(一)通用数据引擎(data-e)及其在模块化游戏开发中的应用构想图解 码客 卢益贵 ygluu 关键词:游戏策划 可配置化 模块化配置 数据引擎 条件系统 红点系统 一、前言 在插件式模块化软件开发当中,既要模块高度独…

解决Windows下移动硬盘无法弹出的问题:\$Extend\$RmMetadata\$TxfLog\$TxfLog.blf

想弹出移动硬盘时,Windows告诉我设备正在使用 然后我使用LockHunter查看到底是哪个应用在使用我的移动硬盘,发现是 System(PID 4) E x t e n d Extend ExtendRmMetadata T x f L o g TxfLog TxfLogTxfLog.blf这个文件正在使用 这是一个索引文件 解决 …

数据清洗!即插即用!异常值、缺失值、离群值处理、残差分析和孤立森林异常检测,确保数据清洗的全面性和准确性,MATLAB程序!

适用平台:Matlab2021版及以上 数据清洗是数据处理和分析中的一个关键步骤,特别是对于像风电场这样的大型、复杂数据集。清洗数据的目的是为了确保数据的准确性、一致性和完整性,从而提高数据分析的质量和可信度,是深度学习训练和…

PTA基础题考点汇总

一:字符串(数组)的逆序,栈的方法 **字符串数组的逆序 : ** 标准容器库的知识:定义stack容器于字符串:stackv; string s; //这里用到了c中stl(标准容器库的知识)stack&…

一二三应用开发平台应用开发示例(4)——视图类型介绍以及新增、修改、查看视图配置

调整上级属性类型 前面为了快速展示平台的低代码配置功能,将实体文件夹的数据模型上级属性的数据类型暂时配置为文本类型,现在我们调整下,将其数据类型调整为实体,如下图所示: 数据类型需要选择实体,并在实…

STM32单片机系统

1.STM32最小系统 微型计算机(面) 单片机最小系统是指能够将单片机芯片运行所必需的最少的硬件电路集成在一起的系统。 它是一种基本的单片机应用系统,通常由主芯片,时钟电路,复位电路,电源电路&#xff0c…

Ubuntu/Linux SSH 端口转发

文章目录 Ubuntu/Linux SSH 端口转发概述本地端口转发场景一场景二 参考资料 Ubuntu/Linux SSH 端口转发 概述 SSH, Secure Shell 是一种在网络上用于安全远程登录到另一台机器的工具。除了远程登录以外,ssh 的端口转发是它的另一项强大功能。通过 ssh 端口转发功…

计算机网络知识点整理1

目录 激励的话 一、计算机发展的三个阶段 二、互联网标准化工作 三、互联网的组成 边缘部分 核心部分 电路交换的主要特点 分组交换的主要特点 四、三大交换方式的主要特点 总结 激励的话 没关系的,有三分钟热度,就有三分钟收获 一、计算机…

RabbitMQ实践——使用WebFlux响应式方式实时返回队列中消息

大纲 Pom.xml监听队列实时返回消息测试完整代码工程代码 在之前的案例中,我们在管理后台收发消息都是通过短连接的形式。本文我们将探索对队列中消息的实时读取,并通过流式数据返回给客户端。 webflux是反应式Web框架,客户端可以通过一个长连…