图像融合论文阅读:CrossFuse: 一种基于交叉注意机制的红外与可见光图像融合方法

@article{li2024crossfuse,
title={CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach},
author={Li, Hui and Wu, Xiao-Jun},
journal={Information Fusion},
volume={103},
pages={102147},
year={2024},
publisher={Elsevier}
}


论文级别:SCI A1
影响因子:18.6

📖[论文下载地址]
💽[代码下载地址]


文章目录

  • 📖论文解读
    • 🔑关键词
    • 💭核心思想
    • 🪅相关背景知识
    • 🪢网络结构
      • 🪢编码器
      • 🪢CAM
        • 🪢SA
        • 🪢CA
      • 🪢解码器
    • 🎢训练设置
      • 🎢一阶段
      • 🎢二阶段
    • 📉损失函数
    • 🔢数据集
    • 🔬实验
      • 📏评价指标
      • 🥅Baseline
      • 🔬实验结果
  • 🚀传送门
    • 📑图像融合相关论文阅读笔记
    • 📚图像融合论文baseline总结
    • 📑其他论文
    • 🎈其他总结
    • ✨精品文章总结
  • 🌻【如侵权请私信我删除】


📖论文解读

以往的交叉注意力只考虑相关性,而图像融合任务需要关注互补信息。
为了解决这个问题,作者提出了CrossFuse,使用【交叉注意力机制CAM】增强互补信息,使用了两阶段训练策略。
第一阶段为两种模态训练结构相同的自编码器
第二阶段固定编码器参数,训练CAM和解码器

🔑关键词

Image fusion 图像融合
Transformer
Cross attention 交叉注意力
Infrared image 红外图像
Visible image 可见光图像

💭核心思想

通过【交叉注意力机制CAM】增强互补信息,降低冗余特征的负面影响。

扩展学习
[什么是图像融合?(一看就通,通俗易懂)]

从下图中我们可以看到,相同场景的不同模态图像,有高相关性区域和高度不相关性区域。
在这里插入图片描述

🪅相关背景知识

🪢网络结构

作者提出的网络结构如下所示。
I i r I_{ir} Iir I v i I_{vi} Ivi分别代表红外图像和可见光图像,两个编码器提取多模态信息。
基于Transformer的CAM结构用来融合多模态特征
解码器用来产生融合图像 F F F
在编码器和解码器之间有两个skip connection,用来保留源图的更多深/浅层特征
在这里插入图片描述
为什么使用两个编码器呢?因为作者认为两个模态间信息差距较大,这两个编码器结构是相同的,但是网络内部参数却有所区别。
下面我们一起来看看编码器的详细结构

🪢编码器

在这里插入图片描述
第一个卷积层用来提取浅层特征(保留了丰富的纹理信息),然后经过最大池化,DenseBlock保留多尺度特征中更多有用信息,随着编码器层数越来越深,深层特征开始集中在显著目标上。
为了增强细节信息和显著特征,在编码器和解码器之间加入了两个跳接。就是上图两个蓝紫色箭头,一个在Conv上,还有一个在最后一个最大池化层上。

🪢CAM

Cross-attention mechanism,交叉注意力机制。其结构如下图所示。
在这里插入图片描述
两个分支的参数是不相同的,每个模态的特征首先经过自注意力机制SA以增强内部特征,然后经过shift操作(在水平和垂直方向移动特征位置),然后再经过SA,然后unshift恢复位置,经过交叉注意力机制CA得到融合特征。

🪢SA

在这里插入图片描述
x c x^c xc是SA的输入,也就下图(图4)左边的长条立方体,编码器的输出。
Q c K c V c Q_cK_cV_c QcKcVc是输入的不同表示,涉及Transformer里的知识,不了解的同学可以参考下面的链接。
U q k v U_{qkv} Uqkv是可以通过全连接层学习参数的变换矩阵
d d d是输入向量的维度
n o r m norm norm表示线性范数运算
M L P ( ⋅ ) MLP(·) MLP()是多层感知机

扩展学习
史上最小白之Transformer详解

🪢CA

在这里插入图片描述
在2式总, c c c c ^ \hat c c^代表不同模态。
这个地方的交叉计算,和SwinFusion有点像,感兴趣的读者可以移步去看我的另外一篇阅读笔记。

扩展学习
SwinFusion阅读笔记

SA和CA最大的区别在于矩阵乘法后的激活函数,即CA用到了反向softmax。
在这里插入图片描述

作者给出这个地方的解释是,对于不同的模态,应该增强互补(不相关)信息而不是冗余(相关)特征。

在经过CAM之后,得到了一个融合特征,接下来我们需要将这个融合特征解码为融合图像。

🪢解码器

解码器的结构如下图所示。

在这里插入图片描述
除了在编码器中刚提到两个skip connection以外,作者还加入了【特征强度感知策略】(the feature intensity aware strategy)用来进行【多级特征融合】,其公式如下:
在这里插入图片描述

( ⋅ ) (·) ()表示深层特征中的位置
Φ c m \Phi^m_c Φcm代表了CAM提取的特征, Φ i r m \Phi^m_{ir} Φirm Φ v i m \Phi^m_{vi} Φvim分别代表了红外图像和可见光图像的特征。
∇ m ∇^m m分别表示浅层特征和深层特征的细节和基础信息提取器。其计算公式为:
在这里插入图片描述

🎢训练设置

本文采用了两阶段训练。
一阶段:编码器训练。为每种模态构建自编码器网络用于重建输入。
二阶段:针对不同的编码器, 训练CAM和解码器。

🎢一阶段

在这里插入图片描述
一阶段训练的损失函数用到了像素损失和结构损失:
在这里插入图片描述
系数为1e4

🎢二阶段

在这里插入图片描述
二阶段训练的时候,固化一阶段训练好的编码器。训练CAM和解码器。
该阶段作者提出了一种注意损失函数,CAM损失=强度损失+10*梯度损失
在这里插入图片描述
在这里插入图片描述
M c M_{c} Mc代表单个模态的强度掩码
在这里插入图片描述
l o c c loc_c locc代表单个模态源图像中局部patch的平均值,可以用下式计算:
在这里插入图片描述
a v g c avg_c avgc代表通过11×11核大小的均值滤波器 ∇ a ∇_a a计算得到的单个模态的值。

在这里插入图片描述
∇ g ∇_g g代表了3×3的均值滤波器

训练设置如下所示。

在这里插入图片描述

📉损失函数

上节已介绍。

🔢数据集

  • 训练:KAIST
  • 测试:TNO, VOT-RGBT

图像融合数据集链接
[图像融合常用数据集整理]

🔬实验

📏评价指标

  • EN
  • SD
  • MI
  • FMI_dct
  • FMI_pixel
  • SCD

扩展学习
[图像融合定量指标分析]

🥅Baseline

  • FusionGAN, IFCNN, U2Fusion, YDTR, DATFuse, IRFS, SemLA, DDFM

✨✨✨扩展学习
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

更多实验结果及分析可以查看原文:
📖[论文下载地址]


🚀传送门

📑图像融合相关论文阅读笔记

📑[(DIF-Net)Unsupervised Deep Image Fusion With Structure Tensor Representations]
📑[(MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion]
📑[(A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration]
📑[(APWNet)Real-time infrared and visible image fusion network using adaptive pixel weighting strategy]
📑[Dif-fusion: Towards high color fidelity in infrared and visible image fusion with diffusion models]
📑[Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion]
📑[LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images]
📑[(DeFusion)Fusion from decomposition: A self-supervised decomposition approach for image fusion]
📑[ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion]
📑[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
📑[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
📑[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
📑[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
📑[DenseFuse: A fusion approach to infrared and visible images]
📑[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
📑[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
📑[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
📑[IFCNN: A general image fusion framework based on convolutional neural network]
📑[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📑综述[Visible and Infrared Image Fusion Using Deep Learning]

📚图像融合论文baseline总结

📚[图像融合论文baseline及其网络模型]

📑其他论文

📑[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

🎈其他总结

🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]

🌻【如侵权请私信我删除】

如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/606997.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当试图回复传入消息时,消息应用程序会闪烁

问题描述: Actual Results: Unable to reply for incoming message as Messaging app flickers and closes. Expected Results: User should be able to send reply for incoming messages. Reproduction Steps: Stay in home screen. Receive an incoming mes…

如何在 Ubuntu 20.04 上安装和使用 Docker

前些天发现了一个人工智能学习网站,通俗易懂,风趣幽默,最重要的屌图甚多,忍不住分享一下给大家。点击跳转到网站。 如何在 Ubuntu 20.04 上安装和使用 Docker 介绍 Docker是一个可以简化容器中应用程序进程管理过程的应用程序。…

拦截器HandlerInterceptor | springmvc系列

拦截器,通俗来来将,就是我们将访问某个路径的请求给拦截下来,然后可以对这个请求做一些操作 基本使用 创建拦截器类 让类实现HandlerInterceptor接口,重写接口中的三个方法。 Component //定义拦截器类,实现Handle…

Python实现PowerPoint(PPT/PPTX)到PDF的批量转换

演示文稿是一种常见传达信息、展示观点和分享内容的形式,特别是PowerPoint演示文稿,广泛应用于各行各业,几乎是演讲等场合的必备工具。然而,演示文稿也有其限制,对设备的要求较高,且使用不同的软件或设备演…

Ubuntu下AI4Green开源ELN服务的简单部署

主部署程序:AI4Green 配置参考这篇文档:AI4Green开源ELN(电子实验记录本)-CSDN博客 流量转发和负载均衡:使用Nginx 配置参考这篇文档:Nginx负载均衡-CSDN博客 SSL配置部分参考这篇文档: 设置…

SpringBoot-开启Actuator监控

Spring Boot Actuator是Spring Boot提供的一种管理和监控应用程序的框架,可以帮助我们了解应用程序的运行状况,提供HTTP端点来暴露应用程序的不同方面,如健康状况、指标、日志和运行时信息等。 开启Actuator监控,我们可以通过HTT…

Hyperledger Fabric 核心概念与组件

要理解超级账本 Fabric 的设计,首先要掌握其最基本的核心概念与组件,如节点、交易、排序、共识、通道等。 弄清楚这些核心组件的功能,就可以准确把握 Fabric 的底层运行原理,深入理解其在架构上的设计初衷。知其然,进…

回顾2023编程之旅

一、前言 看在给了我一个博客专家的份上就继续写写博客,实事求是的讲如果是工作之余去总结csdn写写技术博客,还想混个专家什么的,真的是精力不够。因为里面的灌水的实在太多,比不过的,写这个玩意必须得淡泊名利才能悠然…

部署一款开源的交互审计系统—Next Terminal

博客地址 部署一款开源的交互审计系统—Next Terminal-雪饼 (xue6ing.cn)https://xue6ing.cn/archives/bu-shu-yi-kuan-kai-yuan-de-jiao-hu-shen-ji-xi-tong--next-terminal Next Terminal是什么? Next Terminal是一个开源的交互审计系统,具有以下主…

控制台console

js控制台打印 console.log()和console.group() console.group()指的是消息组的开始,在此之后的所有消息将写进该消息组中, console.groupEnd()指的是该消息组的结束,

SpringBoot请求参数加密、响应参数解密

SpringBoot请求参数加密、响应参数解密 1.说明 在项目开发工程中,有的项目可能对参数安全要求比较高,在整个http数据传输的过程中都需要对请求参数、响应参数进行加密,也就是说整个请求响应的过程都是加密处理的,不在浏览器上暴…

40道java集合面试题含答案(很全)

点击下载《40道java集合面试题含答案(很全)》 1. 什么是集合 集合就是一个放数据的容器,准确的说是放数据对象引用的容器集合类存放的都是对象的引用,而不是对象的本身集合类型主要有3种:set(集)、list(列…

Unity文字转语音(使用RT-Voice PRO [2023.1.0])

参考文章Unity插件——文字转朗读语音RtVioce插件功能/用法/下载_rtvoice-CSDN博客 一、使用步骤 1.导入进Unity(插件形式为 .unitypackage) https://download.csdn.net/download/luckydog1120446388/88717512 2.添加所需Prefab 1).右键可…

后端 API 接口文档 Swagger 使用

Swagger 是什么 swagger是一款可以根据 restful 风格生成的接口开发文档,并且支持做测试的一款中间软件。 例如当我们在开发前后端分离项目时,当后端开发完一个功能想要测试时,若此时还没有相应的前端页面发起请求,可以通过 swag…

python炒股自动化(0),申请券商API接口

上次发了量化交易接口的区别,发现很多人根本不知道券商提供的API交易接口,这里补充一篇,关于券商接口的介绍。 现在市面上可以给个人账户接入的股票交易接口,用的最多的也就是QMT和Ptrade,以前接入量化交易需要机构或…

高压放大器设计要求是什么

高压放大器在科学研究和工程应用中扮演着至关重要的角色,特别是在需要处理高电压信号的实验和应用中。高压放大器设计要求的充分考虑至关重要,以确保其在各种环境中稳定、可靠地工作。下面将介绍设计高压放大器时需要考虑的关键要求和因素。 1.电压范围 …

赋能软件开发:生成式AI在优化编程工作流中的应用与前景

随着人工智能(AI)技术的快速发展,特别是生成式AI模型如GPT-3/4的出现,软件开发行业正经历一场变革,这些模型通过提供代码生成、自动化测试和错误检测等功能,极大地提高了开发效率和软件质量。 本文旨在深入…

Android readelf 工具查找函数符号

ELF(Executable and Linkable Format)是一种执行文件和可链接文件的格式。它是一种通用的二进制文件格式,用于在各种操作系统中存储可执行程序、共享库和内核模块。 Android 开发当中的 so 库本质上就是一种特殊类型的 ELF 文件,…

文章解读与仿真程序复现思路——电工技术学报EI\CSCD\北大核心《考虑灵活性补偿的高比例风电与多元灵活性资源博弈优化调度》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 这个标题涉及到高比例风电与多元灵活性资源在博弈优化调度中考虑灵活性补偿的问题。以下是对标题各个部分的解读: 高比例风电: …

【模拟IC学习笔记】Cascode OTA 设计

辅助定理 增益Gm*输出阻抗 输出短路求Gm 输入置0求输出阻抗 求源极负反馈的增益 随着Vin的增加,Id也在增加,Rs上压降增加,所以,Vin的一部分电压体现在Rs上,而不是全部作为Vgs,因此导致Id变得平滑。 Rs足…