交叉注意力融合2024创新方案汇总,附配套模块和代码

多模态学习和注意力机制是当前深度学习研究的热点领域之一,而交叉注意力融合作为这两个领域的结合点,具有很大的发展空间和创新机会。

作为多模态融合的一个重要组成部分,交叉注意力融合通过注意力机制在不同模块之间建立联系,促进信息的交流和整合,从而提升了模型处理复杂任务的能力,展现出其在多模态学习和聚类分析等领域的强大优势。

本文盘点交叉注意力融合相关的13个技术成果,包含2024年最新的研究,这些模块的来源文章以及代码我都整理了,希望能给各位的论文添砖加瓦。

论文和模块代码需要的同学看文末

1.Rethinking Cross-Attention for Infrared and Visible Image Fusion

方法:本文提出了一种端到端的ATFuse网络,用于融合红外图像。通过在交叉注意机制的基础上引入差异信息注入模块(DIIM),可以分别探索源图像的独特特征。同时,作者还应用了交替公共信息注入模块(ACIIM),以充分保留最终结果中的公共信息。为了训练ATFuse,作者设计了一个由不同像素强度约束组成的分割像素损失函数,以在融合结果中达到纹理细节和亮度信息的良好平衡。

创新点:

  • 提出了一种端到端的ATFuse网络,用于融合IV图像。在多个数据集上进行的大量实验表明,我们提出的ATFuse方法具有良好的效果和泛化能力。

  • 基于交叉注意机制提出了一种差异信息注入模块(DIIM)。通过这个DIIM,可以分别探索源图像的独特特征。

  • 将交替公共信息注入模块(ACIIM)应用于所提出的框架中,其中公共信息在最终结果中得到充分保留。

  • 设计了由不同像素强度约束组成的分割像素损失函数,用于训练ATFuse,以便在融合结果中实现纹理细节和亮度信息的良好权衡。

2.ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

方法: 作者提出了一种新颖的双交叉注意力特征融合方法,用于多光谱目标检测,同时聚合了RGB和热红外图像的互补信息。 该方法包括三个阶段:单模态特征提取、双模态特征融合和检测。在单模态特征提取阶段,分别对RGB和热红外图像进行特征提取。在双模态特征融合阶段,通过交叉注意力机制聚合来自不同分支的特征。最后,将融合后的特征输入到检测器进行多尺度特征融合,并进行分类和回归。

创新点:

  • 提出了双交叉注意力变换器的特征融合框架,用于建模全局特征交互和同时捕捉多模态之间的互补信息。通过查询引导的交叉注意力机制增强了对象特征的可辨识性,从而提高了性能。

  • 提出了迭代交互机制,通过在块状多模态变换器之间共享参数来减少模型复杂性和计算成本。这种迭代学习策略在不增加可学习参数的情况下,进一步改善了模型性能。

3.2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision

方法:本文提出了一种多模态交错注意力变换器(MIT),用于弱监督的点云分割。该方法包括两个编码器和一个解码器,分别用于提取3D点云和2D多视图图像的特征。解码器通过交叉注意力实现了2D和3D特征的隐式融合。作者交替切换查询和键值对的角色,使得2D和3D特征可以相互丰富。

创新点:

  • 通过使用多视角信息而无需额外的注释工作,作者提出的MIT有效地融合了2D和3D特征,并显著改善了3D点云分割。

  • 弱监督的点云分割。这个任务旨在使用弱标注数据(如稀疏标记点、包围盒级别标签、子云级别标签和场景级别标签)学习点云分割模型。在使用稀疏标记点的设置中取得了显著进展:最先进的方法与有监督的方法具有可比的性能。

  • 2D和3D融合用于点云应用。现有方法依赖于相机姿态和/或深度图像来建立2D和3D域之间的对应关系。相比之下,本文方法通过交错的2D-3D注意力学习了一个变换器,实现了2D和3D特征的隐式融合,而无需相机姿态或深度图像。

  • 查询和键值对交换。交叉注意力广泛应用于变换器解码器中,它捕捉查询和键值对之间的依赖关系。与他们的方法不同,本文方法将查询和键值对交换应用于跨域特征融合。

4.MMViT: Multiscale Multiview Vision Transformers

方法:本文介绍了一种新颖的多尺度多视图视觉Transformer(MMViT)模型,作为适用于多种模态的骨干模型。该模型将多尺度视觉Transformer(MViT)和多视图Transformer(MTV)的优势相结合,通过将多个视图输入到多尺度阶段层次模型中。在每个尺度阶段,使用交叉注意力层将不同分辨率的视图的信息进行融合,从而使网络能够捕捉复杂的高维特征。

创新点:

  • MMViT模型引入了交叉注意力层,使得模型能够在每个尺度阶段获取多视角的信息。通过并行处理不同分辨率的多个视角,MMViT模型能够在每个尺度阶段获取多分辨率的时间上下文。

  • MMViT模型使用了分层缩放系统,通过增加通道大小和降低空间分辨率,生成高维复杂特征。这种分层缩放系统使得网络能够在深度增加时获取更复杂的特征。

5.Multi-Modality Cross Attention Network for Image and Sentence Matching

方法:作者提出了一种新颖的图像和句子匹配方法,通过在统一的深度模型中联合建模跨模态和内部模态关系。作者首先提取显著的图像区域和句子标记。然后,应用所提出的自注意模块和交叉注意力模块来利用片段之间的复杂细粒度关系。最后,通过最小化基于困难负样本的三元组损失,将视觉和文本特征更新到一个公共嵌入空间中。

创新点:

  • 提出了一种新颖的图像和句子匹配方法,通过在统一的深度模型中联合建模跨模态和内模态关系。首先提取显著的图像区域和句子标记。然后,应用所提出的自注意模块和交叉注意模块来利用片段之间的复杂细粒度关系。最后,通过最小化基于困难负样本的三元组损失将视觉和文本特征更新到一个共同的嵌入空间中。

  • 提出了一种新颖的多模态交叉注意网络,通过在统一的深度模型中联合建模图像区域和句子单词的内模态关系和跨模态关系,用于图像和句子匹配。为了实现稳健的跨模态匹配,作者提出了一种新颖的交叉注意模块,能够利用每个模态内的内模态关系以及图像区域和句子单词之间的跨模态关系,相互补充和增强图像和句子匹配。

6.CCNet: Criss-Cross Attention for Semantic Segmentation

方法:本文提出了一种Criss-Cross网络(CCNet),用于以一种非常有效和高效的方式获取全图像的上下文信息。具体而言,对于每个像素,一种新颖的交叉关注模块收集其交叉路径上所有像素的上下文信息。通过进一步的循环操作,每个像素最终可以捕捉到全图像的依赖关系。此外,还提出了一种类别一致性损失,以强制交叉关注模块产生更具区分性的特征。

创新点:

  • 创新的Criss-Cross Attention模块:通过在每个像素上采用新颖的Criss-Cross Attention模块,可以收集其所在的十字路径上所有像素的上下文信息。通过进一步的循环操作,每个像素最终可以捕捉到全图像的依赖关系。

  • 引入的类别一致性损失:为了使Criss-Cross Attention模块产生更具辨别性的特征,作者提出了类别一致性损失。该损失函数使网络将图像中的每个像素映射到特征空间中的一个n维向量,使属于同一类别的像素的特征向量彼此靠近,而属于不同类别的像素的特征向量相距较远。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“交叉注意力”获取论文+模块代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/661409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】main函数的参数形式

一、思考 在C语言中int main(),是最初接触该语言使用的形式。后面学习到函数部分,意识到int main()就是int main(void),意为main函数没有参数。再到后面却又有int main(int argc, char *argv[])这种参数形式。 不禁疑问,main函数的…

校招春招,在线测评一般测试哪些内容?

在校园招聘这一块,很多应届毕业生会相当在乎,对于他们来说,如果在学校期间就找到工作是比较轻松的事情,不用担心毕业之后找工作困难重重,可以稳稳当当毕业。但想要迅速通过招聘也不容易,在校招春招上面&…

深度学习电脑配置有什么要求?

随着人工智能和机器学习的快速发展,深度学习已经成为了许多领域的重要工具。然而,深度学习的应用需要强大的计算能力,因此对于想要进行深度学习的用户来说,选择一台合适的电脑是必不可少的。本文将重点介绍深度学习电脑配置的要求…

2023年OceanBase开发者大会:核心内容与学习收获(附大会核心PPT下载)

本次大会邀请了众多业界领袖、技术大咖和开发者,共同探讨数据库领域的技术发展趋势和未来机会,与开发者共同探讨单机分布式、云原生、HTAP 等数据库前沿趋势,分享全新的产品 roadmap,交流场景探索和最佳实践。 一、大会核心内容 …

在服务器上下载google云端硬盘文件

遇到问题 下载谷歌硬盘(drive.google.com开头)的用wget不行,用wget说无法解析地址。 解决方法 1. 安装gdown pip install gdown2. 保存硬盘地址到我的谷歌网盘里,用如下右键复制的方式。 3.修改权限 右键共享处,…

Message Queue --- RabbitMQ

MessageQueue Intro 什么是MQ为什么使用MQ常见的MQ 什么是MQ MQ全称是Message Queue,消息的队列,因为是队列,所以遵循FIFO 先进先出的原则,它是一种跨进程的通信机制,用于上下游传递消息。在互联网架构中,M…

Camera | 15.闪光灯SGM3141概述

芯片说明 SGM3141是一种电流调节降压/升压电荷泵LED驱动器,能够驱动700M输出电流。它非常适合为相机闪光灯应用的高亮度LED供电。SGM3141具有1/2操作模式,用于控制闪光和火炬模式的输出电流。 电源电压在2.7V到5.5V之间工作,非常适合由1芯锂…

第三百零一回

文章目录 1. 概念介绍2. 实现方法2.1 obscureText属性2.2 decoration属性 3. 示例代码4. 内容总结 我们在上一章回中介绍了"如何实现倒计时功能"相关的内容,本章回中将介绍如何实现密码输入框.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍…

Redis的哨兵模式

Redis的哨兵模式 1、什么是哨兵模式? 能够自动监控master是否发生故障,如果故障了会根据投票数从slave中挑选一个作为master,其他的slave会自动转向同步新的master,实现故障自动转义。 2、原理 sentinel会按照指定的频率给mas…

代码随想录算法训练营第二十三天|669. 修剪二叉搜索树、108. 将有序数组转换为二叉搜索树、538. 把二叉搜索树转换为累加树。

669. 修剪二叉搜索树 题目链接:修剪二叉搜索树 题目描述: 给你二叉搜索树的根节点 root ,同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树,使得所有节点的值在[low, high]中。修剪树 不应该 改变保留在树中的元素的相对…

yolov5导出onnx模型问题

为了适配C工程代码,我在导出onnx模型时,会把models/yolo.py里面的forward函数改成下面这样, #转模型def forward(self, x):z [] # inference outputfor i in range(self.nl):x[i] self.m[i](x[i]) # convbs, _, ny, nx x[i].shape # x(…

超级详细——手撕贪吃蛇小游戏!

目录 前言 1. Win32 API介绍 1.1 Win32 API 1.2 控制台程序 1.3 控制台屏幕上的坐标COORD 1.4 GetStdHandle 1.5 GetConsoleCursorInfo 1.6 CONSOLE_CURSOR_INFO 1.7 SetConsoleCursorInfo 1.8 SetConsoleCursorPosition 1.8 GetAsyncKeyState 2.贪吃蛇游戏设计 2.…

物联网浏览器(IoTBrowser)-Modbus协议集成和测试

Modbus协议在应用中一般用来与PLC或者其他硬件设备通讯,Modbus集成到IoTBrowser使用串口插件模式开发,不同的是采用命令函数,具体可以参考前面几篇文章。目前示例实现了Modbus-Rtu和Modbus-Tcp两种,通过js可以与Modbus进行通讯控制…

代码随想录算法训练营第三十六天| 435. 无重叠区间、763.划分字母区间、56. 合并区间

435. 无重叠区间 题目链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 解题思路:按左边界进行由小到大排序,然后前一个的右边界和后一个的左边界相比,看是否相交,如果相交,…

【EI会议征稿中|ACM出版】#先投稿,先送审#第三届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2024)​

#先投稿,先送审#ACM出版#第三届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2024) 2024 3rd International Conference on Cyber Security, Artificial Intelligence and Digital Economy 2024年3月8日-10日 | 中国济南 会议官网&…

oracle数据库慢查询SQL

目录 场景: 环境: 慢SQL查询一: 问题一:办件列表查询慢 分析: 解决方法: 问题二:系统性卡顿 分析: 解决方法: 慢SQL查询二 扩展: 场景: 线…

CXO清单:低代码平台必备的16个基本功能:从需求到实现的全面指南

对于 CIO、CTO 和 CDO(在此统称为 CXO)来说,认识到快速变化的技术和竞争格局以及他们在组织中的角色变化至关重要。处理持续不断的软件开发请求、考虑不断变化的业务流程、提高客户和法规的透明度、提高企业数据安全性以及在短时间内扩展基础…

精酿啤酒:麦芽汁的煮沸与沸腾时间的影响

在啤酒酿造过程中,麦芽汁的煮沸与沸腾时间是关键的工艺参数,对啤酒的品质和口感具有显著影响。对于Fendi Club啤酒来说,合理控制煮沸与沸腾时间更是重要。 首先,麦芽汁的煮沸时间对啤酒的口感和稳定性有重要影响。煮沸时间过短&am…

如何使用宝塔面板搭建MySQL 5.5数据库并实现公网远程连接

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.2 创建HTTP隧道 4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性,使得运维难度降低,简化了Linux命令行进行繁琐的配置,下面简单几步,通过宝塔面板cp…

详解Keras3.0 Layer API: Base RNN layer

RNN layer keras.layers.RNN(cell,return_sequencesFalse,return_stateFalse,go_backwardsFalse,statefulFalse,unrollFalse,zero_output_for_maskFalse,**kwargs ) 参数说明 cell: 这是循环神经网络的单元类型,可以是LSTM、GRU等。它定义了循环神经网络的基本单…