多模态特征融合新突破!5大方法刷新顶会SOTA!

多模态融合可以应用于情感分析、身份验证、行为识别等多个领域,实现更精确的预测和判断。这其中,特征融合是多模态数据处理的核心环节,它不仅能够提高模型的性能,还能够增强数据的表达力,让模型能够更好地理解和处理现实世界中的复杂问题。因此,多模态特征融合迅速成为了研究热点。

为帮助同学们深入了解该方向,获得论文灵感,本文介绍多模态特征融合5种常用方法,并附上每种方法的代表性论文和最新成果(11篇),开源代码也整理了,方便各位理解并实践。

论文与代码需要的同学看文末

1.基于因果注意力

An Explainable Attention Network for Fine-Grained shipClassification Using Remote-Sensing Images

方法:论文提出一种可解释的注意力网络,用于细粒度船舶分类。该网络旨在增加对对象区分部分的关注,并探索多个注意力部分与预测结果之间的内在关系。通过结构因果模型将多头注意力机制与因果推断相结合,生成几个因果多头注意力图。将网络最后一层的卷积滤波器分为几个组,每个组根据滤波器损失函数表示特定的语义信息。

创新点:

  • 通过使用深度卷积神经网络提取输入图像的高级特征,从而实现对船只的细粒度分类。

  • 提出了一个新的解释性注意力网络,由CMAM和FAM两部分组成,用于生成可解释的图像特征。

  • 利用卷积层从高级特征图中获取多个注意力图,实现对船只图像的细节部分的关注。

2.基于线性

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

方法:本文提出了一种双分支Transformer-CNN架构,用于多模态图像融合。通过Restormer、Lite transformer和可逆神经网络模块的帮助,可以更好地提取模态特定和共享特征,并且通过提出的基于相关性的分解损失,对它们进行更直观和有效的分解。

创新点:

  • 提出了一个双分支Transformer-CNN架构,用于多模态图像融合。该架构利用Restormer、Lite transformer和可逆神经网络块,更好地提取了特定于模态和共享的特征,并通过所提出的相关驱动分解损失更直观和有效地对它们进行了分解。

  • 采用可逆神经网络(INN)的建模块来解决丢失高频输入信息的挑战。INN通过设计实现了反演性质,防止了信息在输入和输出特征之间的丢失,并与我们保留融合图像中高频特征的目标相一致。

3.基于双线性

Improving Few-Shot Remote Sensing Scene Classification With Class Name Semantics

方法:论文提出了一种新的基于原型网络的FSRSSC方法,称为改进的具有类名语义的原型网络(CNSPN)。CNSPN首先使用预训练的词嵌入模型提取类名的语义信息,从数据源丰富了类别的特征表示能力。然后,通过多模态原型融合模块(MPFM),将文本的语义信息和图像的视觉信息融合生成增强的融合原型。最后,通过测量查询样本与视觉原型以及融合原型之间的距离,对查询图像进行分类。

创新点:

  • CNSPN模型:提出了一种新的FSRSSC模型,即基于原型网络的改进原型网络与类名语义(CNSPN)。该模型利用类名的语义信息来丰富类别的特征表示能力,并通过多模态原型融合模块(MPFM)将文本的语义信息与图像的视觉信息进行融合,生成增强的融合原型。

  • 类名语义信息:利用预训练的词嵌入模型提取类名的语义信息,使得类别的特征表示更加丰富。通过融合图像的视觉特征和类名的语义特征,生成增强的融合原型,通过监督查询样本的方式有效地增强了视觉特征提取器的能力。

4.基于多层特征嵌入

Video Understanding-Based Random Hand Gesture Authentication

方法:本文主要研究了随机手势认证中的随机手势认证模型压缩方法。由于现有方法的参数数量过大,无法直接部署在移动设备上,因此引入了知识蒸馏方法来压缩Temporal Difference Symbiotic Neural Network (TDS-Net)模型。通过使用知识蒸馏方法,成功地减少了学生模型的参数数量,而平均等错误率仅略微增加。此外,通过对注意力模块的研究和改进,进一步提升了知识蒸馏的性能。

创新点:

  • 使用知识蒸馏方法压缩TDS-Net并获得更轻量级的学生网络,以平衡计算成本和模型性能。

  • 重新设计了KDKR的基于注意力的融合模块,进一步提高了蒸馏性能。

5.基于交叉注意力

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

方法:如何有效地融合激光雷达和摄像机数据进行多模态三维物体检测?作者提出了InverseAug和LearnableAlign两种技术来实现深度特征的对齐,从而实现准确和稳健的三维物体检测。开发了一种名为DeepFusions的简单、通用且有效的多模态三维检测器,其在Waymo开放数据集上取得了最先进的性能。

创新点:

  • 提出了两个技术:InverseAug和LearnableAlign,用于实现多模态特征的有效对齐

  • 开发了一种名为DeepFusions的多模态3D检测器,通过深度特征融合在现有的3D检测框架上取得了最先进的性能

  • 在Waymo开放数据集上取得了最先进的性能,成为了第一个系统研究深度特征对齐对于3D多模态检测器影响的研究论文

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态特征”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/746845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

案例分析篇05:数据库设计相关28个考点(9~16)(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

专栏系列文章推荐: 2024高级系统架构设计师备考资料(高频考点&真题&经验)https://blog.csdn.net/seeker1994/category_12593400.html 【历年案例分析真题考点汇总】与【专栏文章案例分析高频考点目录】(2024年软考高级系统架构设计师冲刺知识点总结-案例分析篇-…

白嫖AWS云服务器,验证、注册指南

背景 不知道你想不想拥有一台属于自己的云服务器呢,拥有一台自己的云服务器可以建站,可以在上面搭建个人博客,今天我就来教大家如何申请亚马逊 AWS 免费云服务器,这个云服务器可以长达12个月的免费。而且到期后可以继续换个账号继…

测试人员业务提升的几个方面

📋 个人简介 作者简介:大家好,我是凝小飞,软件测试领域作者支持我:点赞👍收藏⭐️留言📝 整个文章来源于我的xmind梳理和总结,接下来为各位一步步拆解。 一、测试流程遵守和推进 在…

离线安装数据库 mysql 5.7 linux

离线安装数据库 mysql 5.7 linux 方法一 参考链接Linux(Debian10.2)安装MySQL5.7.24环境 赋予文件执行权限chmod x 文件名 使用root用户sudo su解压文件tar xvf mysql-5.7.42-linux-glibc2.12-x86_64.tar.gz重命名mv mysql-5.7.42-linux-glibc2.12-x86_64 mysql将桌面的mys…

使用 URLDecoder 和 URLEncoder 对中文字符进行编码和解码

请直接看原文: 使用 URLDecoder 和 URLEncoder 对中文字符进行编码和解码_urldecoder.decode-CSDN博客 ------------------------------------------------------------------------------------------------------------------------------- 摘要: URLDecoder 和…

plotnine,一个非常实用的 Python 库!

大家好,今天为大家分享一个非常实用的 Python 库 - plotnine。 Github地址:https://github.com/has2k1/plotnine 在数据分析和可视化领域,Python 提供了许多强大的工具和库。其中,plotnine 是一个基于 Grammar of Graphics 理论的…

短剧在线搜索源码

一个非常哇塞的在线短剧搜索页面,接口已经对接好了,上传源码到服务器解压就能直接用,有能力的可以自己改接口自己写自己的接口 接口文档地址:doc.djcat.sbs 源码免费下载地址抄笔记

YOLOv8_pose-Openvino和ONNXRuntime推理【CPU】

纯检测系列: YOLOv5-Openvino和ONNXRuntime推理【CPU】 YOLOv6-Openvino和ONNXRuntime推理【CPU】 YOLOv8-Openvino和ONNXRuntime推理【CPU】 YOLOv7-Openvino和ONNXRuntime推理【CPU】 YOLOv9-Openvino和ONNXRuntime推理【CPU】 跟踪系列: YOLOv5/6/7-O…

rtsp流实现web端实时播放(海康+大华)

最近的电力项目需要嵌入海康摄像头画面,之前没有做过类似的流媒体播放,所以有些懵; 海康开放平台的webAPI,有插件还是无插件,都不适合自研web系统的嵌入,所以需要自己进行解流; 首先&#xff0c…

企业即时通讯工具,企业内部即时通讯系统推荐

企业需要私有化即时通讯系统主要出于以下几个方面的考虑, 数据安全和隐私保护:在企业日常办公中,涉及到大量的敏感信息和机密数据,这些信息如果通过公共即时通讯工具传输,存在被窃取或泄露的风险。通过私有化即时通讯…

如何将Git拉取项目后,将SSH验证方式修改为HTTPS?

首先在打开项目所在位置的Git BashGUI 查找当前的远程仓库URL: 打开终端或命令提示符,导航到你的项目目录,并使用以下命令查看当前配置的远程仓库URL: git remote -v这会显示如下格式的输出: origin gitgithub.com:用…

Linux中GPU相关命令

Linux查看显卡信息: lspci | grep -i vga 使用nvidia GPU可以: lspci | grep -i nvidia1 前边的序号 "00:0f.0"是显卡的代号(这里是用的虚拟机); 查看指定显卡的详细信息用以下指令: lspci -v -s 00:0f.01 Linux查看Nvidia显…

RedisTemplate实现锁超时时间延长(模仿Redisson看门狗机制)

业务场景: 在上一篇-Java业务功能并发问题处理的最后,我们用RedisTemplate实现了一个分布式锁,但是后面又有用户反馈同个单据出现了重复操作,让我们回忆下上次的加锁代码: 问题描述: 原因出现在我们锁住…

【开源工程】超经典实景三维数字孪生矿山~智慧矿山解决方案

飞渡科技数字孪生煤矿管理平台,以数字孪生技术为底座,融合图像识别、电磁感应、5G下井等技术,实现矿山环境、采煤装备、移动巡检等生产数据的全面采集,实时感知生产过程与关键装备的运行数据和状态,逐步推进矿山全流程…

Python爬虫从基础到入门:script标签中的数据

上一篇文章: Python爬虫从基础到入门:script标签中的数据 1. 分析需要抓取的数据的在哪?2. 获取数据、解析数据3. 下载视频、音频文件4. 参考代码1. 分析需要抓取的数据的在哪? 本篇博文以B站视频为例,B站视频在用户没有登录的状态下,只能观看视频尺寸为360流畅,在登录…

深度剖析Kafka中Coordinator的奥秘

欢迎来到我的博客,代码的世界里,每一行都是一个故事 深度剖析Kafka中Coordinator的奥秘 前言什么是Coordinator?Group Coordinator(群组协调器):Transaction Coordinator(事务协调器&#xff09…

一文让您读懂实时数仓(Apache Doris)

引言: 随着大数据时代的来临,实时数据处理与分析成为企业核心竞争力的关键因素之一。在这场数据革命中,SelectDB成为引领者。从百度自研的实时数仓平台 Palo,到开源项目 Apache Doris,再到飞轮科技研发的 SelectDB&am…

程序人生——Java数组和集合使用建议(1)

目录 引出数组和集合建议60:性能考虑,数组是首选建议61:若有必要,使用变长数组建议62:警惕数组的浅拷贝 建议63:在明确的场景下,为集合指定初始容量建议64:多种最值算法,…

使用opencv进行图片分析

opencv学习 一、配置环境并打开编译器 配置opencv在你的任意一个盘里创建一个专属于opencv的文件夹便于学习与整理 打开控制台winr输入cmd,进入后输入conda activate opencv,进入环境以后进入你所设置的opencv文件的盘,我的是D盘&#xff0…

php.exe运行时,提示缺少VCRUNTIME140.dll

php.exe运行时,提示缺少VCRUNTIME140.dll 下载地址 https://www.microsoft.com/zh-cn/download/details.aspx?id48145根据需要选择下载3.运行安装后,再次运行php.exe。