【Mamba】MambaVision论文阅读

文章目录

  • MambaVision
  • 一、研究背景
    • (一)Transformer vs Mamba​
    • (二)Mamba in CV​
  • 二、相关工作​
    • (一)Transformer 在计算机视觉领域的进展​
    • (二)Mamba 在计算机视觉领域的探索​
  • 三、MambaVision 设计​
    • (一)宏观架构​
    • (二)微观架构​
  • 四、实验设置​
  • 五、实验结果​
  • 六、结论​


MambaVision

论文阅读​
论文链接:MambaVision: A Hybrid Mamba-Transformer Vision Backbone

本文提出了 MambaVision 这一专为视觉应用设计的混合骨干网络,通过重新设计 Mamba 结构和研究混合模式,在多项视觉任务中展现出优于同类模型的性能,为新型视觉模型的发展奠定了基础。​
SOTA


一、研究背景

(一)Transformer vs Mamba​

  • Transformer凭借注意力机制在多领域广泛应用,具备通用性和灵活性,适用于多模态学习。然而,其注意力机制的二次复杂度使得训练和部署成本高昂。​
  • Mamba作为一种新型状态空间模型(SSM),时间复杂度为线性,在语言建模任务中表现优异,甚至超越Transformer,其核心创新在于引入选择机制,可高效处理长序列数据。​

(二)Mamba in CV​

受 Mamba 启发,部分基于 Mamba 的骨干网络被应用于视觉任务,但 Mamba 的自回归特性在视觉领域存在局限

  1. 图像像素的空间关系具有局部且并行的特点,没有顺序依赖关系,与 Mamba顺序处理的序列数据不同。
  2. 像Mamba这样的自回归模型逐步处理数据的方式难以在一次前向传播中捕捉全局上下文,而视觉任务往往需要全局信息来准确判断局部。​

二、相关工作​

(一)Transformer 在计算机视觉领域的进展​

1. ViT:利用自注意力层扩大感受野,但缺乏 CNN 的归纳偏差和位移不变性,需大规模数据集训练。​
2. DeiT:引入知识蒸馏训练策略,能在小数据集上显著提升分类准确率。​
3. LeViT:融合重新设计的多层感知机和自注意力模块,优化推理速度,提升效率和性能。​
4. XCiT:引入转置自注意力机制,增强对特征通道交互的建模能力。​
5. PVT:金字塔视觉,引入特征金字塔,可以生成多尺度的特征图用于密集预测任务,采用分层结构,降低空间维度,提高计算效率。
6. Swin Transformer:通过局部窗口自注意力平衡局部和全局上下文。​
7. Twins Transformer:其空间可分离自注意力机制提升了效率。​
8. Focal Transformer:利用焦点自注意力捕捉长距离空间交互细节。​

(二)Mamba 在计算机视觉领域的探索​

1.Vim:提出双向 SSM,试图提升全局上下文捕捉能力,但双向编码增加计算量,导致训练和推理变慢,且难以有效融合多方向信息。​
2.EfficientVMamba:采用空洞卷积和跳跃采样提取全局空间依赖关系,使用分层架构,在不同分辨率下分别利用 SSM 和 CNN 的优势。​

相比之下,MambaVision 在高分辨率下利用 CNN 更快提取特征,低分辨率下结合 SSM和自注意力捕捉更细粒度细节,在准确率和吞吐量上更具优势。​

3.VMamba:引入跨扫描模块 CSM 实现一维选择扫描,扩大全局感受野,但感受野受跨扫描路径限制。​

相比之下,MambaVision 的混合器设计更简单,能捕捉短程和长程依赖,且使用 CNN 层快速提取特征,在性能和吞吐量上更优。​

三、MambaVision 设计​

(一)宏观架构​

MambaVision 采用分层架构,包含 4 个不同阶段。​宏观架构

  • 前两个阶段使用残差卷积块,用于在较高输入分辨率下快速提取特征。​
  • 后两个阶段融合了 MambaVision 和Transformer 块。​

具体而言,给定N层,使用N个MambaVision 和MLP块,随后是另外N 个Transfomer 和 MLP 块。最终层中的Transformer 块能够恢复丢失的全局上下文,并捕捉长距离的空间依赖关系。

(二)微观架构​

Mamba 是结构化状态空间序列模型(S4)的扩展,能将 1D 连续输入转换为输出。​
其连续参数经离散化处理后,可通过全局卷积计算输出。​
微观架构

为使 Mamba 更适用于视觉任务,重新设计了 Mamba 混合器:​

  1. 用常规卷积替换因果卷积,因为因果卷积限制了信息传播方向,对视觉任务不利;​
  2. 添加无 SSM 的对称分支,由额外卷积和 SiLU 激活函数组成,补偿因 SSM 顺序约束丢失的信息;​
  3. 将两个分支输出拼接并通过线性层投影,使最终特征表示融合顺序和空间信息。​ 此外,采用通用多头自注意力机制,其计算方式与以往研究类似。​

四、实验设置​

1.图像分类​

  • 在 ImageNet-1K 数据集上进行图像分类实验,遵循标准训练方法,所有模型均训练300个epoch,采用余弦衰减调度器,其中分别使用了20个epoch进行预热和冷却阶段。使用LAMB 优化器,设置全局批量大小4096、初始学习率0.005和权重衰减0.05,利用 32 个 A100 GPU 加速训练。​

2.目标检测和实例分割​

  • 以预训练模型为骨干网络,在 MS COCO 数据集上进行目标检测和实例分割任务,使用 Mask-RCNN 头,超参数设置初始学习率0.0001、批量大小16、权重衰减为0.05的X3学习率调度,使用 8 个 A100 GPU 进行训练。​

3.语义分割​

  • 在 ADE20K 数据集上进行语义分割任务,使用 UperNet 头和 Adam-W 优化器,初始学习率6e-5,全局批量大小16,使用 8 个 A100 GPU 进行训练。​

五、实验结果​

1.图像分类​

  • MambaVision 在 ImageNet-1K 分类任务中表现卓越,在 Top-1
    准确率和图像吞吐量方面大幅超越CNN、Transformer、Conv - Transformer 和 Mamba 的不同模型系列。​

  • 与流行模型如 ConvNeXt 和 Swin Transformer 相比,MambaVision-B 的 Top-1准确率更高,图像吞吐量也更优。

  • 与基于 Mamba 的模型相比同样展现出优势,且 MambaVision模型变体的计算量(FLOPs)低于同等规模的其他模型。​
    图像分类

2.目标检测与分割​

  • 在 MS COCO 数据集的目标检测和实例分割实验中,使用简单 Mask-RCNN 检测头,预训练的 MambaVision-T
    骨干网络在 AP box和AP mask上超越 ConvNeXt-T 和 Swin-T 模型。​

  • 使用 Cascade Mask-RCNN 网络时,MambaVision-T、MambaVision-S 和 MambaVision-B
    表现更优,在 AP box和 AP mask上相对于对比模型有明显提升。​
    目标检测

  • 在 ADE20K 数据集的语义分割任务中,MambaVision 不同变体在 mIoU 指标上优于相近规模的竞争模型,验证了其作为视觉骨干网络在不同任务中的有效性,尤其在高分辨率设置下表现出色。​
    语义分割


3.消融实验​

  • 对 MambaVision 混合器进行消融实验,结果表明用常规卷积替换因果卷积、添加对称分支(即SMM和非SMM)并拼接输出,能显著提升模型在分类、目标检测、实例分割和语义分割任务中的性能,验证了设计的有效性。​
    消融实验
  • 研究不同混合集成模式对模型的影响发现,在每个阶段最后几层使用自注意力块的设计能有效提升性能,且当自注意力块数量增加到每个阶段最后 N/2 层时,模型达到最佳性能。​

六、结论​

  • 首次提出 MambaVision 这一专为视觉应用设计的 Mamba-Transformer 混合骨干网络。​
  • 重新设计 Mamba公式增强了全局上下文表示学习能力,全面研究混合设计集成模式。​
  • MambaVision 在 Top-1准确率和图像吞吐量上达到新的最优前沿,大幅超越基于 Transformer 和 Mamba 的模型,为新一代混合视觉模型发展提供了基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901991.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端面试宝典---原型链

引言----感谢大佬的讲解 大佬链接 原型链示意图 原型链问题中需要记住一句话:一切变量和函数都可以并且只能通过__proto__去找它所在原型链上的属性与方法 原型链需要注意的点 看上图可以发现 函数(构造函数)也可以通过__proto__去找到原…

C语言---FILE结构体

一、FILE 结构体的本质与定义 基本概念 FILE 是 C 语言标准库中用于封装文件操作的结构体类型&#xff0c;定义于 <stdio.h> 中。它代表一个“文件流”&#xff0c;可以是磁盘文件、标准输入输出&#xff08;stdin/stdout/stderr&#xff09;或其他输入输出设备。 实现特…

基于大模型的直肠息肉诊疗全流程风险预测与方案优化研究报告

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 二、大模型技术概述 2.1 大模型原理简介 2.2 大模型在医疗领域应用现状 三、直肠息肉术前预测与准备 3.1 基于大模型的术前风险预测 3.1.1 息肉性质预测 3.1.2 手术难度预测 3.2 基于预测结果的术前准备 3.…

华为OD机试真题——MELON的难题(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析&#xff1b; 并提供Java、python、JavaScript、C、C语言、GO六种语言的最佳实现方式&#xff01; 2025华为OD真题目录全流程解析/备考攻略/经验分享 华为OD机试真题《MELON的…

AI数据分析与BI可视化结合:解锁企业决策新境界

大家好&#xff0c;今天我们来聊聊一个前沿而热门的话题——AI数据分析与BI可视化结合&#xff0c;如何携手推动企业决策迈向新高度。在数据爆炸的时代&#xff0c;企业如何高效利用这些数据&#xff0c;成为制胜的关键。AI数据分析与BI可视化的结合&#xff0c;正是解锁这一潜…

克服储能领域的数据处理瓶颈及AI拓展

对于储能研究人员来说&#xff0c;日常工作中经常围绕着一项核心但有时令人沮丧的任务&#xff1a;处理实验数据。从电池循环仪的嗡嗡声到包含电压和电流读数的大量电子表格&#xff0c;研究人员的大量时间都花在了提取有意义的见解上。长期以来&#xff0c;该领域一直受到对专…

【SpringBoot+Vue自学笔记】002 SpringBoot快速上手

跟着这位老师学习的&#xff1a;https://www.bilibili.com/video/BV1nV4y1s7ZN?vd_sourceaf46ae3e8740f44ad87ced5536fc1a45 最好和老师的idea版本完全一致&#xff01;截至本文写的当日最新的idea好像默认jdk17&#xff0c;配置时遇到很多bug。 &#x1f33f; Spring Boot&a…

SpringAI+DeepSeek大模型应用开发——2 大模型应用开发架构

目录 2.大模型开发 2.1 模型部署 2.1.1 云服务-开放大模型API 2.1.2 本地部署 搜索模型 运行大模型 2.2 调用大模型 接口说明 提示词角色 ​编辑 会话记忆问题 2.3 大模型应用开发架构 2.3.1 技术架构 纯Prompt模式 FunctionCalling RAG检索增强 Fine-tuning …

蓝桥杯12. 日期问题

日期问题 原题目链接 题目描述 小明正在整理一批历史文献。这些历史文献中出现了很多日期。 小明知道这些日期都在 1960 年 1 月 1 日 至 2059 年 12 月 31 日 之间。 令小明头疼的是&#xff0c;这些日期采用的格式非常不统一&#xff1a; 有的采用 年/月/日有的采用 月…

STM32使用rand()生成随机数并显示波形

一、随机数生成 1、加入头文件&#xff1a;#include "stdlib.h" 2、定义一个用作生成随机数种子的变量并加入到滴答定时器中不断自增&#xff1a;uint32_t run_times 0; 3、设置种子&#xff1a;srand(run_times);//每次生成随机数前调用一次为佳 4、生成一个随…

『前端样式分享』联系我们卡片式布局 自适应屏幕 hover动效 在wikijs中使用 (代码拿来即用)

目录 预览效果分析要点响应式网格布局卡片样式&#xff1a;阴影和过渡效果 代码优化希望 长短不一的邮箱地址在左右居中的同时,做到左侧文字对齐(wikijs可用)总结 欢迎关注 『前端布局样式』 专栏&#xff0c;持续更新中 欢迎关注 『前端布局样式』 专栏&#xff0c;持续更新中…

【ubuntu】在Linux Yocto的基础上去适配Ubuntu的wifi模块

一、修改wifi的节点名 1.找到wifi模块的PID和VID ifconfig查看wifi模块网络节点的名字&#xff0c;发现是wlx44876393bb3a&#xff08;wlxmac地址&#xff09; 通过udevadm info -a /sys/class/net/wlx44876393bba路径的命令去查看wlx44876393bba的总线号&#xff0c;端口号…

健康养生:开启活力生活新篇章

在当代社会&#xff0c;熬夜加班、久坐不动、外卖快餐成为许多人的生活常态&#xff0c;随之而来的是各种亚健康问题。想要摆脱身体的疲惫与不适&#xff0c;健康养生迫在眉睫&#xff0c;它是重获活力、拥抱美好生活的关键。​ 应对不良饮食习惯带来的健康隐患&#xff0c;饮…

【verilog】多个 if 控制同一个变量(后面会覆盖前面)非阻塞赋值真的并行吗?

非阻塞赋值 (<) 是“并行”的&#xff0c;但是代码顺序会影响结果&#xff1f;”这正是 Verilog 的硬件描述本质 vs 行为语义之间的微妙之处。 &#x1f4a1;1. 非阻塞赋值真的并行吗&#xff1f; 是的&#xff01;非阻塞赋值 < 从行为上是并行的&#xff0c;也就是说&a…

前沿篇|CAN XL 与 TSN 深度解读

引言 1. CAN XL 标准演进与设计目标 2. CAN XL 物理层与帧格式详解 3. 时间敏感网络 (TSN) 关键技术解析 4. CAN XL + TSN 在自动驾驶领域的典型应用

vscode、cherry studio接入高德mcp服务

最近mcp协议比较火&#xff0c;好多平台都已经开通了mcp协议&#xff0c;今天来接入下高德的mcp看看效果如何。 话不多说&#xff0c;咱们直接开干。 先来看下支持mcp协议的工具有cusor、cline等等。更新cherrystudio后发现上面也有mcp服务器了。今天咱就来试试添加高德的mcp协…

Triton(2)——Triton源码接结构

1 triton 3.0.0 源码结构 triton docs/&#xff1a;项目文档 cmake/&#xff1a;构建配置相关 bin/&#xff1a;工具、脚本 CmakeLists.txt&#xff1a;cmake 配置文件 LSCENSE README.md Pyproject.toml&#xff1a;python 项目配置文件 utils/&#xff1a;项目配置文…

React 事件处理基础

React 中最常见的两个需求&#xff0c;一个是列表渲染&#xff0c;另一个就是绑定点击事件。 这一篇就是从最基础的按钮点击开始&#xff0c;分四个阶段&#xff0c;逐步理解 React 中事件的写法和参数传递方式。 &#x1f4cd;阶段一&#xff1a;最简单的点击事件 function A…

java的lambda和stream流操作

Lambda 表达式 ≈ 匿名函数 &#xff08;Lambda接口&#xff09;函数式接口&#xff1a;传入Lambda表达作为函数式接口的参数 函数式接口 只能有一个抽象方法的接口 Lambda 表达式必须赋值给一个函数式接口&#xff0c;比如 Java 8 自带的&#xff1a; 接口名 作用 Functio…

Dify智能体平台源码二次开发笔记(6) - 优化知识库pdf文档的识别

目录 前言 新增PdfNewExtractor类 替换ExtractProcessor类 最终结果 前言 dify的1.1.3版本知识库pdf解析实现使用pypdfium2提取文本&#xff0c;主要存在以下问题&#xff1a; 1. 文本提取能力有限&#xff0c;对表格和图片支持不足 2. 缺乏专门的中文处理优化 3. 没有文档结…