【论文阅读】VMamba: Visual State Space Model

VMamba:视觉状态空间模型

image-20240215233716395

code:https://github.com/MzeroMiko/VMamba

Background

​ CNN拥有线性复杂度因而可以处理高分辨率的图像,而ViT在拟合能力方面超过了CNN,但ViT是二次复杂度,在处理高分辨率图像时计算开销较大。ViT通过整合全局感受野和动态权重实现了卓越的视觉建模性能,使用状态空间模型可以在继承这些组件的同时提高计算效率。

Novelty

​ 选择性扫描状态空间模型(S6)可以将二次复杂度降低为线性,但由于视觉数据的非因果性,直接将这种策略应用于图像会因为无法估计当前patch与未扫描patch之间的关系。于是引入的交叉扫描模块(CSM),CSM 不是以单向模式(列向或行向)遍历图像特征图的空间域,而是采用四向扫描策略,即从整个特征图的四个角落扫描到相反的位置。这种策略可确保特征图中的每个元素都能整合来自不同方向上所有其他位置的信息,从而在不增加线性计算复杂度的情况下形成全局感受野。

在这里插入图片描述

Contribution

  1. 提出了具有全局感受野和动态权值的视觉状态空间模型VMamba,用于视觉表示学习。VMamba为视觉基础模型提供了一种新的选择,超越了现有的CNN和ViT选择。
  2. 引入了交叉扫描模块(CSM),弥补了一维阵列扫描和二维平面遍历之间的差距,在不影响感受野的情况下,促进了S6向视觉数据的扩展。
  3. VMamba在各种视觉任务中,包括图像分类、对象检测和语义分割,都能取得很好的结果,表现了VMamba的潜力。

Method

二维选择性扫描

​ S6在处理输入数据时采用因果关系方式,只能捕捉到它扫描过的数据部分的信息。在自然语言处理等涉及时间数据的任务中,这种特性是合适的,因为信息通常按时间顺序排列,每个数据点(如文本中的词或句子)都有其在序列中的固定位置。

​ 但当S6用于处理非因果性数据,如图像、图表或集合时,就会遇到挑战。因为这些类型的数据包含的信息不仅仅是一维的,而是具有更复杂的结构,比如图像包含的是二维的空间信息。因此,仅仅沿着一个方向扫描数据将无法捕捉到所有相关信息。

​ 为了解决这个问题,文章提出了一种解决方案:通过沿着两个不同的方向(即前向和后向)扫描数据,这样可以互相补偿感受野,而不增加计算复杂度。但直接将S6的处理机制从一维扩展到二维,会导致权重变得静态(即与输入数据无关),从而失去基于上下文的数据建模能力。

​ 为保留动态权重的特性,文章选择坚持使用选择性扫描方法,但这限制了将卷积操作整合进来。作为一种补充方案,文章提出了交叉扫描模块(CSM),该模块通过沿四个不同的方向扩展图像块(从左上到右下,从右下到左上,等等),使得任何一个像素点(如中心像素)能够整合来自不同方向的其他所有像素的信息。这种方法能够使S6在保持线性复杂度的同时,扩大其感受野,使其更适用于视觉模型构建。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fraw.githubusercontent.com%2Forzorz1%2FTyporaImg%2Fmaster%2Fimg%2Fimage-20240217023044109.png&pos_id=img-i7FdmbK6-202402180019349](https://img-blog.csdnimg.cn/img_convert/251c5f4aebefb3a1c63a4d6cd76de81bfd.png4

​ 然后将所有序列重新合并为单个图像。

image-20240217023026821

VMamba

整体架构

​ 首先使用stem模块将输入图像分割成若干patch,但没有像ViT一样进一步将patch扁平化为一维序列,从而保留了图像的二维结构。接着堆叠VSS块和下采样。

image-20240217032623209

​ 提出了类似这样结构的三种不同规模的VMamba模型即 VMamba-Tiny、VMamba-Small 和 VMambaBase:

image-20240217034405201
VSS模块

​ 与ViT不同,由于位置嵌入的因果性质,在 VMamba 中没有使用位置嵌入。

​ VSS 模块比 ViT 模块更浅,这样就可以在总模型深度预算相近的情况下堆叠更多的VSS模块。

Experiment

图像分类

​ 使用ImageNet-1K数据集。

在这里插入图片描述

目标检测

​ 使用MSCOCO 2017 数据集。训练框架建立在 mmdetection 库之上,并采用了 Swin中的超参数和 Mask-RCNN 检测器。

在这里插入图片描述

​ 使用ADE20K数据集,按照 Swin 的方法,在预训练模型的基础上构建了一个 UperHead进行分割。

在这里插入图片描述

分析实验

有效感受野

image-20240218011105578

​ 只有 DeiT (ViT) 和 VMamba 表现出全局有效感受野,但DeiT (ViT) 模型的复杂度是二次的。

​ 与DeiT(ViT)的均匀激活不同,VMamba通过其交叉扫描模块的扫描机制,不仅激活所有像素,而且特别强调交叉形状的激活。这表明VMamba模型在处理每个像素时,更倾向于考虑长期依赖的上下文信息,而不仅仅是局部信息。

​ VMamba在训练前只展示了局部的有效感受野。但在训练后,其有效感受野变为全局性的,这表明VMamba经历了一种适应性过程,使得模型的全局处理能力得到了显著提升。这与DeiT的表现形成对比,后者在训练前后保持了几乎相同的有效感受野。

输入缩放

​ 进行输入缩放实验,评估了流行模型(使用 224×224 输入尺寸训练)在不同图像分辨率下的推理性能。VMamba 在不同输入图像尺寸下的性能最为稳定。当输入图像尺寸从 224 × 224 增大到 384 × 384 时,只有 VMamba 的性能呈上升趋势,这凸显了它对输入图像尺寸变化的鲁棒性。

​ 使用不同的图像分辨率(也从 64 × 64 到 1024 × 1024)对 FLOP 进行了评估。VMamba 系列的复杂度呈线性增长,与 CNN 模型一致。VMamba 的复杂度与 Swin 等精心设计的视觉ViT一致。但只有 VMamba 实现了全局有效感受野(ERF)。同样具有全局有效感受野的 DeiT 的复杂度则呈二次方增长。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/8885.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Wappalyzer指纹识别下载安装使用教程,图文教程(超详细)

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

Windows平台通过MobaXterm远程登录安装在VMware上的Linux系统(CentOS)

MobaXterm是一个功能强大的远程计算工具,它提供了一个综合的远程终端和图形化的X11服务器。MobaXterm旨在简化远程计算任务,提供了许多有用的功能,使远程访问和管理远程服务器变得更加方便,它提供了一个强大的终端模拟器&#xff…

钉钉开放平台创建企业内部H5微应用或者小程序

前言: 在当今企业数字化转型的浪潮中,创建企业内部H5微应用或小程序已成为提升工作效率和促进内部沟通的重要举措。发话不多说本文将介绍如何利用钉钉平台快速创建这些应用,让企业内部的工作更加便捷高效。 步骤 1.在浏览器打开链接…

【解决】Android APK文件安装时 已包含数字签名相同APP问题

引言 在开发Android程序过程中,编译好的APK文件,安装至Android手机时,有时会报 包含数字签名相同的APP 然后无法安装的问题,这可能是之前安装过同签名的APP,但是如果不知道哪个是,无法有效卸载,…

ESD静电问题 | 更换接口芯片

【转发微信公众号:EMC容冠电磁】

VMare Workstation安装ubuntu虚拟机异常问题处理

安装方法 ubuntu官网下载插件 异常处理 开启时报错"unable to proceed without a log file" 遇到此问题的都有一个共同点,工作目录路径上都带了数字,比如"Ubuntu 64位 01",解决方法为: 选中"Ubuntu 64位…

用得助全媒体呼叫中心,让AI落到实处帮品牌做营销

怎么让人工智能落到实处的帮助到我们?我们今天来讲讲中关村科金得助全媒体呼叫中心是怎么让AI帮品牌。 这次聊的案例是知名的护肤品牌,该品牌在中国功能性护肤品市场占有率达到20.5%,这么高的市场占有率客户的咨询量也是非常庞大的&#xff0…

C++ 继承篇

面向对象语言的三大特性:封装,继承和多态 根据目前学到的知识,对于封装的理解,大致有两层: 将数据和方法封装,不想让外面看到用private/protected修饰,想让外面看到用public修饰类型的行为不满…

[嵌入式系统-71]:RT-Thread-组件:日志管理系统ulog,让运行过程可追溯

目录 ulog 日志 1. ulog 简介 ulog 架构 配置选项 日志级别 日志标签 2. 日志初始化 初始化 去初始化 3. 日志输出 API 4. 日志使用示例 使用示例 在中断 ISR 中使用 同步模式(Synchronous Mode) 异步模式(Asynchronous Mode&…

蓝桥杯EDA客观题

目录 前言 一、PCB类知识点和题目分析 1.电阻 2.电容 3.封装类 4.单位转换类 5.电路板结构类 6.PCB绘制规则 7.立创软件 8.PCB硬件 线性电源和开关电源 二、数电知识点和题目分析 1.门电路 2.逻辑代数 3.组合逻辑电路 4.触发器 5.时序逻辑电路 6.其他 三、模…

vue3+ts之el-tooltip换行显示内容

<el-tooltip placement"top-end"><div slot"content" class"tips"><el-button type"primary" click"exportData">导出</el-button></div><template #content><span class"cont…

【项目实战】使用Yolov8 + tesseract 实现身份证信息解析(OCR) + 输入可为图片或者pdf + 完整代码 + 整体方案 + 全网首发

本项目可用于实验,毕业设计参考等。整体效果如下所示: 说明:图片来源于网络,如有侵权,请联系作者删除。 目录 一 数据集制作

C语言--带环链表问题

继续学习 一、判断链表是否带环 141. 环形链表 - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a;用快慢指针&#xff0c;快指针走两步&#xff0c;慢指针走一步&#xff0c;当慢指针走一半快指针进到环里 当慢指针进环&#xff0c;快指针已经在环中转了一会儿了 | |…

关于Java selenium使用前浏览器驱动的下载和环境变量的配置

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

vue+ant-design+formBuiler表单构建器——技能提升——form design——亲测有效

最近看到后端同事在弄一个后台管理系统&#xff0c;额&#xff0c;前端真的是夹缝中生存啊&#xff0c;AI抢饭碗&#xff0c;后端也想干前端的活儿。。。 他用到了表单构建器&#xff0c;具体效果如下: 网上有很多适用于ElementUi和ant-design的form design插件&#xff0c;下…

武汉星起航:精准市场定位引领跨境电商新潮流,创造辉煌业绩

在跨境电商领域&#xff0c;市场定位的准确性直接关系到企业的成败。武汉星起航电子商务有限公司&#xff0c;凭借其自运营团队的深厚经验和精准洞察力&#xff0c;成功在亚马逊平台开设多家自营店铺&#xff0c;并取得了显著成绩。这一成绩的取得&#xff0c;离不开公司对市场…

设计模式——行为型模式——策略模式(含实际业务使用示例、可拷贝直接运行)

目录 策略模式 定义 组成和UML图 代码示例 实际业务场景下策略模式的使用 策略模式优缺点 使用场景 JDK中使用策略模式示例 参考文档 策略模式 定义 策略模式定义了一系列算法&#xff0c;并将每个算法封装起来&#xff0c;使它们可以相互替换&#xff0c;且算法的变化…

FMEA助力医疗设备研发制造:领跑未来,实现弯道超车!

医疗设备作为保障人类健康的重要工具&#xff0c;其研发与制造水平直接关系到医疗技术的进步。然而&#xff0c;在激烈的市场竞争中&#xff0c;如何能够让自家医疗设备研发制造实现弯道超车&#xff0c;成为行业佼佼者&#xff1f;答案就在于——FMEA&#xff08;失效模式与影…

试用NXP官方的UDS bootloader

文章目录 1.前言2.资料获取2.1 MCU例程 2.2 开发环境2.3 上位机2.4 硬件 3.工程修改3.1 boot工程修改 3.2 app工程修改4.测试情况5.例程分享 1.前言 最近很多客户在开发S32K系列MCU时咨询是否可以提供基于UDS协议的bootloader。本文以S32K144为例&#xff0c;介绍如何使用NXP官…

【Mybatis操作数据库】入门(一)

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【MyBatis框架】 本专栏旨在分享MyBatis框架的学习笔记&#xff0c;如有错误定当洗耳恭听&#xff0c;欢迎大家在评论区交流讨论&#x1f…