刷新多个SOTA!最新Mamba魔改版本超越transformer,GPU内存消耗减少74%

因模型规模的扩展和需要处理的序列不断变长,transformer逐渐出现计算量激增、计算效率下降等问题。为克服这些缺陷,研究者们提出了Mamba。

Mamba是一种创新的线性时间序列建模方法,它结合了递归神经网络(RNN)和卷积神经网络(CNN)的特点,以提高处理长序列数据时的计算效率。

Mamba的设计和实现都展现出在处理长序列时的优势,在语言建模方面成功超越transformer。因此,面向Mamba及其魔改变体的研究也逐渐成为了热门,出现了很多可挖掘的创新点。

为帮助同学们获取灵感,我整理了15个今年最新的Mamba魔改创新方案,这些变体大多应用于图像分割、文本摘要、点云分析等领域,比如多伦多大学团队提出的U-Mamba、在大型图上减少了高达74%GPU内存消耗的Graph-Mamba。

论文以及开源代码需要的同学看文末

U-Mamba

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation

方法:本文介绍了一种新的架构U-Mamba,用于通用生物医学图像分割,它结合了CNN的局部模式识别和Mamba的全局上下文理解的优势。U-Mamba可以自动配置自身以适应不同的数据集,使其成为生物医学成像中多样化分割任务的多功能和灵活工具。

创新点:

  • U-Mamba是一种新的通用网络架构,用于生物医学图像的分割任务。

  • U-Mamba采用了创新的混合CNN-SSM架构,能够捕捉图像中的局部细粒度特征和长程依赖关系。

  • U-Mamba相比于基于Transformer的架构,在特征大小方面具有线性扩展的能力,而不是传统Transformer架构中的二次复杂度。

  • U-Mamba具有自配置能力,可以适应不同的数据集,提高了在生物医学图像分割任务中的可扩展性和灵活性。

  • U-Mamba还具有进一步增强和扩展的潜力,可以利用大规模数据集进行训练,提供预训练模型权重,以便在数据有限的任务上进行微调。

  • U-Mamba的设计还支持与先进技术的集成,如针对小数据集的强数据增强、高度不平衡目标的损失函数和基于区域的训练等。

Weak-Mamba-UNet

Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

方法:本文介绍了一种创新的弱监督学习框架Weak-Mamba-UNet,该框架利用了卷积神经网络(CNN)、视觉Transformer(ViT)和最先进的Visual Mamba(VMamba)架构,用于医学图像分割,特别是在处理基于涂鸦注释时。该框架采用了三种不同的架构,但具有相同的对称编码器-解码器网络:基于CNN的UNet用于详细的局部特征提取,基于Swin Transformer的SwinUNet用于全面的全局上下文理解,基于VMamba的Mamba-UNet用于高效的长程依赖建模。

创新点:

  • 弱监督学习框架:Weak-Mamba-UNet是一种创新的弱监督学习框架,通过结合CNN、ViT和VMamba的特征学习能力,显著降低了注释所需的成本和资源。

  • 多视角交叉监督学习:该框架采用多视角交叉监督学习方法,增强了不同网络架构的适应性,使它们能够相互受益。

  • Visual Mamba网络架构:本研究证明了Visual Mamba网络架构在有限信号监督下的医学图像分割中的有效性,突出了该网络在分割任务中的高准确性,并强调了在资源有限的医学图像分析中的广泛应用潜力。

Graph-Mamba

Graph-Mamba: Towards Long-Range Graph Sequence Modeling with Selective State Spaces

方法:为了解决图转换器中高计算成本的问题,作者提出了一种名为Graph-Mamba的方法,该方法结合了选择性状态空间模型和图网络设计。研究采用了Louvain算法进行无监督图分区,并引入了节点优先级技术和基于排列的训练方法来处理非顺序图数据。

创新点:

  • 创新的图网络设计:Graph-Mamba是一种新型的图网络,首次将选择性状态空间模型与图网络集成,实现了输入相关的节点过滤和自适应上下文选择。选择机制捕捉了长程依赖关系,并改进了现有的基于子采样的注意力稀疏化技术。

  • 卓越的性能和效率:对十个公共数据集进行的综合实验表明,Graph-Mamba不仅优于基准模型,而且在计算复杂度上实现了线性时间。值得注意的是,Graph-Mamba在大型图上减少了高达74%的GPU内存消耗,突显了其在长程图数据集上的高效性。

  • 非顺序图数据的SSM适应性:作者设计了一种优雅的方法来扩展状态空间模型以处理非顺序图数据。具体而言,作者引入了一种节点优先级技术,以优先考虑重要节点以获得更多上下文信息,并采用基于排列的训练方法来减小序列相关偏差。

Swin-UMamba

Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

方法:本文提出了一种基于Mamba的网络Swin-UMamba,用于2D医学图像分割。Swin-UMamba使用通用编码器将预训练视觉模型的能力与精心设计的解码器相结合,用于医学图像分割任务。此外,作者还提出了一种具有基于Mamba的解码器的变体结构Swin-UMamba†,用于高效应用,具有更少的参数和更低的FLOPs。

创新点:

  • Swin-UMamba:提出了一种基于Mamba的网络Swin-UMamba,用于2D医学图像分割。此外,还提出了一种变体结构Swin-UMamba†,具有基于Mamba的解码器,参数更少、FLOPs更低,适用于高效应用。

  • 整合基于ImageNet的预训练:有效地将通用预训练模型整合到医学图像分割任务中是一个主要挑战。

  • 数据集:作者评估了Swin-UMamba在三个不同的医学图像分割数据集上的性能和可扩展性,包括器官分割、仪器分割和细胞分割。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“Mamba”获取论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/698644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[面试] InnoDB中如何解决幻读?

幻读是通过 MVCC 机制来解决的, MVCC 类似于一种乐观锁的机制,通过版本的方式来区分不同的并发事务,避免幻读 问题! 什么是幻读? 事务A前后两次读取同一个范围的数据,在事务A两次读取的过程之间,事务B新增了数据,导致…

星际修仙之剑胆琴心

剧名:《星际修仙之剑胆琴心》 类型:科幻修仙爱情剧 故事大纲: 在遥远的未来,人类文明已经发展到星际时代,科技与修仙相结合,形成了一种全新的文明形态。在这个时代,修仙者不再局限于传统的修炼方…

DR 或CT拍摄中的:平板、控制板、高压之间的关系

DR 或CT拍摄中的:平板、控制板、高压之间的关系 在DR(Digital Radiography,数字放射摄影)和CT(Computed Tomography,计算机断层扫描)拍摄过程中,平板探测器和平板控制板与高压发生器…

图文说明Linux云服务器如何更改实例镜像

一、应用场景举例 在学习Linux的vim时,我们难免要对vim进行一些配置,这里我们提供一个vim插件的安装包: curl -sLf https://gitee.com/HGtz2222/VimForCpp/raw/master/install.sh -o./install.sh && bash ./install.sh 但是此安装包…

跳槽前应该做好哪些准备?

第一次求职也好,还是换工作也罢,都需要有严谨的考虑。对于已经工作上班的朋友来说,切不可轻易地辞掉工作,想要跳槽,一定要三思而后行,有一个周密的部署。跳槽有好处,也有弊端,频繁的…

如何和将原始request的Header中的值传递给openfeign请求的Header? 以及又如何获取openfeign请求中Header中的值

如何和将原始request的Header中的值传递给openfeign请求的Header? 以及又如何获取openfeign请求中Header中的值 如何和将原始request的Header中的值传递给openfeign请求的Header参考 [https://www.jb51.net/article/282522.htm](https://www.jb51.net/article/28252…

【学网攻】 第(30)节 -- 综合实验三

系列文章目录 目录 系列文章目录 文章目录 前言 一、综合实验 二、实验 1.引入 实验目标 实验设备 实验拓扑图 实验配置 文章目录 【学网攻】 第(1)节 -- 认识网络【学网攻】 第(2)节 -- 交换机认识及使用【学网攻】 第(3)节 -- 交换机配置聚合端口【学网攻】 第(4)节…

Python字典详细教程

Python字典(Dictionary)是一个无序的、可变的、包含键值对的数据结构,每个键(key)在字典中都是唯一的,可以用来索引其对应的值(value)。 一、创建字典 Python字典由键和对应值成对…

探讨导致vcruntime140_1.dll无法继续执行代码的原因和解决办法

在使用电脑过程中,我们偶尔会遇到一些令人不悦的错误提示,如"vcruntime140_1.dll丢失"。这个错误提示可能会给我们带来诸多困扰,阻碍我们正常地进行操作。本文将详细探讨导致"vcruntime140_1.dll丢失"错误的原因&#xf…

Java基于SSM+JSP的超市进销库存管理系统

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

如何区分恶意网络流量

笔记缘由:在看论文的过程中,论文中提到在某个数据集中,有多少条恶意流量和非恶意流量,突然想到一个问题就是这些恶意流量是如何被判刑为恶意流量的? 1. 基于已知的恶意行为 ​ 通过已知的恶意行为来识别恶意流量&…

singularity容器的技术基础

Singularity容器技术是专为科学计算、数据密集型工作和高性能计算(HPC)环境设计的。与其他容器技术如Docker相比,Singularity提供了一些独特的特性和设计考虑,使其在科学和研究社区中受到欢迎。以下是Singularity容器技术的一些关…

android pdf框架-4,分析vudroid源码2

继续分析源码 阅读器的入口 MainBrowserActivity,这个是主ui,由于代码较旧,所以没有处理sdcard的权限. 一般阅读器申请整个卡的读写. if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.R) {if (!Environment.isExternalStorageManager()) {Intent intent = new Intent…

开源图表库Echarts 简介与基本使用

ECharts 是一个使用 JavaScript 实现的开源可视化图表库,由百度团队开发。它提供了丰富的图表类型,如折线图、柱状图、饼图、地图、雷达图等,并且可以轻松地与其他前端框架和库集成。ECharts 的设计目的是为了满足复杂数据的可视化需求&#…

flutter开发实战-StreamBuilder使用介绍及实例

flutter开发实战-StreamBuilder使用介绍及实例 StreamBuilder是一个Widget,它依赖Stream来做异步数据获取刷新widget。 一、Stream Stream是一种用于异步处理数据流的机制,它允许我们从一段发射一个事件,从另外一段去监听事件的变化.Strea…

Leetcode3035. 回文字符串的最大数量

Every day a Leetcode 题目来源:3035. 回文字符串的最大数量 解法1:哈希 排序 由于可以随意交换字母,先把所有字母都取出来,然后考虑如何填入各个字符串。 如果一个奇数长度字符串最终是回文串,那么它正中间的那…

精美的WordPress外贸独立站模板

WordPress外贸独立站主题 简洁实用的WordPress外贸独立站主题,适合时尚服装行业搭建wordpress企业官网使用。 https://www.jianzhanpress.com/?p4999 简洁wordpress独立站模板 绿色精美、简洁大气的wordpress外贸独立网站模板 https://www.jianzhanpress.com/?…

分享一个UE的SmoothStep小技巧

SmoothStep节点可以制作更平滑的动画,而如果将max参数作为值传入将value和min参数作为约束,则可以做出类似冲击波的渐变效果: 并且通过修改value与min之间的数值差,可以调节渐变。 这个技巧主要就是可以产生硬边。 比如我们可…

【黑马程序员】C++模版

20240214 文章目录 C泛型编程技术模版的概念 函数模版函数模版语法不使用模版的模版完成两个数交换使用模版的方式完成两个数的交换模版注意事项函数模版案列使用模版实现升序选择排序 模版函数和普通函数区别点调用规则 模版的局限性模版的通用性问题模版重载 类模板类模板语…

Redis和Mysql如何保证数据一致性

一般情况下,Redis用来实现应用和数据库之间读操作的缓存层,主要目的是减少数据 库IO,还可以提升数据的IO性能。 这是它的整体架构。 当应用程序需要去读取某个数据的时候,首先会先尝试去Redis里面加载,如果命中就 直…