刷新多个SOTA!最新Mamba魔改版本超越transformer,GPU内存消耗减少74%

因模型规模的扩展和需要处理的序列不断变长,transformer逐渐出现计算量激增、计算效率下降等问题。为克服这些缺陷,研究者们提出了Mamba。

Mamba是一种创新的线性时间序列建模方法,它结合了递归神经网络(RNN)和卷积神经网络(CNN)的特点,以提高处理长序列数据时的计算效率。

Mamba的设计和实现都展现出在处理长序列时的优势,在语言建模方面成功超越transformer。因此,面向Mamba及其魔改变体的研究也逐渐成为了热门,出现了很多可挖掘的创新点。

为帮助同学们获取灵感,我整理了15个今年最新的Mamba魔改创新方案,这些变体大多应用于图像分割、文本摘要、点云分析等领域,比如多伦多大学团队提出的U-Mamba、在大型图上减少了高达74%GPU内存消耗的Graph-Mamba。

论文以及开源代码需要的同学看文末

U-Mamba

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation

方法:本文介绍了一种新的架构U-Mamba,用于通用生物医学图像分割,它结合了CNN的局部模式识别和Mamba的全局上下文理解的优势。U-Mamba可以自动配置自身以适应不同的数据集,使其成为生物医学成像中多样化分割任务的多功能和灵活工具。

创新点:

  • U-Mamba是一种新的通用网络架构,用于生物医学图像的分割任务。

  • U-Mamba采用了创新的混合CNN-SSM架构,能够捕捉图像中的局部细粒度特征和长程依赖关系。

  • U-Mamba相比于基于Transformer的架构,在特征大小方面具有线性扩展的能力,而不是传统Transformer架构中的二次复杂度。

  • U-Mamba具有自配置能力,可以适应不同的数据集,提高了在生物医学图像分割任务中的可扩展性和灵活性。

  • U-Mamba还具有进一步增强和扩展的潜力,可以利用大规模数据集进行训练,提供预训练模型权重,以便在数据有限的任务上进行微调。

  • U-Mamba的设计还支持与先进技术的集成,如针对小数据集的强数据增强、高度不平衡目标的损失函数和基于区域的训练等。

Weak-Mamba-UNet

Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

方法:本文介绍了一种创新的弱监督学习框架Weak-Mamba-UNet,该框架利用了卷积神经网络(CNN)、视觉Transformer(ViT)和最先进的Visual Mamba(VMamba)架构,用于医学图像分割,特别是在处理基于涂鸦注释时。该框架采用了三种不同的架构,但具有相同的对称编码器-解码器网络:基于CNN的UNet用于详细的局部特征提取,基于Swin Transformer的SwinUNet用于全面的全局上下文理解,基于VMamba的Mamba-UNet用于高效的长程依赖建模。

创新点:

  • 弱监督学习框架:Weak-Mamba-UNet是一种创新的弱监督学习框架,通过结合CNN、ViT和VMamba的特征学习能力,显著降低了注释所需的成本和资源。

  • 多视角交叉监督学习:该框架采用多视角交叉监督学习方法,增强了不同网络架构的适应性,使它们能够相互受益。

  • Visual Mamba网络架构:本研究证明了Visual Mamba网络架构在有限信号监督下的医学图像分割中的有效性,突出了该网络在分割任务中的高准确性,并强调了在资源有限的医学图像分析中的广泛应用潜力。

Graph-Mamba

Graph-Mamba: Towards Long-Range Graph Sequence Modeling with Selective State Spaces

方法:为了解决图转换器中高计算成本的问题,作者提出了一种名为Graph-Mamba的方法,该方法结合了选择性状态空间模型和图网络设计。研究采用了Louvain算法进行无监督图分区,并引入了节点优先级技术和基于排列的训练方法来处理非顺序图数据。

创新点:

  • 创新的图网络设计:Graph-Mamba是一种新型的图网络,首次将选择性状态空间模型与图网络集成,实现了输入相关的节点过滤和自适应上下文选择。选择机制捕捉了长程依赖关系,并改进了现有的基于子采样的注意力稀疏化技术。

  • 卓越的性能和效率:对十个公共数据集进行的综合实验表明,Graph-Mamba不仅优于基准模型,而且在计算复杂度上实现了线性时间。值得注意的是,Graph-Mamba在大型图上减少了高达74%的GPU内存消耗,突显了其在长程图数据集上的高效性。

  • 非顺序图数据的SSM适应性:作者设计了一种优雅的方法来扩展状态空间模型以处理非顺序图数据。具体而言,作者引入了一种节点优先级技术,以优先考虑重要节点以获得更多上下文信息,并采用基于排列的训练方法来减小序列相关偏差。

Swin-UMamba

Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

方法:本文提出了一种基于Mamba的网络Swin-UMamba,用于2D医学图像分割。Swin-UMamba使用通用编码器将预训练视觉模型的能力与精心设计的解码器相结合,用于医学图像分割任务。此外,作者还提出了一种具有基于Mamba的解码器的变体结构Swin-UMamba†,用于高效应用,具有更少的参数和更低的FLOPs。

创新点:

  • Swin-UMamba:提出了一种基于Mamba的网络Swin-UMamba,用于2D医学图像分割。此外,还提出了一种变体结构Swin-UMamba†,具有基于Mamba的解码器,参数更少、FLOPs更低,适用于高效应用。

  • 整合基于ImageNet的预训练:有效地将通用预训练模型整合到医学图像分割任务中是一个主要挑战。

  • 数据集:作者评估了Swin-UMamba在三个不同的医学图像分割数据集上的性能和可扩展性,包括器官分割、仪器分割和细胞分割。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“Mamba”获取论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/698644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[面试] InnoDB中如何解决幻读?

幻读是通过 MVCC 机制来解决的, MVCC 类似于一种乐观锁的机制,通过版本的方式来区分不同的并发事务,避免幻读 问题! 什么是幻读? 事务A前后两次读取同一个范围的数据,在事务A两次读取的过程之间,事务B新增了数据,导致…

星际修仙之剑胆琴心

剧名:《星际修仙之剑胆琴心》 类型:科幻修仙爱情剧 故事大纲: 在遥远的未来,人类文明已经发展到星际时代,科技与修仙相结合,形成了一种全新的文明形态。在这个时代,修仙者不再局限于传统的修炼方…

图文说明Linux云服务器如何更改实例镜像

一、应用场景举例 在学习Linux的vim时,我们难免要对vim进行一些配置,这里我们提供一个vim插件的安装包: curl -sLf https://gitee.com/HGtz2222/VimForCpp/raw/master/install.sh -o./install.sh && bash ./install.sh 但是此安装包…

跳槽前应该做好哪些准备?

第一次求职也好,还是换工作也罢,都需要有严谨的考虑。对于已经工作上班的朋友来说,切不可轻易地辞掉工作,想要跳槽,一定要三思而后行,有一个周密的部署。跳槽有好处,也有弊端,频繁的…

【学网攻】 第(30)节 -- 综合实验三

系列文章目录 目录 系列文章目录 文章目录 前言 一、综合实验 二、实验 1.引入 实验目标 实验设备 实验拓扑图 实验配置 文章目录 【学网攻】 第(1)节 -- 认识网络【学网攻】 第(2)节 -- 交换机认识及使用【学网攻】 第(3)节 -- 交换机配置聚合端口【学网攻】 第(4)节…

探讨导致vcruntime140_1.dll无法继续执行代码的原因和解决办法

在使用电脑过程中,我们偶尔会遇到一些令人不悦的错误提示,如"vcruntime140_1.dll丢失"。这个错误提示可能会给我们带来诸多困扰,阻碍我们正常地进行操作。本文将详细探讨导致"vcruntime140_1.dll丢失"错误的原因&#xf…

Java基于SSM+JSP的超市进销库存管理系统

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

开源图表库Echarts 简介与基本使用

ECharts 是一个使用 JavaScript 实现的开源可视化图表库,由百度团队开发。它提供了丰富的图表类型,如折线图、柱状图、饼图、地图、雷达图等,并且可以轻松地与其他前端框架和库集成。ECharts 的设计目的是为了满足复杂数据的可视化需求&#…

flutter开发实战-StreamBuilder使用介绍及实例

flutter开发实战-StreamBuilder使用介绍及实例 StreamBuilder是一个Widget,它依赖Stream来做异步数据获取刷新widget。 一、Stream Stream是一种用于异步处理数据流的机制,它允许我们从一段发射一个事件,从另外一段去监听事件的变化.Strea…

Leetcode3035. 回文字符串的最大数量

Every day a Leetcode 题目来源:3035. 回文字符串的最大数量 解法1:哈希 排序 由于可以随意交换字母,先把所有字母都取出来,然后考虑如何填入各个字符串。 如果一个奇数长度字符串最终是回文串,那么它正中间的那…

精美的WordPress外贸独立站模板

WordPress外贸独立站主题 简洁实用的WordPress外贸独立站主题,适合时尚服装行业搭建wordpress企业官网使用。 https://www.jianzhanpress.com/?p4999 简洁wordpress独立站模板 绿色精美、简洁大气的wordpress外贸独立网站模板 https://www.jianzhanpress.com/?…

分享一个UE的SmoothStep小技巧

SmoothStep节点可以制作更平滑的动画,而如果将max参数作为值传入将value和min参数作为约束,则可以做出类似冲击波的渐变效果: 并且通过修改value与min之间的数值差,可以调节渐变。 这个技巧主要就是可以产生硬边。 比如我们可…

【黑马程序员】C++模版

20240214 文章目录 C泛型编程技术模版的概念 函数模版函数模版语法不使用模版的模版完成两个数交换使用模版的方式完成两个数的交换模版注意事项函数模版案列使用模版实现升序选择排序 模版函数和普通函数区别点调用规则 模版的局限性模版的通用性问题模版重载 类模板类模板语…

Redis和Mysql如何保证数据一致性

一般情况下,Redis用来实现应用和数据库之间读操作的缓存层,主要目的是减少数据 库IO,还可以提升数据的IO性能。 这是它的整体架构。 当应用程序需要去读取某个数据的时候,首先会先尝试去Redis里面加载,如果命中就 直…

【Java程序员面试专栏 数据结构】一 高频面试算法题:数组

一轮的算法训练完成后,对相关的题目有了一个初步理解了,接下来进行专题训练,以下这些题目就是汇总的高频题目,本篇主要聊聊数组,包括数组合并,滑动窗口解决最长无重复子数组问题,图形法解下一个排列问题,以及一些常见的二维矩阵问题,所以放到一篇Blog中集中练习 题目…

k8s(3)

目录 一.K8S的三种网络 flannel的三种模式: 在 node01 节点上操作: calico的 三种模式: flannel 与 calico 的区别? 二.CoreDNS 在所有 node 节点上操作: 在 master01 节点上操作: ​编辑 DNS 解析测试&#…

「C语言进阶1」动态内存分配

目录 一、动态内存分配是什么? 二、为什么需要动态内存分配? 三、怎么进行动态内存分配? 1. malloc 2. calloc 3. realloc a. realloc功能解析 b. 内存泄漏和内存块被截断问题 c. 总结 4. free 四、使用动态内存分配常见的问题 【面试题】 一…

如何将新标注的三元组数据转换成unicoqe可以处理的格式

目录 问题描述: 问题解决: 问题描述: 原始的标注的三元组格式如下: 需要转换的格式如下: tips:有一个小的难点: 1. 针对多三元组的情况,需要额外考虑 2. 最后一个样本,也记得需要…

QEMU之CPU虚拟化

概述 KVM是由以色列初创公司Qumranet在CPU推出硬件虚拟化之后开发的一个基于内核的虚拟机监控器。 KVM是一个虚拟化的统称方案,除了x86外,ARM等其他架构也有自己的方案,所以KVM的主体代码位于内核树virt/kvm目录下面,表示所有CP…

第九节HarmonyOS 常用基础组件25-QRCode

1、描述 用于显示单个二维码的组件。 2、接口 QRCode(value:string) 3、参数 参数名 参数类型 必填 描述 value string 是 二维码内容字符串。 4、属性 名称 参数类型 描述 color ResourceColor 设置二维码颜色。默认值:Color.Black backgroundCo…