刷新多个SOTA！最新Mamba魔改版本超越transformer，GPU内存消耗减少74%

因模型规模的扩展和需要处理的序列不断变长，transformer逐渐出现计算量激增、计算效率下降等问题。为克服这些缺陷，研究者们提出了Mamba。

Mamba是一种创新的线性时间序列建模方法，它结合了递归神经网络（RNN）和卷积神经网络（CNN）的特点，以提高处理长序列数据时的计算效率。

Mamba的设计和实现都展现出在处理长序列时的优势，在语言建模方面成功超越transformer。因此，面向Mamba及其魔改变体的研究也逐渐成为了热门，出现了很多可挖掘的创新点。

为帮助同学们获取灵感，我整理了15个今年最新的Mamba魔改创新方案，这些变体大多应用于图像分割、文本摘要、点云分析等领域，比如多伦多大学团队提出的U-Mamba、在大型图上减少了高达74%GPU内存消耗的Graph-Mamba。

论文以及开源代码需要的同学看文末

U-Mamba

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation

方法：本文介绍了一种新的架构U-Mamba，用于通用生物医学图像分割，它结合了CNN的局部模式识别和Mamba的全局上下文理解的优势。U-Mamba可以自动配置自身以适应不同的数据集，使其成为生物医学成像中多样化分割任务的多功能和灵活工具。

创新点：

U-Mamba是一种新的通用网络架构，用于生物医学图像的分割任务。
U-Mamba采用了创新的混合CNN-SSM架构，能够捕捉图像中的局部细粒度特征和长程依赖关系。
U-Mamba相比于基于Transformer的架构，在特征大小方面具有线性扩展的能力，而不是传统Transformer架构中的二次复杂度。
U-Mamba具有自配置能力，可以适应不同的数据集，提高了在生物医学图像分割任务中的可扩展性和灵活性。
U-Mamba还具有进一步增强和扩展的潜力，可以利用大规模数据集进行训练，提供预训练模型权重，以便在数据有限的任务上进行微调。
U-Mamba的设计还支持与先进技术的集成，如针对小数据集的强数据增强、高度不平衡目标的损失函数和基于区域的训练等。

Weak-Mamba-UNet

Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

方法：本文介绍了一种创新的弱监督学习框架Weak-Mamba-UNet，该框架利用了卷积神经网络（CNN）、视觉Transformer（ViT）和最先进的Visual Mamba（VMamba）架构，用于医学图像分割，特别是在处理基于涂鸦注释时。该框架采用了三种不同的架构，但具有相同的对称编码器-解码器网络：基于CNN的UNet用于详细的局部特征提取，基于Swin Transformer的SwinUNet用于全面的全局上下文理解，基于VMamba的Mamba-UNet用于高效的长程依赖建模。

创新点：

弱监督学习框架：Weak-Mamba-UNet是一种创新的弱监督学习框架，通过结合CNN、ViT和VMamba的特征学习能力，显著降低了注释所需的成本和资源。
多视角交叉监督学习：该框架采用多视角交叉监督学习方法，增强了不同网络架构的适应性，使它们能够相互受益。
Visual Mamba网络架构：本研究证明了Visual Mamba网络架构在有限信号监督下的医学图像分割中的有效性，突出了该网络在分割任务中的高准确性，并强调了在资源有限的医学图像分析中的广泛应用潜力。

Graph-Mamba

Graph-Mamba: Towards Long-Range Graph Sequence Modeling with Selective State Spaces

方法：为了解决图转换器中高计算成本的问题，作者提出了一种名为Graph-Mamba的方法，该方法结合了选择性状态空间模型和图网络设计。研究采用了Louvain算法进行无监督图分区，并引入了节点优先级技术和基于排列的训练方法来处理非顺序图数据。

创新点：

创新的图网络设计：Graph-Mamba是一种新型的图网络，首次将选择性状态空间模型与图网络集成，实现了输入相关的节点过滤和自适应上下文选择。选择机制捕捉了长程依赖关系，并改进了现有的基于子采样的注意力稀疏化技术。
卓越的性能和效率：对十个公共数据集进行的综合实验表明，Graph-Mamba不仅优于基准模型，而且在计算复杂度上实现了线性时间。值得注意的是，Graph-Mamba在大型图上减少了高达74%的GPU内存消耗，突显了其在长程图数据集上的高效性。
非顺序图数据的SSM适应性：作者设计了一种优雅的方法来扩展状态空间模型以处理非顺序图数据。具体而言，作者引入了一种节点优先级技术，以优先考虑重要节点以获得更多上下文信息，并采用基于排列的训练方法来减小序列相关偏差。

Swin-UMamba

Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

方法：本文提出了一种基于Mamba的网络Swin-UMamba，用于2D医学图像分割。Swin-UMamba使用通用编码器将预训练视觉模型的能力与精心设计的解码器相结合，用于医学图像分割任务。此外，作者还提出了一种具有基于Mamba的解码器的变体结构Swin-UMamba†，用于高效应用，具有更少的参数和更低的FLOPs。

创新点：

Swin-UMamba：提出了一种基于Mamba的网络Swin-UMamba，用于2D医学图像分割。此外，还提出了一种变体结构Swin-UMamba†，具有基于Mamba的解码器，参数更少、FLOPs更低，适用于高效应用。
整合基于ImageNet的预训练：有效地将通用预训练模型整合到医学图像分割任务中是一个主要挑战。
数据集：作者评估了Swin-UMamba在三个不同的医学图像分割数据集上的性能和可扩展性，包括器官分割、仪器分割和细胞分割。