ViM-UNet:用于生物医学细分的 Vision Mamba

ViM-UNet:用于生物医学细分的 Vision Mamba

  • 摘要
  • Introduction
  • Method and Experiments
  • 结果与讨论

ViM-UNet: Vision Mamba for Biomedical Segmentation

摘要

卷积神经网络(CNNs),尤其是UNet,是生物医学分割的默认架构。已经提出了基于Transformer的方法,如UNETR,以取代它们,得益于全局视野,但受到更大的运行时间和更高的参数数量的影响。

最近的Vision Mamba架构为Transformer提供了一个有吸引力的替代方案,同样提供了全局视野,但效率更高。

在这里,作者介绍了基于它的ViM-UNet,一种新颖的分割架构,并将其与UNet和UNETR在两个具有挑战性的显微实例分割任务上进行比较。作者发现,它在不同任务上表现得与UNet相似或更好,并且在效率更高的情况下优于UNETR。
代码地址:
https://github.com/constantinpape/torch-em/blob/main/vimunet.md

Introduction

分割是生物医学图像分析中的一个重要任务,应用范围从放射学到显微镜学。大多数现代分割方法都基于卷积神经网络(CNN),其中UNet(Ronneberger等人,2015年)最受欢迎。在文本和视觉领域(ViT,(Dosovitskiy等人,2021年))的成功之后, Transformer 架构也被提出来用于生物医学分割;尤其是UNETR(Hatamizadeh等人,2021年)和SwinUNETR(Hatamizadeh等人,2022年)。它们具有全局视野,对于需要大上下文的任务来说有望获得更好的质量。然而,它们的运行时间和参数数量也更大。最近,Mamba架构(Gu和Dao,2023年)被提出,该架构扩展了状态空间模型(SSM)(Gu等人,2022年),旨在克服这些计算效率低的问题,同时保持全局视野。它已经被Vision Mamba(ViM)(Zhu等人,2024年)适应用于计算机视觉。

在这里,作者介绍了基于 ViM的 ViM-UNet,用于生物医学分割,并将其与 UNet 和 UNETR进行了比较,用于显微镜实例分割,这是生物学的一个重要分析任务。这项任务的大多数方法,例如CellPose(Stringer等人,2021年),StarDist(Schmidt等人,2018年),都是基于UNet架构,而最近的方法也采用了 Transformer ,例如(Archit等人,2023年),并且当前的基准测试(Ma等人,2024年)显示了 Transformer 有利的成果。作者使用了两个具有不同特点的数据集,见图1,发现ViM-UNet的性能与UNet相当或更好(取决于任务),而UNETR表现不佳。作者对结果进行了外部方法的验证,nnUNet(Isensee等人,2021年),这是一个经过良好测试的UNet框架,以及U-Mamba(Ma等人,2024年),它也基于Mamba,但缺少ViM的视觉特定优化。作者的结果显示了ViM在生物医学图像分析中的潜力。作者认为它特别有希望用于依赖于大上下文的任务,例如3D分割或细胞追踪。

Method and Experiments

作者比较了三种不同的架构:

UNet、UNETR和作者贡献的ViM-UNet,这些架构都在torch-em(Pape)中实现。UNet有4个层级,初始特征为64,每提升一个层级特征数量翻倍。对于UNETR,作者使用了Segment Anything(Kirillov等人,2023年)的ViT和与UNet相同的解码器,每个层级由两个卷积层和一个转置卷积层组成;输入来自前一个解码器层和ViT的输出。

作者选择了这种简单的实现方式,而不是像UNet和原始UNETR中的跳跃连接,后者将编码器和解码器中的相应层级连接起来。

作者发现这种设计没有负面影响。对于ViM-UNet,作者使用带有双向SSM层的ViM编码器。与ViT类似,这个模型在图像块上操作;作者使用的图像块大小为16。解码器设计与UNETR相同。对于UNETR和ViM-UNet,作者比较了不同大小的编码器;ViT有Base、Large、Huge三种尺寸,而ViM有Tiny、Small两种尺寸。
在这里插入图片描述

图1:使用ViM-UNetSmall进行分割的示例图像。

作者对两个数据集进行了比较:相位对比显微镜下的细胞分割(LIVECell (Edlund et al., 2021))以及体积电子显微镜下的神经纤维分割(CREMI (Funke et al., 2016))。LIVECell 包含了形态各异的微小细胞,而CREMI 包含了大小不一的神经纤维,详见图1。作者将CREMI的分割限制为2D。对于LIVECell,作者使用了给定的训练、验证和测试划分;对于CREMI,作者使用每个 Voxel 的前75个切片进行训练,接下来的25个进行验证,最后的25个进行测试。在LIVECell实例分割中,作者预测(i)前景和边界概率,这之后通过水波算法进行后处理,以及(ii)前景概率以及细胞中心和边界的距离,同样也用水波算法进行后处理。作者选择(i)与其他实现(见下文)进行比较,其中作者无法实现距离预测,而(ii)因为这种方法更适合这里。对于CREMI作者使用(i)。边界预测是这个任务的常规步骤,通常接下来会进行图聚集(Beier et al., 2017),这在2D中是不需要的。网络使用Adam进行训练,共10万次迭代,初始学习率为,并在平台期进行减少。作者与带有边界分割的nn-UNet (Isensee et al., 2021) 和 U-Mamba (Ma et al., 2024) 进行比较。这两种方法都通过超参数搜索进行配置,作者使用默认设置。作者使用平均分割准确度(Everingham et al., 2010)进行评估。

结果与讨论

图2展示了结果。对于LIVECell数据集,采用距离分割的UNet表现最佳,紧随其后的是ViM-UNet。UNETR的表现显著较差。对于边界分割,UNet明显表现最好,其次是ViM-UNet和外部方法。UNETR再次表现不佳。对于CREMI数据集,ViM-UNet表现最佳,其次是外部方法和UNet,UNETR的结果较弱。作者假设全局视野对于小结构(如LIVECell)并没有带来任何优势,但ViM-UNet可以利用它来处理大结构(如CREMI)。UNETR表现不佳,这很可能是由于参数数量较多(见表1)且缺乏预训练;请注意,通过预训练可以实现更好的性能(Horst等人,2023年)。与外部方法的比较验证了作者的实现并没有表现不佳,但由于训练和推理的差异,无法进行完全客观的比较。作者还研究了推理时间和训练所需的内存,见表1。UNet是最有效的架构,其次是ViM-UNet和UNETR。
在这里插入图片描述
表1:作者模型的参数数量、训练所需的VRAM以及每张图像的推理时间(以秒为单位)。

图2:作者的方法和外部方法的对比结果;圆圈突出了三种最佳方法。

总的来说,ViM-UNet在生物医学图像分析方面很有前景。作者认为,它可能取代基于 Transformer 的方法,在需要大上下文的领域中应用,因为它同样具有全局视野,但效率更高。其较低的参数数量使得可以在较小的数据集上进行应用,且无需大量预训练。作者计划将其扩展到3D分割和跟踪,在这些领域大上下文通常至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/822028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java报表是什么?盘点2023最实用的四款Java报表

从字面义就可以推知,Java报表指的是在Java环境下开发或使用的报表工具。Java语言因其功能强大和简单易用的特点,是静态面向对象编程语言的代表,在Java环境开发使用的这些报表工具,可以通过提供可视化操作界面制作报表,…

如果补货机器人也开始搬砖

过去几年,如果一位顾客的欲购商品疑似缺货,“请稍等,我去后台查一下”便是最常听到的一句话。随着过去几年劳动力短缺的加剧,货架并不总像许多人习惯的那样满满当当。为减轻不断补货的负担,使员工可以将精力集中于其他…

LINUX网卡一般性问题分析

一、网卡相关概念 网卡:网卡是一块被设计用来允许计算机在计算机网络上进行通讯的计算机硬件。 网络模型:OSI网络模型、TCP/IP网络模型 LINUX网络收发流程: 1. 内核分配一个主内存地址段(DMA缓冲区),网卡设备可以在…

【微信小程序之分包】

微信小程序之分包 什么是分包分包的好处分包前的结构图分包后的结构图分包的加载规则分包的体积限制使用分包打包原则引用原则独立分包独立分包的配置方法独立分包的引用原则分包预下载配置分包的预下载分包预下载限制 什么是分包 分包指的是把一个完整小程序项目,…

2024-14.python前端+Django

第四篇 web前端 第1章 、Web的基本概念 前端基础总共分为三部分:html、css和js。 1.3、HTTP协议 1.3.1 、http协议简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于万维网(WWW:World Wide Web &am…

AI人工智能老师大模型讲师叶梓 OneLLM:开创性的多模态大型语言模型技术

在人工智能领域,多模态大型语言模型(MLLM)的研究一直是一个热门话题。近期,一种名为OneLLM的创新技术引起了业界的广泛关注。OneLLM通过其独特的统一框架,实现了多种不同模态与自然语言的高效对齐,为多模态…

操作系统—GCC与编译全流程

文章目录 GCC与编译全流程1.GCC是什么?2.编译全流程(1).GCC到底做了哪些事情?(2).预处理I.预处理会做什么II.预处理器主要包含什么?III.宏的一些魔法 (3).编译I.基本流程II.编译优化III.一点例子 (4).汇编(5).链接(6).说到这里,为…

解剖this指针

目录 this指针的理解 1. this指针的用处 2.this指针的使用 3.this指针的使用 this指针来源 this指针的理解 通常在class定义时要用到类型变量自身时,因为这时候还不知道变量名(为了通用也不可能固定实际的变量名),就用this这样…

windows网络驱动开发

基石:WFP 1、简介 Windows过滤平台(Windows Filtering Platform, WFP),是从Vista系统后新增的一套系统API和服务。开发者可以在WFP框架已划分的不同分层中进行过滤、重定向、修改网络数据包,以实现防火墙、入侵检测系…

电机控制器电路板布局布线参考指导(五)

电机控制器电路板布局布线参考指导(五)大容量电容和旁路电容的放置 1.大容量电容的放置2.电荷泵电容器3.旁路电容/去耦电容的放置3.1 靠近电源3.2 靠近功率器件3.3 靠近开关电流源3.4 靠近电流感测放大器3.5 靠近稳压器 tips:资料主要来自网络…

Modality-Aware Contrastive Instance Learning with Self-Distillation ... 论文阅读

Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection 论文阅读 ABSTRACT1 INTRODUCTION2 RELATEDWORKS2.1 Weakly-Supervised Violence Detection2.2 Contrastive Learning2.3 Cross-Modality Knowle…

读天才与算法:人脑与AI的数学思维笔记02_激发创造力

1. 心理创造力 1.1. 自我创造力的实现结果对个体来说可能是全新的,但纵观历史其实已算是“明日黄花”,这就是心理创造力的概念 2. 激发创造力 2.1. 理智是创造力最大的敌人 2.1.1. 巴勃罗毕加索(P…

Jmeter 场景测试:登录--上传--下载--登出

为了练习Jmeter的使用,今天我要测试的场景是“登录--上传--下载--登出”这样一个过程. 测试的目标是我曾经练手写的一个文件分享系统,它要求用户只有登录后才可以下载想要的文件。 Jmeter总体结构: 第一步:添加HTTP Cookie管理器…

47.HarmonyOS鸿蒙系统 App(ArkUI)创建轮播效果

创建轮播效果,共3页切换 Entry Component struct Index {State message: string Hello Worldprivate swiperController: SwiperController new SwiperController()build() {Swiper(this.swiperController) {Text("第一页").width(90%).height(100%).bac…

电动汽车退役锂电池SOC主动均衡控制MATLAB仿真

微❤关注“电气仔推送”获得资料(专享优惠) 仿真简介 模型选用双向反激变换器作为主动均衡拓扑电路,均衡策略采用基于SOC的主动均衡策略,旨在解决电动汽车退役锂电池的不一致性问题。模型选用双向反激变换器作为主动均衡拓扑电路…

pytorch Neural Networks学习笔记

(1)输入图像,13232,通道数1,高32,宽32 (2)卷积层1,滤波器的shape为6155,滤波器个数6,通道数1,高5,宽5。卷积层1的输出为62…

【介绍下负载均衡原理及算法】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

使用docker配置DSP-SLAM

一.Docker环境配置 1.简单介绍 –docker容器技术–。 简单理解:Anaconda用于隔离不同的python环境;docker可以理解成在你的机器里面安装了一个独立的系统,因此它可以隔离不同的CUDA环境,还有着独立的文件系统,防止别…

高级IO和5种IO模型

目录 1. 高级IO1.1 IO的基本概念1.2 OS如何得知外设当中有数据可读取1.3 OS如何处理从网卡中读取到的数据包1.4 IO的步骤 2. 五种IO模型2.1 利用钓鱼来理解2.2 阻塞IO2.3 非阻塞IO2.4 信号驱动IO2.5 IO多路转接2.6 异步IO 3. 高级IO的概念3.1 同步通信 VS 异步通信3.2 阻塞 VS …

k-means聚类算法的MATLAB实现及可视化

K-means算法是一种无监督学习算法,主要用于数据聚类。其工作原理基于迭代优化,将数据点划分为K个集群,使得每个数据点都属于最近的集群,并且每个集群的中心(质心)是所有属于该集群的数据点的平均值。以下是…