文献速递:基于SAM的医学图像分割---SAM-Med2D

Title 

题目

SAM-Med2D

01

文献速递介绍

医学图像分割在通过识别和勾画各种组织、器官或感兴趣区域来分析医学图像中发挥着至关重要的作用。准确的分割可以帮助医生精确识别和定位病理区域,从而实现更准确的诊断和治疗。此外,对医学图像进行定量和定性分析能够提供对不同组织或器官的形态、结构和功能的全面洞察,促进疾病研究和发现。然而,由于医学图像的特点,如众多的成像模式、复杂的组织和器官结构,以及少量的标注数据,大多数现有方法仅限于特定的模式、器官或病变。这一限制阻碍了算法的泛化能力和适应性,使得它们难以跨多种临床场景应用。

最近,大规模模型的趋势在整个人工智能领域引起了广泛关注。如ChatGPT2、ERNIE Bot 3、DINO、SegGPT、SAM[8]等通用人工智能模型的出现,使得使用单一模型解决多个任务成为可能。作为最新的大规模视觉模型,SAM使用户能够通过交互式点击、边界框或提供自然语言提示来为特定感兴趣区域生成掩码。它在自然图像上的零样本和少样本能力在各个领域引起了显著关注。

Abstract

摘要

The Segment Anything Model (SAM) represents a state-of-the-art research ad vancement in natural image segmentation, achieving impressive results with input prompts such as points and bounding boxes. However, our evaluation and recent research indicate that directly applying the pretrained SAM to medical image segmentation does not yield satisfactory performance. This limitation primarily arises from significant domain gap between natural images and medical images. To bridge this gap, we introduce SAM-Med2D, the most comprehensive studies on applying SAM to medical 2D images. Its comprehensiveness manifests in three aspects: the comprehensive analysis on collecting the largest medical data, the most comprehensive studies on various fine-tuning options, the most comprehensive eval uation on the performance. Specifically, we first collect and curate approximately 4.6M images and 19.7M masks from public and private datasets, constructing a large-scale medical image segmentation dataset encompassing various modalities and objects. Then, we comprehensively fine-tune SAM on this dataset and turn it into SAM-Med2D. Unlike previous methods that only adopt bounding box or point prompts as interactive segmentation approach, we adapt SAM to medical image segmentation through more comprehensive prompts involving bounding boxes, points, and masks. We additionally fine-tune the encoder and decoder of the original SAM to obtain a well-performed SAM-Med2D, leading to the most comprehensive fine-tuning strategies to date. Finally, we conducted a comprehen sive evaluation and analysis to investigate the performance of SAM-Med2D in medical image segmentation across various modalities, anatomical structures, and organs. Concurrently, we validated the generalization capability of SAM-Med2D on 9 datasets from MICCAI 2023 challenge. Overall, our approach demonstrated significantly superior performance and generalization capability compared to SAM. Our codes can be found at https://github.com/uni-medical/SAM-Med2D.

段落任何模型(SAM)代表了在自然图像分割领域的最先进研究进展,通过使用点和边界框等输入提示,取得了令人印象深刻的结果。然而,我们的评估和最近的研究表明,直接将预训练的SAM应用于医学图像分割并未达到令人满意的性能。这一限制主要源于自然图像和医学图像之间存在显著的领域差异。

为了弥合这一差距,我们介绍了SAM-Med2D,这是迄今为止最全面的研究,专门应用于医学2D图像的SAM。其全面性体现在三个方面:在收集最大医学数据方面进行的全面分析,对各种微调选项进行的最全面研究,以及对性能进行的最全面评估。具体来说,我们首先从公共和私有数据集中收集和整理了大约460万张图像和1970万个掩模,构建了一个涵盖各种模式和对象的大规模医学图像分割数据集。然后,我们对这个数据集进行了全面的微调,将其转变为SAM-Med2D。与之前仅采用边界框或点提示作为交互式分割方法的方法不同,我们通过涉及边界框、点和掩模的更全面提示,将SAM适配到医学图像分割中。我们还对原始SAM的编码器和解码器进行了额外的微调,获得了性能良好的SAM-Med2D,这导致了迄今为止最全面的微调策略。最后,我们进行了全面的评估和分析,以调查SAM-Med2D在医学图像分割中跨越各种模态、解剖结构和器官的性能。同时,我们在MICCAI 2023挑战的9个数据集上验证了SAM-Med2D的泛化能力。总的来说,我们的方法展示了与SAM相比显著更优的性能和泛化能力。我们的代码可以在https://github.com/uni-medical/SAM-Med2D找到。

METHOD

方法

3.1 Incorporation of Medical Knowledge into SAM

Recent research has reaffirmed the pivotal role of training data volume in the learning capacity of large models . By learning from larger-scale data, models can acquire richer domain-specific

knowledge and adapt better to various application scenarios. Though trained on over 1B masks, SAM achieves suboptimal performance in the realm of medical image analysis due to the significant domain gap between natural images and medical data. To address this gap, we have collected and curated the largest medical image segmentation dataset to date. This dataset is composed of numerous public and private datasets, ensuring comprehensive coverage and diversity. Figure 3 (b) illustrates the dataset’s 10 different imaging modalities and their corresponding data proportions. To enhance visual presentation, we have used logarithmic scaling to visualize the differences in quantity. Based on anatomical structures and the presence of lesions, we categorized the dataset into head and neck, thorax, abdomen, pelvic, and lesions (Figure 3 (c)). Additionally, we curated and consolidated 31 main organs from the 271 labels in these datasets, as depicted in Figure 3 (a). This covers almost all object types in the currently available public datasets, addressing the deficiency of SAM in medical domain knowledge.

3.1 将医学知识纳入SAM

近期研究再次证实了训练数据量在大模型学习能力中的关键作用[7, 8, 23]。通过从更大规模的数据中学习,模型能够获得更丰富的领域特定知识,并更好地适应各种应用场景。尽管SAM在超过10亿掩码的数据上进行了训练,但由于自然图像与医学数据之间存在显著的领域差异,其在医学图像分析领域的性能并不理想。为了解决这一差距,我们收集并整理了迄今为止最大的医学图像分割数据集。该数据集由众多公共和私有数据集组成,确保了全面的覆盖和多样性。图3(b)展示了数据集的10种不同成像模态及其对应的数据比例。为了增强视觉呈现,我们使用了对数缩放来可视化数量上的差异。基于解剖结构和病变的存在,我们将数据集分类为头颈部、胸部、腹部、盆腔和病变(图3(c))。此外,我们从这些数据集中的271个标签中精选并整合了31个主要器官,如图3(a)所示。这几乎涵盖了当前公开数据集中所有的对象类型,解决了SAM在医学领域知识中的不足。

CONCLUSION

结论

In this study, we obtain SAM-Med2D by fine-tuning a SAM on a large-scale medical image dataset,which is able to significantly improve various medical image segmentation tasks. We employed two explicit prompts strategies to generate masks for quantitative and qualitative comparisons. At an equal resolution, only the fine-tuned mask decoder (FT-SAM) achieved an improvement of 11.93% in the Bbox prompt mode, while the fully fine-tuned SAM-Med2D achieved a 17.67% improvement. Surprisingly, our approach demonstrated overwhelming superiority in the 1 pt prompt (18.94% vs. 70.01%). 

Furthermore, SAM-Med2D exhibited excellent generalization capabilities in both prompt modes, indicating its practical value in the medical field. We conduct a comprehensive evaluation of the model from different dimensions of the data. From an anatomical perspective, at a resolution of 1024×1024, SAM had advantages over FT-SAM in the chest, abdomen, and other regions, SAM-Med2D outperformed all other methods in overall segmentation performance. Regarding different modalities, SAM demonstrated good generalization when the target modality data resembled natural image attributes. We compared the two fine-tuning methods on more than 30 major organs, and our SAM-Med2D achieved better results on 24 organs, with a maximum improvement of 6.95% compared to FT-SAM. Additionally, our generalization experiments on 9 publicly available datasets demonstrated strong domain transferability of models pretrained on large-scale datasets. While the Bbox prompt always outperformed the 1 pt prompt, adding more points significantly improved the segmentation results, surpassing even the Bbox mode.

在本研究中,我们通过在大规模医学图像数据集上对SAM进行微调,获得了SAM-Med2D,它能够显著改善各种医学图像分割任务。我们采用了两种明确的提示策略来生成掩码,进行定量和定性比较。在相同分辨率下,仅经过微调的掩码解码器(FT-SAM)在边界框提示模式下实现了11.93%的改进,而完全微调的SAM-Med2D实现了17.67%的改进。令人惊讶的是,我们的方法在1点提示中展现出压倒性的优势(18.94% vs. 70.01%)。此外,SAM-Med2D在两种提示模式下都表现出了出色的泛化能力,表明了其在医学领域的实际价值。

我们从数据的不同维度对模型进行了全面评估。从解剖学角度来看,在1024×1024的分辨率下,SAM在胸部、腹部和其他区域相比FT-SAM有优势,SAM-Med2D在总体分割性能上超过了所有其他方法。关于不同的成像模态,当目标模态数据类似自然图像属性时,SAM展示了良好的泛化能力。我们比较了两种微调方法在30多个主要器官上的表现,我们的SAM-Med2D在24个器官上取得了更好的结果,与FT-SAM相比,最大改进了6.95%。此外,我们在9个公开可用的数据集上进行的泛化实验证明了在大规模数据集上预训练的模型具有强大的域迁移能力。虽然边界框提示模式总是优于1点提示模式,但增加更多点显著改善了分割结果,甚至超过了边界框模式。

Fig

图片

Figure 1: Comparison between examples in SA-1B (a) and in our dataset (b). SA-1B consists of 11M natural images and their corresponding 1129M masks. Our dataset consists of 4.6M medical images

and their corresponding 19.7M masks.

图1:SA-1B中示例(a)与我们数据集中示例(b)的比较。SA-1B包含1100万自然图像及其对应的1129百万掩码。我们的数据集包含460万医学图像及其对应的1970万掩码。

图片

Figure 2: Results of interactive segmentation using SAM in various medical scenarios.

图2:在各种医疗场景中使用SAM进行交互式分割的结果。

图片

Figure 3: Overview of the dataset used in this study. (a) A total of 31 major organs, along with their corresponding anatomical structures, with an asterisk (*) denoting the presence of lesion labels within the dataset. (b) The distribution of modalities along with their corresponding proportions in the dataset are presented (scaled logarithmically). (c) The number of images and masks categorized by anatomical structure, along with the total count encompassing the dataset.

图3:本研究使用的数据集概览。(a)共有31个主要器官及其对应的解剖结构,带有星号(*)表示数据集内含有病变标签。(b)展示了数据集中模态的分布及其对应的比例(对数缩放)。(c)按解剖结构分类的图像和掩码数量,以及包含整个数据集的总数。

图片

Figure 4: The pipeline of SAM-Med2D. We freeze the image encoder and incorporate learnable adapter layers in each Transformer block to acquire domain-specific knowledge in the medical field. We fine-tune the prompt encoder using point, Bbox, and mask information, while updating the parameters of the mask decoder through interactive training.

图4:SAM-Med2D的流程图。我们冻结了图像编码器,并在每个Transformer块中加入了可学习的适配器层,以获取医学领域的特定领域知识。我们使用点、边界框(Bbox)和掩码信息微调提示编码器,同时通过交互式训练更新掩码解码器的参数。

图片

Figure 5: (a) Comparison from the perspective of anatomical structures. (b) Comparison from the perspective of different Modalities. (c) Comparison of segmentation performance between FT-SAM and our SAM-Med2D across 31 organs

图5:(a) 从解剖结构的角度进行比较。(b) 从不同成像模态的角度进行比较。(c) 在31个器官中,FT-SAM与我们的SAM-Med2D的分割性能比较。

图片

Figure 6: Qualitative comparisons were made between the segmentation results of SAM-Med2D and SAM. The first three rows depict the segmentation results of different modalities, while the last three rows illustrate the segmentation results of different anatomical structures.

图6:在SAM-Med2D和SAM的分割结果之间进行了定性比较。前三行展示了不同成像模态的分割结果,而后三行展示了不同解剖结构的分割结果。

图片

Figure 7: The fusion of segmentation results for multiple target regions within a single image. For

clarity of presentation, we visualized only the results of Bbox prompt and 1 point prompt.

图7:单个图像内多个目标区域的分割结果融合。为了清晰地展示,我们仅可视化了边界框(Bbox)提示和1点提示的结果。

Table 

图片

Table 1: Comparison of SAM fine-tuning models. Our SAM-Med2D is a comprehensive fine-tuning method that supports multiple prompts on medical images to generate masks.

表1:SAM微调模型的比较。我们的SAM-Med2D是一种全面的微调方法,支持在医学图像上使用多种提示来生成掩码。

图片

Table 2: Quantitative comparison of different methods on the test set.

表2:在测试集上不同方法的定量比较。

图片

Table 3: Segmentation performance in point prompt mode. The left values represent Dice scores of different models under 1 pt prompt. The numbers in parentheses indicate the Dice score increment

after 5 pts prompt, with red indicating improvement and green indicating decline

表3:点提示模式下的分割性能。左侧值表示1点提示下不同模型的Dice分数。括号中的数字表示5点提示后Dice分数的增量,红色表示提高,绿色表示下降。

图片

Table 4: Generalization validation on 9 MICCAI2023 datasets, where "*" denotes SAM-Med2D without adapter layer parameters.

表4:在9个MICCAI2023数据集上的泛化验证,其中“*”表示没有适配器层参数的SAM-Med2D。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Node.js之沙盒专题

​ Node.js一直是薄弱项,今天特意整理一下,基本上是各个大佬写的大杂烩,仅用于学习记录~~~ 1. child_process 首先介绍一下nodejs中用来执行系统命令的模块child_process。Nodejs通过使用child_process模块来生成多个子进程来处理其他事物…

简化业务流程,AppLink连接一定签

APPlink是什么 APPlink是RestCloud打造的一款简单易用的零代码自动化集成平台,为业务流程提供自动化的解决方案,将企业内部的核心系统以及第三方应用程序和云服务等进行集成。无论是开发人员还是业务人员,都可以使用APPlink轻松构建出高效、…

【触想智能】工业触摸一体机九大常见故障检测方法分享

工业触摸一体机目前在社会生产中应用非常广泛,比如智能化的生产车间、城市智慧安防监控中心都经常用到工业触摸一体机。 电子产品在使用中难免会出现一些故障,工业触摸一体机也不例外。那么我们在使用工业触摸一体机的时遇到问题怎么办呢?下面小编给大家…

第十九章 linux部署scrapyd

文章目录 1. linux部署python环境1. 部署python源文件环境2. 下载python3. 解压安装包4. 安装5. 配置环境变量6. 检查是否安装成功7. 准备python使用的包8. 安装scrapyd9. 配置scrapyd10. 开放6800端口 2. 部署gerapy1. 本机下载包2. 初始化3. 进入gerapy同步数据库4. 创建用户…

nginx启停操作

一、nginx启动 方式一: /usr/local/nginx/sbin/nginx -c /usr/local/nginx/conf/nginx.conf方式二: systemctl start nginx 查看进程启动状态 ps -ef | grep nginx 上图表示nginx进程启动成功,进程号为30034为主进程(负责链接操作)&am…

2024/3/24--爬虫库

1.常用的爬虫库 (1)在setting的project里面点击Python Interpreter (2)常用的爬虫库有 import requests //用途:用于发送HTTP请求。from bs4 import BeautifulSoup //用于从HTML或XML文档中提取数据。import scrapy //一个功能强大的爬虫框架&#xf…

基于 C++ STL 的图书管理系统213行

定制魏:QTWZPW,获取更多源码等 目录 一、实践项目名称 二、实践目的 三、实践要求 四、实践内容 五、代码框架参考 六、代码效果展示 七、完整代码主函数展示 一、实践项目名称 基于 C STL 的图书管理系统 二、实践目的 通过设计和实现一个基于…

AI之Suno:Suno V3的简介、安装和使用方法、案例应用之详细攻略

AI之Suno:Suno V3的简介、安装和使用方法、案例应用之详细攻略 目录 Suno AI的简介 1、特点与改进: Suno AI的安装和使用方法 1、第一步,让国产大模型—ChatGLM4帮我写一个提示词 2、第二步,将提示词交给Suno v3,…

优秀学员作品:SpringBoot茶叶商城系统源码+运行教程+开发文档(参考论文)

今天发布的是由【猿来入此】的优秀学员独立做的一个基于springboot脚手架的茶叶商城系统,主要实现了茶叶采购,出售茶叶的流程,除基础脚手架外,实现的功能有: 前台 : 首页、商品列表、新闻列表、个人中心、…

【算法】双指针的应用

文章目录 前言1. 移动零(easy)2. 复写零(easy)3. 快乐数(medium)4. 盛水最多的容器(medium)5. 有效三角形的个数(medium)6.和为 s 的两个数字(eas…

计算机网络:传输控制协议(Transmission Control Protocol-TCP协议

计算机网络:传输控制协议(Transmission Control Protocol-TCP协议) 本文目的前置知识点TCP协议简介主要特性通信流程1. 建立连接的过程(三次握手,243)1.1 为什么要三次握手,两次不行吗? 2. 释放连接的过程(…

msvcp110.dll丢失修复办法

在计算机使用过程中,我们经常会遇到一些扩展名为.dll的文件,这些文件是动态链接库文件,用于提供程序运行时所需的函数和资源。其中,msvcp110.dll文件是一个非常重要的动态链接库文件,它属于Microsoft Visual C 2012 Re…

Elastic 线下 Meetup 将于 2024 年 3 月 30 号在武汉举办

2024 Elastic Meetup 武汉站活动,由 Elastic、腾讯、新智锦绣联合举办,现诚邀广大技术爱好者及开发者参加。 活动时间 2024年3月30日 13:30-18:00 活动地点 中国武汉 武汉市江夏区腾讯大道1号腾讯武汉研发中心一楼多功能厅 13:30-14:00 入场 活动流程…

【C++从练气到飞升】06---重识类和对象

🎈个人主页:库库的里昂 ✨收录专栏:C从练气到飞升 🎉鸟欲高飞先振翅,人求上进先读书。 目录 ⛳️推荐 一、再谈构造函数 1. 构造函数体赋值 2. 初始化列表 每个成员变量在初始化列表中只能出现一次--初始化只能初始…

修复JeeSite vue 2.x视图滑动到顶部间距问题:Less文件修改实践

在前端开发中,样式调整是常见且必不可少的任务之一。最近,我在处理JeeSite项目时,遇到了一个视图滑动到顶部时顶部Tabs与页面顶部存在间距的问题。经过深入调查,发现这个问题可以通过修改相应的Less文件来解决。下面,我…

15、Spring Cloud Alibaba Sentinel实现熔断与限流

注:本篇文章主要参考周阳老师讲解的cloud进行整理的! 1、Sentinel 1.1、官网 https://sentinelguard.io/zh-cn/ 等价对标 Spring Cloud Circuit Breaker 1.2、是什么 https://github.com/alibaba/Sentinel/wiki 1.3、去哪下 https://github.com/alibab…

如何在Ubuntu系统使用Docker搭建MongoDB结合内网穿透实现公网连接

文章目录 前言1. 安装Docker2. 使用Docker拉取MongoDB镜像3. 创建并启动MongoDB容器4. 本地连接测试5. 公网远程访问本地MongoDB容器5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问 前言 本文主要介绍如何在Linux Ubuntu系统使用Docker快速部署Mon…

头歌实训--机器学习(决策树)

第1关&#xff1a;决策树简述 第2关&#xff1a;决策树算法详解 import numpy as np from sklearn import datasets#######Begin####### # 划分函数 def split(x,y,d,value):index_a(x[:,d]<value)index_b(x[:,d]>value)return x[index_a],x[index_b],y[index_a],y[inde…

[linux]--关于进程概念(上)

目录 冯诺依曼体系结构 操作系统 概念 设计os的目的 定位 如何理解管理 总结 系统调用和库函数概念 进程 描述进程-pcb 组织进程 查看进程 通过系统调用获取进程标示符 通过系统调用创建进程-fork初识 进程状态 阻塞和挂起 Z(zombie)-僵尸进程 冯诺依曼体系结…

shell实现查询进程号并批量kill(脚本)

问题或需求描述 在shell中&#xff0c;如果你想通过命令行查询出一系列匹配某个关键词的进程&#xff0c;并使用xargs命令批量结束这些进程&#xff0c;可以按照以下步骤操作&#xff1a; # 查询并提取进程号 pgrep -f "关键词" | xargs kill# 或者&#xff0c;如果…