MICCAI 2024 CUTS: A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation
CUTS: 用于多粒度无监督医学图像分割的深度学习和拓扑框架
作者
陈璐1*、Matthew Amodio1*、梁博伦.沈2、冯高3、阿曼·阿维斯塔4、Sanjay Aneja3,5、Jay C. Wang6、Lucian V. Del Priore5,6、Smita Krishnaswamy1,3,5
1 耶鲁大学计算机科学系
2 加州大学旧金山分校眼科系
3 耶鲁大学基因学系
4 耶鲁大学治疗放射学系
5 耶鲁大学眼科学系
6 北加州视网膜血管协会
* 这些作者是共同第一作者。
请将通信地址发送至:smita.krishnaswamy@yale.edu 或 lucian.delpriore@yale.edu.
摘要
医学图像分割是促进更好的病患诊断和定量研究的关键因素。主要的限制因素是缺乏标注数据,因为为每个新的成像数据集和任务获取专家标注既耗时又昂贵,且标注者之间存在不一致。我们提出了CUTS,这是一种用于医学图像分割的无监督深度学习框架。CUTS在两个阶段运行。对于每个图像,它通过结合图像内对比学习和局部路径重建生成嵌入图像。然后,这些嵌入图像被划分为动态粒度级别,对应于数据拓扑。CUTS生成一系列从粗到细的分割,突显出各种粒度下的重要特征。我们应用CUTS对视网膜图像和脑部MRI图像进行分割,以在不同尺度上分离结构和模式。与现有的无监督方法相比,当评估分割的解剖掩码时,CUTS至少提高了10%的Dice系数和Hausdorff距离。此外,CUTS在Segment Anything Models (SAM, MedSAM, SAM-Med2D)上展示了优越的表现,这些模型在巨大的标注数据集上进行了预训练。代码可在https://github.com/KrishnaswamyLab/CUTS获取。
引言
医学图像分割在研究和临床设置中扮演着越来越重要的角色,广泛应用于包括显微镜、X光、超声波、光学相干断层扫描(OCT)、计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)等多种成像模式中【1】。通过高质量的医学图像分割,临床医生可以更轻松地诊断和监控疾病的进展,从而改善患者护理。传统的医学图像分割方法依赖于手工制作的特征【2-7】或预定义的类【8-10】。这些方法逐渐被监督深度学习【11-14】所取代,后者在基于特征的方法和基于图谱的方法中表现出更优异的性能。
尽管近年来监督神经网络在图像分割中取得了成功,但在将它们应用于医学图像时仍然存在一些问题,特别是为了得出临床推论。首先,这些网络依赖于专家标注,因此需要大量的标签来充分覆盖数据的多样性,以产生可靠的分割【12】。其次,在同一组标注图像上训练的监督网络可能无法泛化到稍微不同的上下文中,例如在不同患者群体或不同设备上采集的图像【15】。第三,直接从标注图像中训练的监督网络可能会产生不同的误差分布,特别是在确切的分割范围存在差异时——例如,局部化大脑肿瘤需要更细致的分割来覆盖整个肿瘤体积——但这在不更新标签的情况下很难适应【16】。
为了解决这些问题,我们提出了一种完全不依赖任何标签的自动化医学图像分割方法,利用深度学习的最新进展,并结合拓扑数据分析和几何学。无监督方法避免了最昂贵的专家标注,并解决了跨域泛化问题。更重要的是,我们还设计了一种方法来生成多粒度分割,这可以在没有监督的情况下捕捉多个感兴趣区域。
我们的框架被命名为 CUTS(用于多粒度医学图像分割的深度学习和拓扑框架),以致敬著名画家亨利·马蒂斯,他著名的“剪纸”方法被称为“用剪刀画画”,通过从不同来源的材料中组装图像片段来制作图像。我们的技术实质上是这个过程的反映,因为我们从初始图像中提取像素块,并使用无监督机器学习来分割这些数据片段。虽然将纸张切成相同大小的均匀片段可能看起来很简单,但将医学图像的边界分割出来更具挑战性,因为生物结构(如健康和病理组织之间的边界)并不总是清晰和锋利。
CUTS 设计为无监督分割管道。图像以固定大小的像素块单元进行处理,嵌入图像像素块上的卷积编码器随后被训练,用于优化对象的局部重建。我们注意到,对比片段应该来自于原始图像本身,以创建有意义的像素嵌入。然后,我们找到在每个阶段内使用相似像素块的合适对比度片段。随后,学习到的嵌入阶段作为多尺度、拓扑结构引导的粗粒度匹配方法的基础,从而产生多粒度分割。
我们的主要贡献包括
- CUTS 是一种新颖的无监督框架,采用双阶段方法:首先,它生成图像像素块的嵌入图像,通过卷积编码器训练嵌入,然后使用数据凝聚技术将这些像素块聚类为不同粒度的分割。
- 针对每个阶段的优化目标,结合图像内重建和局部路径重建。
- 使用基于多尺度、拓扑引导的数据粗粒度匹配方法,通过图像自适应聚类,生成多粒度分割。
- 应用我们的框架来分割由视网膜图像和脑部MRI图像组成的医学图像数据集。我们通过定性和定量的度量方法评估CUTS的性能,并将其与其他无监督方法和监督方法进行比较。
这篇文章的剩余部分组织如下:在第二节中,我们回顾了该领域的相关工作。提供了详细的框架介绍,包括网络架构、优化目标和多粒度分割。在最后一节中,我们展示了我们框架在一系列无监督医学图像数据集上的应用,并比较了其性能。
相关工作
医学图像分割的传统方法
传统图像分割方法通常分为两类。第一类依赖于手工制作的图像特征,如线/边缘检测【2】、图切割【3, 7】、活动轮廓【4】、分水岭算法【5, 6】、水平集【16】和特征聚类【17】。这类方法简单易行,但在复杂的图像和纹理中通常表现不佳。第二类方法利用预先计算的图像模板或图谱,通过对一组标注图像进行对齐和注册来生成分割【8-10】。这些方法需要重建和更新图谱以适应新图像,耗时且成本较高。
深度学习方法的医学图像分割
近年来,监督学习方法在医学图像分割中表现出色【13】。在监督学习中,神经网络通过大量标注数据进行训练,以学习特定任务的优化过程【11】。在医学图像分割中,最著名的方法是U-Net【18】,随后是具有不同架构、注意力机制和损失函数的变体【19-22】。这些方法都是监督学习方法,因此需要大量的专家标注。
向无监督学习的转变
随着对避免依赖人工标注的关注,研究人员开始探索医学图像分割的无监督学习方法。许多工作集中在使用少量标注数据【29】、从伪标签生成中直接学习【27-29】、以及基于无监督学习的方法【30-31】。这些方法假设不同的组织类型对应于不同的颜色,这在许多医学图像模式中并不一定适用。
基于图谱的无监督学习也是一个有前景的方向。与传统图谱方法相比,由于深度学习的发展,这些方法取得了显著进步【32, 33】。当图谱间隙较小时,这些方法效果很好;否则,这些方法可能会失败。尽管这些方法在空间回归中表现优异,但它们更适合于清晰分界的结构,且由于个体间的变化较大,不太适用于域泛化【34】。
对比学习
对比学习被提出作为一种泛化的自监督方法,旨在解决有限标注问题。概念上,它允许神经网络通过鼓励相似图像对彼此靠近和不同图像对彼此远离来学习嵌入表示【35】。经过有意义的嵌入空间阶段后,可以附加额外的层来进行下游任务【36-39】。这些基于图像级表示的方法缺乏图像内细粒度信息【40】。我们提出了像素级对比学习方法,可以显著增强图像的结构和纹理信息。之后,我们利用这种强嵌入空间阶段作为基础,通过拓扑多尺度粗粒度匹配方法生成多粒度分割。
无监督图像分割与对比学习
两种领先的无监督图像分割方法,DFC【42】和STEGO【43】,都利用了对比学习的概念。STEGO 学习图像自身的特征关系,即最相似的图像和不相似的图像。尽管 STEGO 可以在没有标签的情况下进行训练,但它依赖于预训练的视觉骨干网络进行知识蒸馏,这不是我们方法的必要条件。DFC 是与我们的方法最为相似的,但有两个关键区别。首先,DFC 在像素上进行对比,而我们在以像素为中心的块上操作。以像素为中心的块包含了比单个像素显著更多的语义和纹理信息。其次,我们通过拓扑多尺度粗粒度方法实现分割,生成许多不同粒度的分割图,而不是单一的分割图。
Segment Anything Model (SAM)及其医学变体
Segment Anything Model (SAM)【44】最近引入了一种通用分割工具,预训练于一个巨大的自然图像数据集上。如前面的研究人员所示【45】,SAM 提供了一种无需标签的医学图像分割替代方案,通过一种称为“零样本转移”的接口,其中单个点作为提示,由提示编码器解码并发送到掩码模型以生成分割掩码。该框架还支持替代输入格式,如文本提示(书面文本)或框提示(边界框)。
为了更好地适应医学图像应用,研究人员开发了在大型医学图像数据集上预训练的变体,如 MedSAM【46】和 SAM-Med2D【47】。这些是最受欢迎的变体之一。
严格来说,SAM 及其变体不是无监督学习方法。因此,它们仍然面临跨域泛化问题,如前所述,而其蛮力解决方案是通过庞大的训练集覆盖整个数据分布。尽管它们不是无监督的性质,但我们决定将其纳入比较,因为它们无疑是最新的分割框架。
3 方法
图1:CUTS 框架(A) 概述。
(B) 以像素为中心的块被映射到嵌入空间,通过两个目标共同优化。
© 基于接近度和结构相似性选择正、负块对。
(D) 扩散凝聚在一系列粒度上对嵌入向量进行粗粒化。
(E) 可以通过将聚类分配映射到图像空间来执行任意粒度的分割。多尺度 PHATE(MS-PHATE)【48】用于可视化。
CUTS 框架包含两个阶段(图1(A))。第一阶段:将每个像素及其周围的局部邻域编码为“以像素为中心的块”,并将其映射到高维嵌入空间,通过共同优化对比学习和自编码目标(图1(B))。与大多数从增强版本的完整图像中学习的对比学习方法不同,CUTS 从同一图像中的区域进行学习(图1©)。这强调了学习局部图像特征而不是已知图像变换或噪声模型的不变性。这对于医学图像尤为关键,因为它们在全局上是均匀的(即来自不同患者的图像捕捉到相同的身体部位),但在局部上是异质的(即图像的结构或纹理在图像的小区域内是不同的)。第二阶段:通过扩散凝聚,这些嵌入向量被粗粒化为多个粒度级别【49, 50】。可以自动识别具有零拓扑活动的凝聚同源性所标识的亚稳粒度【50】。分割通过为像素分配标签来执行,这些标签对应于从特定的亚稳粒度中产生的聚类(图1(D-E))。
3.1 学习以像素为中心的块的嵌入空间
CUTS 使用卷积神经网络作为块编码器,将以像素为中心的块从图像空间映射到潜在嵌入空间。块编码器和图像与潜在映射之间的转换都包含卷积、批量归一化和激活。两个目标被共同优化。
✅图像内对比损失:对于坐标 (i, j) 处的任何锚块 P i j ∈ R K × K × C P_{ij} ∈ R^{K×K×C} Pij∈RK×K×C,我们采样正块 P i j + P_{ij}^+ Pij+ 和负块 P i j − P_{ij}^- Pij−。令 f ( ⋅ ) f(·) f(⋅)表示卷积编码器。锚嵌入 z i j = f ( P i j ) z_{ij} = f(P_{ij}) zij=f(Pij),正嵌入 z i j + = f ( P i j + ) z_{ij}^+ = f(P_{ij}^+) zij+=f(Pij+),负嵌入 z i j − = f ( P i j − ) z_{ij}^- = f(P_{ij}^-) zij−=f(Pij−)。将块投影到潜在嵌入空间后,我们可以对锚块和它们的各自正嵌入 z ~ i j \tilde{z}_{ij} z~ij 和 z ~ i j + \tilde{z}_{ij}^+ z~ij+ 执行对比学习。我们使用接近启发式和图像相似性来采样正块。只有具有接近性(基于块大小)和结构相似性($SSIM > 0.5)的块才被视为候选正块。对比损失如下:
L c o n t r a s t = − l o g ∑ z i j + ∈ P + e s i m ( z i j , z i j + ) / τ ∑ z i j − ∈ P − e s i m ( z i j , z i j − ) / τ L_{contrast} = -log \frac{\sum_{z_{ij}^+ ∈ P^+} e^{sim(z_{ij}, z_{ij}^+) / τ}}{\sum_{z_{ij}^- ∈ P^-} e^{sim(z_{ij}, z_{ij}^-) / τ}} Lcontrast=−log∑zij−∈P−esim(zij,zij−)/τ∑zij+∈P+esim(zij,zij+)/τ
图像内对比损失(Intra-image Contrastive Loss
示例
✅局部路径重建损失:除了对比损失之外,我们还确保嵌入的每个像素中心块都保留其路径,并通过重建损失进行传播。对于嵌入 z i j ∈ R d z_{ij} ∈ R^d zij∈Rd,路径重建损失为: L r e c o n = ∣ ∣ P i j − f r e c o n ( z i j ) ∣ ∣ 2 L_{recon} = ||P_{ij} - f_{recon}(z_{ij})||_2 Lrecon=∣∣Pij−frecon(zij)∣∣2其中 f r e c o n : R d → R K × K × C f_{recon} : R^d → R^{K×K×C} frecon:Rd→RK×K×C 是一个两层全连接网络,带有ReLU激活。
示例
✅最终目标函数:最终目标函数是对比损失和重建损失的加权和,由加权系数 λ ∈ [ 0 , 1 ] λ ∈ [0, 1] λ∈[0,1] 平衡: l o s s = λ ⋅ L c o n t r a s t + ( 1 − λ ) ⋅ L r e c o n loss = λ · L_{contrast} + (1 - λ) · L_{recon} loss=λ⋅Lcontrast+(1−λ)⋅Lrecon
示例
✅超参数:在实验中,我们经验地找到六个超参数(图2)。首先,我们发现像素中心块的最佳块大小为 5 × 5 5×5 5×5。然后,我们决定在每个图像中采样 8 8 8个块用于对比学习和重建。最后,我们将对比损失系数设置为 0.001 0.001 0.001。我们发现,在加权之后, L c o n t r a s t L_{contrast} Lcontrast 仍然是非平凡的,因为 L c o n t r a s t L_{contrast} Lcontrast 的数值在收敛时比 L r e c o n L_{recon} Lrecon高三个数量级以上。
示例
由于无法通过当前环境生成Word文档,建议您手动复制以下内容,并使用Word或其他文本编辑工具创建文档。
3.2 Coarse-graining for Multiscale Segmentation 多尺度分割的粗粒化
对于每个以 ( i , j ) (i, j) (i,j) 为中心的图像块 P i j P_{ij} Pij,块编码器将其编码为 z i j ∈ R d z_{ij} ∈ R^d zij∈Rd。我们可以使用聚类算法 c l s ( ⋅ ) : R d → R cls(·) : R^d → R cls(⋅):Rd→R 将它们分配到 n n n 个不同的聚类 c 1 , c 2 , . . . , c n {c1, c2, ..., cn} c1,c2,...,cn 中。然后,我们可以创建一个标签图 L ∈ R H × W L ∈ R^{H×W} L∈RH×W,其中 L i j = c l s ( z i j ) L_{ij} = cls(z_{ij}) Lij=cls(zij)。标签图 L L L 将是 C U T S CUTS CUTS 分割的最终产物。值得注意的是,随着扩散凝聚的进行, c l s ( ⋅ ) cls(·) cls(⋅) 在整个过程中会发生变化,因此我们可以生成丰富的标签集。
扩散凝聚是一种动态过程,遍历不同的粒度级别来识别数据的自然分组。它通过扩散过程以一定的速率将数据点向其邻居凝聚,速率由数据点之间的扩散概率定义。与大多数聚类方法不同,扩散凝聚构建了从粗到细的完整层次结构,其中每个粒度级别的聚类数量不是任意设置的,而是从数据的潜在结构中推断出来的。
形式上,给定一个数据矩阵 X ∈ R N × d X ∈ R^{N×d} X∈RN×d,其中 N N N 是观察值的数量(在我们的例子中, N = W × H N = W × H N=W×H,表示图像中的像素数), d d d 是特征的数量,我们可以使用高斯核 K ( x m , x n ) = e − ∣ ∣ x m − x n ∣ ∣ 2 / ε K(x_m, x_n) = e^{-||x_m - x_n||^2 / ε} K(xm,xn)=e−∣∣xm−xn∣∣2/ε 构建每对观察值 ( m , n ) ∈ 1 , . . . , N (m, n) ∈ {1, ..., N} (m,n)∈1,...,N 之间的局部亲和力。
K K K 是一个 N × N N × N N×N 的 G r a m Gram Gram 矩阵,其 ( m , n ) (m, n) (m,n) 项记作 K ( x m , x n ) K(x_m, x_n) K(xm,xn),强调其对数据矩阵 X X X的依赖性。 x m x_m xm 和 x n x_n xn 都是 d d d 维向量。带宽参数 ε ε ε 控制邻域的大小。给定这个亲和矩阵 K K K,扩散算子定义为 P = D − 1 K P = D^{-1}K P=D−1K,其中 D D D 是对角度矩阵,如公式 (4b) 所示:
D ( x m , x m ) = ∑ n K ( x m , x n ) D(x_m, x_m) = ∑_n K(x_m, x_n) D(xm,xm)=n∑K(xm,xn)
扩散算子 P 定义了单步扩散过程在数据上的转移概率,可以看作是马尔可夫随机游走。为了进行多步扩散,可以通过将扩散算子提高到幂次 t t t 来模拟时间齐次扩散过程,这导致 X t = P t X X_t = P^tX Xt=PtX。另一方面,正如文献 [50] 中所示,我们可以通过迭代计算扩散算子和数据矩阵来模拟时间非齐次扩散过程,如下所示:
X 0 ← X X_0 ← X X0←X
对于 t ∈ [ 1 , . . . , T ] t ∈ [1, ..., T] t∈[1,...,T]:
K t − 1 ← K ( X t − 1 ) / ∗ 使用公式 ( 3 ) K_{t-1} ← K(X_{t-1}) /* 使用公式 (3) Kt−1←K(Xt−1)/∗使用公式(3)
D t − 1 ← D ( K t − 1 ) / ∗ 使用公式 ( 4 b ) D_{t-1} ← D(K_{t-1}) /* 使用公式 (4b) Dt−1←D(Kt−1)/∗使用公式(4b)
P t − 1 ← D t − 1 − 1 K t − 1 / ∗ 使用公式 ( 4 a ) P_{t-1} ← D_{t-1}^{-1}K_{t-1} /* 使用公式 (4a) Pt−1←Dt−1−1Kt−1/∗使用公式(4a)
X t ← P t − 1 X t − 1 X_t ← P_{t-1}X_{t-1} Xt←Pt−1Xt−1
扩散凝聚的过程可以总结为以下两步的交替进行:
- 从迭代 t 的数据中计算时间非齐次扩散算子。
- 将该算子应用于数据,将点移动到局部重心,形成迭代 t + 1 的数据。
有关扩散凝聚的更多细节可以在文献 [50] 中找到。在本文中,我们使用了官方实现 (https://github.com/KrishnaswamyLab/catch)。
✅相关参数分析
我们可以识别出在多个分割过程中一致出现的段,称为持久结构。术语“持久性”是扩散凝聚中定义的一种度量,用于衡量在多次迭代中保持分离的聚类。通过基于持久性级别对不同的段进行排序,可以发现持久结构,其量化方法是在多少次连续的扩散迭代中段保持完整并未合并到另一个段中。
对于二值分割,我们需要将多类标签图转换为二值分割掩码。按照标准做法 [43, 45],我们使用真实标签分割掩码为每个图像的前景选择提供提示。具体来说,我们遍历真实标签掩码中的每个前景像素,找到其对应的嵌入向量中最常关联的聚类标签。然后,我们将所有嵌入匹配该聚类标签的像素设置为前景。这一过程有效地找到了最可能的聚类标签,如果从真实标签的前景区域随机选择一个像素,则该标签是客观且无偏的。
4 实验结果
我们准备了三个医学图像数据集来评估我们提出的框架。选择这些数据集是为了展示应用的广泛性,因为它们涵盖了颜色通道的变化(例如,RGB 与仅强度)、成像序列(例如,T1 对比 T2 FLAIR),以及感兴趣的器官(例如,眼睛对比大脑)。
✅视网膜眼底图像
我们使用了患有年龄相关性黄斑变性(GA)的视网膜彩色眼底图像,这些图像来自于年龄相关眼病研究组[53, 54]。GA区域由两位分级者进行分割,并由一位视网膜专家审查,最终得到了56张视网膜图像及其准确的分割结果。
✅脑MRI图像(脑室)
我们使用了来自阿尔茨海默病神经影像倡议研究的患者的MRI图像[55]。放射科医生手动分割了100张T1加权脑MRI中的脑室区域用于我们的研究。
✅脑MRI图像(肿瘤)
我们使用了来自多家医疗机构扫描的胶质瘤患者的MRI图像。200张液体衰减反转恢复(FLAIR)脑MRI的肿瘤区域由受过训练的医学生分割,并由获得委员会认证的神经放射科医生最终审核。
4.1 多粒度分割的定性结果
如图3所示,我们的多尺度分割方法提供了在不同粒度下图像结构的描绘。扩散凝聚过程从所有像素彼此隔离开始(纯噪声,图中未显示)。经过几次迭代后,最相似的像素开始聚集在一起(图3最左列)。在最细的尺度上,甚至最小的结构也被描绘出来,例如视网膜图像中的视网膜血管(第一行)。随着尺度变粗,解剖结构开始出现,形成较大的组。标志性结构包括视网膜图像中的黄斑变性区域(第一行)、脑室图像中的白质和灰质(第三行),以及脑肿瘤图像中的肿瘤区域(第五行)。这些解剖结构的检测可以促进对其大小、形状和位置的精确测量。在频谱的粗糙端,大多数结构逐渐通过扩散凝聚融合在一起,只剩下图像中最具区分性的对象。最终结果(最右列)识别出了与前景和背景相对应的两个剩余聚类。
从定性上看,我们展示了CUTS能够自动检测医学图像中的有意义结构和模式,这些图像来自多种模态,在多个粒度下实现了精确的医学图像分割。这使得用户能够确定所需的细节水平,而无需手动注释大量的训练数据。
图 3: 多粒度分割(奇数行)在不同尺度上捕捉到独特的模式。多尺度 PHATE(偶数行)用于可视化扩散凝聚过程。图中还显示了 CUTS + 光谱 k-均值聚类(“k-means”)和 CUTS + 扩散凝聚持久结构(“diffusion-P”)的结果供参考。
4.2 二值分割的定性和定量结果
我们在三个数据集上比较了CUTS在几种替代方法上的表现。首先,我们使用三种传统的无监督方法进行比较:Otsu’s watershed[5]、Felzenszwalb[7]和SLIC[17]。然后我们与最近基于深度学习的无监督方法DFC[42]和STEGO[43]进行比较。对于每次实验,我们重新训练DFC、STEGO和CUTS,仅在图像上进行。
接下来,我们与Segment Anything Model (SAM)[44, 45]进行比较,该模型在超过11亿张图像和11亿个掩码上进行预训练,以及其医学图像变体(MedSAM[46]/SAM-Med2D[47])在1.64/1.66百万张图像和1.6/1.97百万掩码上进行预训练。对于每个图像,我们提供了地面真实标签的中心点作为前景分割的提示[45]。
最后,作为参考,我们以随机标签作为性能下界,并以全监督方法UNet[18]和nn-UNet[24]作为上界。对于多粒度分割的像素嵌入,我们还实施了光谱k-均值聚类[56]替代方法,在每个粒度级别上仅实现一个。为了公平比较,我们将本文描述的二值化方法应用于所有无监督方法。
✅视网膜眼底图像中地理萎缩分割
我们的第一个实验旨在分割视网膜眼底图像中的地理萎缩(GA)区域。GA是一种由进行性黄斑变性(AMD)引起的高级阶段。CUTS准确地选择了萎缩区域。
从定性上看,CUTS在描绘萎缩区域的边界上优于其他无监督方法(图4)。定量结果(表1)也证实了这一观察结果。CUTS比其他无监督方法生成了更好的分割,表现在更高的Dice得分和更低的Hausdorff距离上。
✅脑MRI图像中脑室分割
在我们的下一个实验中,我们尝试在不同阶段阿尔茨海默病患者的MRI图像中分割脑室。这一任务在临床上被认为是重要的,因为脑室体积可以预测痴呆症的进展[57, 58]。
从定性上看,CUTS在各种设置中描绘了脑室的分割(图4)。由于脑室在图像的其余部分中通常显著更暗,且保持较小的变化,因此可以在几个尺度上获得良好的总体性能。然而,我们的方法通常比竞争方法更好地描绘了边界,特别是对于显示不连续脑室的图像。定量结果(表1)也表明了CUTS在所有无监督方法中优越的分割性能。
✅脑MRI图像中肿瘤分割
我们的最终实验研究了不同的分割目标,即脑MRI图像中的脑肿瘤,更具体地说,是胶质瘤。肿瘤区域的准确分割对于脑肿瘤的诊断和治疗至关重要。这个过程可以帮助放射科医生提供有关肿瘤大小、位置和形式的详细信息,这对于确定最合适的临床护理路径是重要的。
从定性上看,我们的方法在图4中显示出优于其他无监督方法的分割性能。总体而言,竞争方法在识别肿瘤方面遇到了困难,尽管它们在类似的成像模态下设法分割了脑室。性能上的这种差异是可以预料的,因为肿瘤分割与脑室相比,具有显著更复杂的结构和形态学差异。然而,CUTS克服了这些固有的挑战,并成功地分割了肿瘤区域。CUTS在脑室分割上比其他无监督方法有更大的改进,因为肿瘤分割任务更具挑战性。
✅与SAM、MedSAM和SAM-Med2D的比较
更令人印象深刻的是,如表1所示,CUTS在至少2个3个数据集上表现优于每个SAM变体,这些数据集在使用单个点作为输入的情况下进行了比较,而不是依赖于数十亿的注释。
✅消融研究
我们证实,应用扩散凝聚或光谱k-均值在原始图像像素上的效果比CUTS(表1)要次。
图 4: 定性分割比较。绿色曲线勾勒出真实标签,而蓝色或红色曲线勾勒出预测结果。“diffusion-P”:最佳的扩散凝聚粒度。“Sup.”:有监督。“P.T.”:预训练。“+bbox”:使用边界框而不是点作为输入;为了完整性而包含在内,但对于比较是不公平的。
图表 1:从 3 个随机种子进行的定量比较。在无监督方法中,最佳结果用粗体表示,亚军用下划线表示。带有“+bbox”的条目使用边界框而不是点作为输入。它们包含在内是为了完整性,但不适合作为公平的比较。‡ 扩散凝聚不会运行,因为在单通道图像中,每个像素的特征数量 = 1。* MedSAM 的次优性能是预期的。根据作者所说,“点提示仍然是一个实验性功能,模型是在一个小型腹部 CT 器官分割数据集上训练的。”
5 结论
CUTS 是一种深度学习和拓扑框架,使用无监督学习识别和突出重要医学图像结构。尽管出现了无监督模型,如各种生成对抗网络 (GAN),CUTS 仍然保持相关性和见解。它具有轻量且需要较少资源的优势,不需要数百万带注释的图像进行大型训练。此外,CUTS 扩展了像 SAM 这样的基础模型,涵盖了这些基础模型未涉及的特定任务。CUTS 还利用预训练,这突显了在实际应用中需要继续依赖的技术和工具。总之,CUTS 提供了一种实用且有效的替代方案,适用于不断发展的医学成像领域。
6 讨论
当前用于医学图像分割的最先进方法主要是监督学习,因此需要领域专家对大量医学图像进行标注。此外,通常无法收集足够的稀有疾病图像来训练监督学习模型。例如,在我们的工作中,收集的数据图像数量通常在数百范围内,而深度学习通常需要数百万张图像数据集。另一个限制是监督学习方法的领域泛化问题。当一个模型在某种条件下训练时,如果用于不同类型的图像,性能可能会显著下降,即使这些图像只有稍微不同。
相比之下,像 CUTS 这样的无监督方法,尽管架构更具挑战性,但不需要大量的带标签数据,从而规避了这种耗时、昂贵且往往无法实现的任务。无监督方法还可以应用于更小的图像数据集,并且性能优异。不幸的是,早期尝试使用无监督学习进行医学图像分割时表现不佳。这些无监督方法通常在分割边界和弱区域时表现较差。
通过使用关键洞察力,CUTS 能够在没有标签的情况下提供强大的分割性能,能够泛化到新的数据。虽然图像整体可能难以分割,但找到图像特征的边界通常可以通过其局部上下文检测到。因此,CUTS 特征仔细设计了局部像素中心块重建和像素中心块路径对比损失,来处理块内和块间的图像分割。这些独特的属性使CUTS成为多任务学习的有效工具。
在我们展示的应用中,我们将 CUTS 应用于来自不同医学领域的三个医学图像数据集。在视网膜眼底图像上,分水岭、Felzenszwalb 和 DFC 聚类都未能区分黄斑区域,而 CUTS 成功区分并一致地分割地理萎缩区域。对于脑MRI图像的脑室分割,CUTS 优于SLIC、DFC 和其他无监督方法。SLIC 和 DFC 尝试在无监督方法中引入块路径重建,性能稍逊于 CUTS。在脑MRI图像的肿瘤分割实验中,CUTS 成功检测了多个分辨率下的不同肿瘤区域,而其他无监督方法在检测较小的结构和位置时显得不足。
总之,CUTS 允许我们识别并突出医学图像中的重要结构,这对于诊断和进一步的医学分析至关重要。与当前最先进的方法相比,CUTS在医学图像分割方面提供了一种高效且资源节约的替代方案。