DTAN: Diffusion-based Text Attention Network for medical imagesegmentation

DTAN:基于扩散的医学图像分割文本关注网络

摘要

在当今时代，扩散模型已经成为医学图像分割领域的一股开创性力量。在此背景下，我们引入了弥散文本注意网络(Diffusion text - attention Network, DTAN)，这是一个开创性的分割框架，它将文本注意原理与扩散模型相结合，以提高医学图像分割的精度和完整性。我们提出的DTAN架构旨在通过利用文本注意机制将分割过程引导到感兴趣的领域。该机制善于识别和归零有意义的区域，从而提高分割的准确性和鲁棒性。同时，融合扩散模型可以减少医学图像中噪声和不相关背景数据的影响，从而提高分割结果的质量。

扩散模型有助于过滤掉外来因素，使网络能够更有效地捕捉目标区域的细微差别和特征，从而提高分割精度。我们对DTAN进行了三个数据集的严格评估:Kvasir-Sessile, Kvasir-SEG和GlaS。由于其与临床应用的相关性，我们的重点特别吸引到Kvasir-Sessile数据集。当与其他最先进的方法进行基准测试时，我们的方法在Kvasir-Sessile数据集上显示出显着的改进，平均交集超过联合(mIoU)增加2.77%，平均骰子相似系数(mDSC)增加3.06%。这些结果有力地证明了DTAN的通用性和鲁棒性，以及它在医学图像分割任务中的明显优势。

1 介绍

医学图像分割是医学影像领域的基石，为临床医生准确定位、辅助诊断、制定治疗方案提供了不可或缺的支持。在最近的医学图像分析领域，编码器-解码器网络得到了广泛的探索，UNet架构[1]就是一个典型的例子。该架构采用编码器通过卷积和下采样提取深度特征，而解码器通过上采样将这些特征恢复到原始输入分辨率。跳跃连接的集成减轻了下采样导致的空间信息丢失，提高了分割的保真度。UNet框架发挥了重要作用，促进了许多基于UNet架构的开发[2-7]。

在医学图像分割领域，卷积神经网络(cnn)得到了广泛的应用。然而，医学图像中噪声的存在会影响cnn的性能。

为了解决这个问题，引入了扩散模型[8-10]。这些生成模型，使用变分推理和马尔可夫进行训练

链[11]，旨在通过有效处理医学图像中的噪声和不确定性来提高分割的准确性和鲁棒性。他们通过学习反向扩散过程，在去噪高斯模糊图像方面取得了特别成功[12]。

扩散模型在各种应用中取得了显著的成功，包括图像生成[13,14]、绘画[15,16]和语义分割[17,18]。它们增强图像平滑性和降低噪声的能力使得扩散模型与cnn的融合成为一种流行的去噪方法，在医学图像分割方面取得了重大成就[19-21]。这种组合使得cnn在分割过程中能够更有效地去除噪声，从而提高分割结果的质量和精度。

受cnn和扩散概率模型(Diffusion Probabilistic Models, DPM)协同作用的启发，我们提出了一种用于医学图像分割的前沿网络模型DTAN。该模型首次将字节对编码引导的注意力与扩散模型相结合。在医学图像分割中，病变或器官往往被遮挡

背景干扰时，DTAN采用动态条件编码来细化分割结果。在迭代采样过程中，我们的模型在每一步捕获图像的先验条件，以学习分割后的图像信息。为了实现自适应区域关注，将当前步骤的分割图像集成到每一步的图像先验编码中。此外，在训练过程中，基于文本的注意机制与辅助分类任务一起使用，以合并与数字和大小相关的特征，允许网络通过加权文本嵌入学习额外的特征表示。通过在Kvasir-SEG[22]、KvasirSessile[23]和GLAS[24]数据集上的大量实验验证了我们提出的方法的有效性，证明了它作为医学图像分割的一种变革性方法的显著优势和潜力。

为了简洁地概括我们研究的贡献，我们描述了以下关键点:

1. 我们引入了一种新的基于文本的注意力机制与扩散模型的集成，为医学图像分割领域量身定制。这种创新的方法将网络的焦点指向关键区域，利用扩散模型固有的信息传播能力来实现精确的分割结果。

2. 特征增强模块(FEM)的实现允许多尺度信息的有效资本化，从而提高分割性能。有限元法擅长提取和融合不同尺度图像的特征，丰富了网络识别不同尺寸结构的能力，从而提高了分割精度。

3. 我们建议在网络中加入一个辅助分类任务，以提高目标分割区域的准确性。通过为基于文本的嵌入分配权重，该网络被赋予了吸收附加特征表示的能力。这种方法使网络能够更准确地适应待分割区域的不同数量和尺寸，从而提高整体分割精度。

2. 相关工作

在医学图像分割领域，经典的U-Net模型[1]已经成为一个基础框架，用于预测输入图像的分割掩码。U-Net巧妙地解决了由于下采样而导致的低级信息丢失问题，它结合了可以恢复细粒度细节的跳过连接。

在此基础上，U-Net++[2]和ResUNet++[6]因其在医学图像分割方面的增强性能而得到广泛认可。当代的研究工作主要集中在通过增加或改进各种模块来增强网络能力[25-34]。例如，PraNet[35]引入了一种并行的反向注意机制，该机制利用肿瘤区域的面积和边界信息进行精细分割，采用并行部分解码器整合高级特征并生成全局知情特征来描绘感兴趣的区域。

HRENet[36]通过集成上下文增强技术来捕获全面的语义信息并将其与局部特征协同，提高了分割的准确性和一致性。它还具有自适应特征聚合模块，可以自动融合不同尺度的特征，使模型能够更好地适应目标的各种大小和形状。在训练过程中，HRENet利用边缘和结构一致性损失函数来强调边缘的精度和整体结构的完整性。

dcau - net[32]代表了一个重大的飞跃，引入了有选择地保留主要特征的策略，从而利用低级和高级语义信息进行更准确的分割。它还结合了渠道智能注意力块，以更有效地辨别和处理不同渠道的信息。

XBound-Former[37]通过集成多层次边界信息和全局上下文建模，解决了皮肤病变分割中尺寸、形状变化和模糊边界的挑战。它采用专门的学习器对图像特征进行微调，并结合边界关键点映射生成算法来增强边界的描绘。

文献[38]提出在网络中集成文本注意机制，并在编码层对属性进行加权，可以显著提高网络对不同大小和数量的肿瘤的分割精度。在多个尺度上聚合来自单个解码块的特征可以提高分割精度。

polyseg方法[39]利用自适应尺度上下文模块(ASCM)和语义全局上下文模块(SCCM)来促进语义分割。ASCM动态调整接受野以适应不同大小的息肉，而SCCM增强了对全局语义上下文的理解，并将其与底层特征融合以提高分割的鲁棒性。

扩散模型在最近的各种任务中显示出其潜力[18,40 - 42]，特别是在医学图像分割中[19,21,43 - 45]。去噪扩散隐式模型(diffusion implicit model, DDIM)[9]通过引入不同的采样方案生成图像。与传统的随机采样相比，它采用了一种确定性采样方法，跳过多个步骤来获取图像。这种确定性采样方案保证了从相同的噪声图像中采样的输出图像是确定性的，不受随机变化的影响。此外，DDIM在图像之间实现了有意义的插值，实现了图像之间的平滑过渡。为了进一步提高DDIM的性能，论文[46]最近的工作做了一些改进。他们调整了损失目标，改进了模型架构，并在采样过程中引入了分类器引导，以提高生成图像的质量。这些改进使DDIM能够生成高质量的图像并取得令人满意的结果。此外，Wolleb等[17]。提出了一种新的基于扩散模型的二维医学图像语义分割方法，证明了扩散模型在医学图像分割领域的适用性。MedSegDiff[21]，该研究引入了一种基于Transformer的Ushaped框架，该框架带有一种新的频谱空间Transformer，以促进医学图像分割。同样，diffi - unet[19]将扩散模型集成到u形网络中，在推理过程中鲁棒地提取语义信息，增强预测结果。

3. 方法

图1展示了我们提出的扩散文本注意网络(DTAN)的综合架构。传统的医学分割技术通常直接从输入的图像数据中推断出最终的分割标签，我们的方法将扩散模型集成到分割框架中。该网络不仅对原始图像进行处理，而且对分割后的掩码图像进行带噪处理。这种双输入策略使扩散模型能够有效地去除噪声，从而产生精细而清晰的分割结果。此外，我们的架构利用了文本注意机制，这对于以最佳方式分割图像中的目标对象至关重要。这种机制是专门为减轻对象大小和数量变化对分割结果的影响而设计的。通过关注相关的文本描述符，网络可以自适应地调整对目标对象相关特征的关注，确保分割的准确性和对目标属性变化的鲁棒性。

图1所示。图中展示了DTAN网络的架构，该网络被战略性地划分为两个主要部分，以优化医学图像分割。上面的部分，称为扩散UNet，用于衰减医学图像中的噪声。它采用了一个复杂的去噪模型来处理输入图像，目的是大幅提高它们的质量。这种增强对于随后的分割任务至关重要，因为它确保了图像中更精细的细节和结构得到保留和强调。网络的下部是特征提取器，它是一个精心设计的组件，用于从原始图像中识别和捕获基本特征。该设计的一个值得注意的方面是特征提取器和扩散UNet之间的共享编码器。这种共享的体系结构促进了功能的和谐集成，允许更健壮和一致的功能分析。文本注意机制是网络运行的核心。这种机制使网络能够集中在图像中最关键的区域，从而实现更准确和更集中的分割。变量f£表示通过特征增强模块(FEM)处理的特征大小数组。有限元法擅长细化不同尺度的特征，这对于适应医学图像中存在的不同尺寸和复杂性特征是必不可少的。该模块增强和集成多尺度特征的能力对网络的整体性能至关重要，确保分割不仅精确，而且全面捕获不同尺度上的每个相关细节。

3.1 扩散UNet