CKD TransBTS：用于脑肿瘤分割的具有模态相关交叉注意的临床知识驱动混合转换器

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer With Modality-Correlated Cross-Attention for Brain Tumor Segmentation

CKD TransBTS：用于脑肿瘤分割的具有模态相关交叉注意的临床知识驱动混合转换器
- 背景
- 贡献
- 实验
- 方法
- - how radiologists diagnose brain tumor?
  - Dual-Branch Hybrid Encoder（双分支混合编码器）
  - Modality-Correlated Cross-Attention (MCCA) Block（模态相关交叉注意（MCCA）块）
  - Feature Calibration Decoder（特征校准解码器）
  - Trans&CNN Feature Calibration Block（Trans&CNN特征校准模块）

CKD TransBTS：用于脑肿瘤分割的具有模态相关交叉注意的临床知识驱动混合转换器

IEEE TRANSACTIONS ON MEDICAL IMAGING, VOL. 42, NO. 8, AUGUST 2023
https://github.com/sword98/CKD-TransBTS

背景

我们利用放射科医生如何从多种MRI模式诊断脑肿瘤的临床知识，提出了一种临床知识驱动的脑肿瘤分割模型，称为CKD TransBTS。我们没有直接连接所有模态，而是根据MRI的成像原理将输入模态分为两组，重新组织输入模态。设计了一种具有模态相关交叉注意块（MCCA）的双分支混合编码器来提取多模态图像特征。所提出的模型继承了Transformer和CNN的优势，具有精确病变边界的局部特征表示能力和3D体积图像的远程特征提取能力。为了弥补Transformer和CNN特征之间的差距，我们在解码器中提出了一个Trans&CNN特征校准块（TCFC）

T1Gd是基于静脉注射钆造影剂的T1获得的，并且增强区域指示血脑屏障的破坏（或缺乏），这与存活的肿瘤和肿瘤浸润的大脑一致。T2和T2-FLAIR经常被联合解释。这些临床知识在脑肿瘤分割中可能非常有用。
很多方法都在以下两个方面创新BTS模型。1）如何利用3D序列信息和位置信息。2）如何融合多模态图像。

贡献

们提出了一个临床知识驱动的BTS模型，命名为CKD TransBTS。我们不是直接连接所有模态，而是根据它们的成像原理，简单地将输入模态重新组织为两组（T1&T1Gd）和（T2&T2FLAIR）。在编码阶段，我们使用我们提出的模态相关交叉注意块（MCCA）设计了一个双分支混合编码器，用于多模态融合和特征提取。混合编码器利用了Transformer和CNN的优势。Transformer从3D体积图像中的相邻切片捕获长距离信息。CNN引入了感应偏倚，以获得更精确的病变边界。在解码阶段，我们提出了一个Trans&CNN特征校准块（TCFC），以减轻从Transformer和CNN提取的特征的偏差。

我们通过考虑不同图像模态之间的结构相关性，并以更合理的方式对输入图像进行重新分组，提出了一种临床知识驱动的BTS模型。
我们提出了CKD TransBTS的两项技术创新。首先，设计了一种具有新型模态相关交叉注意块（MCCA）的双分支混合编码器，用于多模态融合和特征提取。其次，提出了一种新的Trans&CNN特征校准块（TCFC），以弥合Transformer和CNN之间的差距，减轻特征的偏差。
我们在BraTS21数据集上进行了一系列实验。与六个基于CNN的模型和六个基于变压器的模型相比，我们提出的模型实现了SOTA性能。

实验

BraTs 2021
对于每个模态，初始子体积分辨率为4×4×4，初始嵌入大小为32。在训练阶段，我们首先获得体积的最小边界框，然后将其随机划分为128×128×128的体积大小。为了使数据分布更加复杂并缓解过拟合问题，我们应用了几种数据增强方法，包括随机缩放、三个方向的随机翻转、高斯噪声、高斯模糊和随机对比度。所有的数据增强方法都应用于具有相同设置的所有四种模态。在测试阶段，我们使用重叠率为0.6的滑动窗口方法。
在这里插入图片描述

方法

在这里插入图片描述

how radiologists diagnose brain tumor?

1）放射科医生如何诊断脑肿瘤？：MRI是诊断脑肿瘤的常规临床检查。它通常包含四种成像序列（模态），包括T1加权、T1Gd、T2加权和T2FLAIR。一般来说，放射科医生在评估脑肿瘤时，会将诊断信息整合到不同的成像模式中。T1加权是预对比序列，它是预定位脑肿瘤的基本成像模式。T1Gd是注入钆增强血管结构和血脑屏障是否被破坏的对比后序列。因此，T1加权和T1Gd通常配对以定义肿瘤核心。T2加权成像用于检测游离水。在脑肿瘤中，T2加权和T2FLAIR图像通常被联合解读。对于胶质母细胞瘤中的T2加权高信号非增强区域，那些含有游离水（如肿瘤坏死）的区域经常表现为T2FLAIR低强度，而那些含有结合水（如血管源性水肿）的区域则表现为高信号T2FLAIR信号[2]。
使用swim transformer[41]作为所提出模型的基本架构来捕获长程信息。为了带来电感偏差并鼓励更好的局部特征表示，我们通过在变换器模型中引入卷积层，将变换器与CNN相关联。由于有两组输入图像，我们设计了一个具有卷积干和几个MCCA块的双分支混合编码器。MCCA块通过跨模态注意力在两个相关的图像模态之间交换信息。所有的多模态特征最终融合在一个瓶颈层中。设计了一个具有多个TCFC块和卷积层的特征校准解码器来获得最终的分割结果。

Dual-Branch Hybrid Encoder（双分支混合编码器）

CS卷积流，对于具有四个体积输入图像的BTS任务，现有方法倾向于将输入图像向下采样四个。为了以更柔和的方式降低输入维度，我们为每个图像模态引入了卷积茎（CS）
CS的输出为两个，一个降了4倍的用于后续特征提取，一个降了2倍的拼接到解码器之后为解码器特征图提供具有独特性的特征
在这里插入图片描述
下采样了两次，一个1/2的，一个1/4的。有两个优点。首先，与直接将输入图像下采样四倍，CS提供了两个不同尺度的特征量，以帮助在解码阶段恢复信息。第二个优点来自Xiao等人[42]，早期卷积运算可以提高ViT的优化稳定性。

Modality-Correlated Cross-Attention (MCCA) Block（模态相关交叉注意（MCCA）块）

为了同时考虑局部信息和长程信息，我们在MCCA块中结合了transformer和CNN。，MCCA块由两个相同的分支组成，用于分别从两种模态中提取特征。每个分支由两个级联模块组成，即自模态模块和跨模态模块
在这里插入图片描述

自模态模块：自模态模块用于提取每个单一模态的特征，是一个混合Transformer CNN模块。我们首先使用转换器来捕获远程信息。然后，我们通过用卷积层代替MLP层来引入归纳偏差和局部性。
跨模态模块：跨模态模块遵循具有移位窗口分区的swim transformer[41]，还用MBConv（EfficientNet）替换MLP层。它通过跨模态注意力CM−MSA（·）在两个相关模态之间交换信息
瓶颈层：在三个MCCA块之后，我们将四种模态的特征连接起来，并将它们输入瓶颈层，瓶颈层用于桥接编码器和解码器。瓶颈层与MCCA区块的单个分支共享相同的结构，而没有跨模态注意（无CM-MSA）。瓶颈层的输出被定义为FBNL。

Feature Calibration Decoder（特征校准解码器）

编码器提取的中间特征通过跳过连接传递给解码器。由于编码器是由transformer和CNN组成的混合模型。解码器是一个纯粹基于CNN的设计。编码器和解码器的特征之间存在语义差距。为了弥补这一差距，我们提出了一种Trans&CNN特征校准块（TCFC）。特征校准解码器包含三个连续的TCFC块、几个卷积块和一个分割头。