1. 介绍
许多医学成像任务使用来自多个视图或模式的数据,但很难有效地将这些数据结合起来。虽然多模态图像通常可以在神经网络中作为多个输入通道进行配准和处理,但来自不同视图的图像可能难以正确配准(例如,[2])。因此,大多数多视图模型单独处理视图,只有在全局池化之后才将它们组合起来,这样就消除了视图之间的任何局部相关性。如果这些局部相关性对图像的解释很重要,则可以通过在更早的空间特征级别上链接视图来改进模型。
提出了一种在空间特征图层次上链接未注册视图的方法。受基于注意力的Transformer模型[13]的启发,该模型在序列或图像的遥远部分之间建立连接,模型使用注意力来连接视图之间的相关区域。将此转换器应用于由CNN生成的中间特征映射。基于可训练的注意力机制,该模型从一个视图中检索特征并将其转移到另一个视图中,在那里它们可以用来为原始视图添加额外的上下文。
提出的方法不需要像素对应{它比较视图A的特征映射中的所有像素与视图B的特征映射中的所有像素}但使用可训练的注意力模型组合视图。通过将其应用于特征映射而不是直接应用于输入,允许模型链接更高级别的特征并降低计算复杂性。由于链接所有像素对很昂贵,因此研究了一种替代实现,即在视觉标记中对具有相似特征的像素进行分组 。
提出了这些新颖的基于像素和基于令牌的交叉视图转换方法,并将它们应用于两个公共数据集。尽管在全局池化之后结合特征是处理未注册医学图像的多视图信息的一种相对常见的方法,但据我们所知,还没有方法使用基于变换的方法在空间特征级别上做到这一点。所提出的模型可以很容易地作为一个模块嵌入到基线多视图架构中,这些架构在全局池化后组合视图。在CBIS-DDSM乳房x线摄影数据集[5,7]和CheXpert胸部x线数据集[6]上评估了我们的方法。通过实验认为早期的特征组合可以提高多视图图像的分类能力。
2. 相关工作
大多数方法都是在后期将视图组合起来,通常是通过将从不同视图中获得的特征向量连接起来,然后使用完全连接的部分进行最终预测。 综合全局特征对于乳房x线摄影图像来说很常见,但很难进行配准[2]。例如,Bekker等人[1]结合了来自特定于视图的分类器的二元预测。Carneiro等[2]在全局池化后结合了特定视图CNN分支的特征。Wu等人[16]讨论了在单个网络中组合视图的多种方法,所有方法都具有特定于视图的卷积分支。其他地方也提出了类似的架构(例如,[10,12])。
其他作品则结合了区域层面的观点。Wang等人[14]提出了一种基于区域的三步方法:在从每个视图中提取大量ROI(感兴趣的区域)之后,使用带有注意力驱动方法的CNN从每个ROI中提取特定于视图的特征。最后,通过基于LSTM的融合模型将两个视图的特征与其他临床特征结合起来。同样,Ma等人[9]提出使用Faster R-CNN来检测每个视图中的roi,然后将其转换为特征向量并组合在多视图网络中。
Zhao等人[17]的工作,应用了一种联合注意机制,将两个视图或两个侧面(左和右乳房)结合起来,生成通道和空间注意图,突出不对称区域。注意力加权的、特定于视图的分支的输出被汇集和连接起来,以产生最终的分类。与我们在视图之间传递特征值的方法不同,Zhao等人只使用交叉视图信息来计算交叉视图的注意权重。
Rubin等人[11]评估了一个具有特定视图卷积分支、全局平均池化和共享全连接层的模型,并报告将正面和侧面视图结合起来可以提高分类性能。最近,Hashir等人[3]在大型胸部x射线数据集上比较了几种多视图模型,结果表明,虽然多视图数据对某些诊断任务有用,但正面视图对其他任务可能足够。
3. 方法
3.1 基线模型
单视图基线(图1a)遵循基本的ResNet架构。该网络由具有卷积和池化层的ResNet块堆栈组成,其次是全局平均池化和计算最终输出的完全连接部分。延迟连接基线(图1b)通过对每个视图使用单独的卷积分支,将该模型扩展到多个未注册视图。在全局池化之后,所有视图的特征向量被连接到一个共享的全连接部分来计算预测。这与其他工作中多视图数据的组合方式类似,如[16]。
3.2 跨视图Transformer模型
与传统的transformer中用于单个序列内部信息传输的自注意力机制不同,使用交叉视图注意力来在视图之间传输信息。 该交叉视图transformer在模型的卷积部分的中间层工作。在第三个ResNet块之后应用该模块,并在全局池化之前保留一个ResNet块。
定义了这个模型的两个变体:一个像素级的变体,它将源视图和目标视图的像素连接起来;一个基于令牌的变体,其中目标视图的像素与源视图中的视觉令牌相连接。
跨视图注意力
使用带有缩放点积注意的多头注意模型[13]。对于每个注意头,使用具有特定视图权重的1 × 1卷积来计算源和目标像素的嵌入。将目标视图的嵌入特征映射重塑为查询矩阵,并将源视图的特征映射重塑为键矩阵,其中d是嵌入的大小,m和n是源和目标像素的数量。我们还将原始源特征映射重塑为值矩阵,其中f是特征映射的数量。接下来,我们使用缩放后的点积注意函数[13]进行计算
对于每个目标像素,计算源视图特征的加权和,从而产生每个注意头的 f 个新特征。根据目标特征映射的形状将输出重塑为 个特征映射,并应用1 × 1卷积将这些特征映射约简为 f 个基于注意力的特征映射。
将基于注意力的特征映射a与目标数据的原始特征映射x组合,得到组合后的特征映射y:
Linear是一个1×1卷积,将注意力特征映射到x的特征空间。得到的特征映射y用作以下ResNet块的输入。
语义视觉标记
通过分组语义相关的像素,用较少数量的视觉标记替换源像素。 对源特征映射应用了三层标记化过程。在第一层,给定平坦化的特征映射,其中m是源像素的数量,f是特征映射的数量,我们计算令牌T:
空间维度上的softmax使用标记器权重 来计算空间注意图,然后使用它来计算中每个标记L的加权特征和。
,之后重复这个过程,在第三个标记化层中获得最终的标记T集合。在基于标记的交叉Vision Transformer中使用这些标记代替源像素。
4. 数据
CBIS-DDSM
在预处理过程中,使用描述的方法裁剪扫描Wu等人[16]使用阈值分割来定位一个固定大小的裁剪窗口,该窗口包括乳房,但不包括大部分空白背景。将裁剪后的图像降采样至原始分辨率的1/16,以获得305 × 188像素的图像。将强度归一化为µ= 0和σ = 1,在每次扫描的非零前景像素上测量。
CheXpert数据集
一个大型的公共数据集,包含正面和侧面胸部x射线扫描,标注了13种不同的观察结果,标记为阴性、阳性、不确定或未知。选择了具有完整的正面和侧面视图的就诊,并将患者随机分组进行训练(23628个样本,16810个独特患者),验证(3915s, 2802p)和测试(3870s, 2802p)。我们将图像归一化为µ= 0和σ = 1,并使用零填充来为每个视图获得一个恒定大小的390×390像素。
5. 实验
比较了四种模型:单视图模型、后连接模型以及基于令牌和基于像素的交叉视图转换器。所有模型都使用相同的ResNet-18架构来处理卷积和池化块,直至全局平均池化层。在ImageNet上使用预训练的权重,由PyTorch提供。在全局平均池化之后,将两个视图的特征向量连接起来,并将其用作计算输出的单个完全连接层的输入。
在交叉视图变压器中,使用双向注意力,并在最终ResNet块之前应用交叉视图变压器,将变压器特征添加到最终卷积和池化层的输入中。对于CBIS-DDSM数据集,评估了具有12或18个注意头和16,32或48个令牌的模型,以及基于像素的转换器。对于CheXpert数据集,使用基于令牌的转换器,具有6或12个注意头和16或32个令牌。在所有情况下,嵌入大小都设置为每个头部32个特征。
“未注册”的双视图图像指的是两个视图之间的像素对应关系是未知的或不确定的。这可能是因为图像是从不同的角度、时间或条件下捕获的,或者经过了某种变换(如旋转、缩放或平移),导致两个视图中的像素不能直接对应。
介绍了一种新的基于特征图的跨视图transformer方法,用于连接未注册的双视图图像,并在两个数据集上展示了其优于全局连接方法的性能。同时,该方法易于集成到现有的多视图模型中。