CVPR2022医疗图像-GBCNet网络：胆囊癌(GBC)超声(USG)图像检测模型

Surpassing the Human Accuracy:Detecting Gallbladder Cancer from USG Images with Curriculum Learning：超越人类的准确性:基于课程学习的USG图像检测胆囊癌

一、背景与意义

二、介绍

三、网络框架

3.1 区域选择网络

3.2 MS-SoP分类器

3.3 多尺度块

3.4 二阶池化块

3.5 视觉敏锐性课程

四、结果

五、结论

一、背景与意义

我们探索基于cnn的胆囊癌(GBC)超声(USG)图像检测模型的潜力，USG由于其低成本和可及性是GB疾病最常见的诊断方式。然而，由于传感器的手持性质，USG图像具有较低的图像质量，噪声和不同的视点，因此分析USG图像具有挑战性。而研究发现使用最先进的SOTA图像分类技术也达不到想要的结果。

所以提出GBCNet网络模型，首先通过检测GB(而不是癌症)提取感兴趣区域(ROIs)，然后使用一种新的多尺度二阶池化架构专门对GBC进行分类。为了有效地处理虚假纹理，我们提出了一个受人类视觉灵敏度启发的课程，以减少GBCNet中的纹理偏差。实验结果表明，GBCNet显著优于SOTA CNN模型，也优于放射科专家。我们的技术创新也适用于其他USG图像分析任务。

*注胆囊癌也分很多情况的病。Curriculum Learning（课程学习）是一种训练策略，它模仿人类教育中的有效学习顺序，让模型先从容易的数据或子任务上进行训练，再逐渐转移到更困难的数据或子任务上。

二、介绍

基于卷积神经网络(CNN)架构的机器学习模型取得了革命性的进展。然而，它们的使用在GBC检测中明显缺失。虽然之前有研究涉及到对结石、息肉等GB异常的分割和检测，但GBC的检测在列表中缺失。

与MRI或CT不同，用CNN模型进行USG图像分析存在重大挑战：

1.USG图像由于噪声和其他传感器伪影而成像质量较低，所以现代CNN分类器无法定位显著的GB胆囊区域，而阴影在USG图像中往往具有与GB相似的视觉特征。

2.用于GBC检测的训练对象检测器更倾向于从噪声和邻近器官组织产生的虚假纹理中学习，而不是从GB壁的形状或边界中学习，这导致准确率较低。

3.此外，与具有规则的解剖结构正常和良性GB区域不同，恶性由于缺乏清晰的GB边界或形状以及肿块的存在，恶性病例很难被发现。

而我们提出的GBCnet网络能够解决上面的问题，我们这样做：

1.提出了一个深度神经网络GBCNet。GBCNet从USG中提取候选感兴趣区域(roi)以减轻阴影的影响，然后在ROI上使用新的多尺度、二阶池化(MS-SoP)分类器对胆囊恶性肿瘤进行分类。MS-SoP编码丰富的特征表示用于恶性肿瘤检测。

2.ROI中存在的虚假纹理使分类单元偏向于产生假阳性，于是提出了一个受人类视觉灵敏度启发的培训课程。视觉敏锐度是指视觉刺激的清晰度。提出的课程减轻了纹理偏差，并帮助GBCNet专注于从USG图像中准确检测GBC的重要形状特征。

3.收集、注释和整理了来自218名患者的1255张腹部USG图像的USG图像数据集。我们将此数据集称为胆囊癌超声(GBCU)数据集。

所产生的结果：

1.正常或良性GB解剖结构规则，恶性GB无清晰边界。

2.(e)具有GB视觉特征的阴影在ResNet50中导致定位错误。(f) GBCNet很好地处理了阴影伪影。

3.(h)放射科医师根据结石和壁增厚错误诊断GB为良性。(i) GBCNet帮助放射科医生识别出肝细胞浸润的显著区域，这是GBC的一个关键特征，并对预测进行校正。

三、网络框架

①region selection network区域选择网络定位感兴趣的候选区域；②下一阶段的multi scale block多尺度、second order pooling block二阶池化(MS-SoP)分类器预测每个区域的恶性肿瘤；③将每个区域的预测汇总起来，得到对整个图像的最终预测三分类。

USG图像中的伪影通常会导致USG图像中出现多个具有与GB区域非常相似视觉特征的伪影区域。所以选择一些区域，如果其中任何一个roi被归类为恶性，则整个图像被归类为恶性。如果所有的区域都被预测为正常，那么图像就被分类为正常。在所有其他情况下，预测图像是良性的。

3.1 区域选择网络

在这个阶段，我们只检测GB，不将其分类为恶性或非恶性。先前的研究表明，YOLO或Faster-RCNN等现代目标检测架构可以检测USG图像中的乳腺病变。另一方面，最近提出的无锚点anchor-free方法，如Reppoints和CentripetalNet可以检测非常规大小的物体，如GB。因此，我们在我们的框架中尝试了上述所有ROI选择方法。

3.2 MS-SoP分类器

MS-SoP分类器包含16层MS-SoP层作为主干，其次是全局平均池化和一个完全连接的分类头。我们使用分类交叉熵损失来训练分类器。

①多尺度：我们在所有中间层中利用多个尺度的特征映射来学习丰富的表示。所提出的MS-SoP层可以方便地插入任何CNN主干。

②二阶池化：最近使用高阶特征融合对乳腺病变进行分类。他们在输入层使用了三个固定尺度的RGB图像块。我们进一步发展了一种新的多尺度二阶池化(MS-SoP)层来编码适合恶性GB检测的丰富特征。

3.3 多尺度块

根据超声角度或传感器上的压力，腹部器官可以在USG图像中显示出明显不同的大小。因此，跨多个尺度感知信息对于准确检测GBC是必要的。

在中间层的特征体切片上使用卷积核的层次结构，通过不同接受场的组合来捕获多尺度信息。我们将一个feature map volume, X∈ $R^{H\times W\times D}$ (H,W和D分别为通道的高度，宽度和数量)，深度划分为4个切片， $X_{1}$ ， $X_{2}$ , $X_{3}$ 和 $X_{4 }$ ，其中 $X_{i}$ ∈ $R^{H\times W\times D}$ 。每个 $Y_{i}$ 将生成一个分割的 $Y_{i}$ 输出。最后的输出，Y，是通过连接分割得到的。设 $C_{j }$ 为3×3卷积核进行卷积 $\circledast$ 。我们得到每个 $Y_{i}$ 如下:

具体类似过程如下图：

3.4 二阶池化块

采用二阶池化(SoP)机制来利用多尺度特征之间的二阶统计依赖性。具体的一步步就看这个说明过程：首先我们使用1×1卷积将特征体积X∈ $R^{H\times W\times D}$ 的通道数减少到D’ (D’ < D)。然后将X重构为矩阵 $R^{H\times W\times D'}$ ，其中N =H×W。我们计算X的协方差covariance pooling为 $C_{D'\times D'}=\left ( X-\overline{X} \right )\left ( X-\overline{X} \right )^{T}$ ，然后将其重塑为大小为1×D ' ×D '的张量，并通过每个具有4D '大小为1×D '的核的row-wise conv卷积层，就能得到1×1×4D '张量。再通过1×1个卷积，将得到的1×1×4D '张量调整为1×1×D张量Wd。Wd表示每个通道的权重。然后将这些权重按通道与X相乘，得到加权特征映射 $Z_{d}$ 。三个方向得到的不一样，这个的得到 $Z_{d}$ ，也就是通道位置，剩下了的两个是长度和宽度，最终加起来，其结果如下。

3.5 视觉敏锐性课程

我们发现具有软组织视觉特征的纹理会对GBCNet的性能产生不利影响。我们提出了一个课程来减轻纹理偏差并改进分类。虽然MS-SoP分类器受到纹理偏差的影响，但区域选择网络仍然保持着非常高的准确率。因此，我们只在分类器上使用课程训练，而不使用区域选择网络。在本网络框架中这个方法的作用就是提供出更好的权重参数。

①人类的视觉灵敏度：视觉敏锐度(VA)是指人类视觉的清晰度和锐利度。低VA使图像模糊，不包含足够的局部信息，使视觉皮层无法识别模式。因此，视觉皮层试图增加感受野，以促进对广阔区域的空间分析和学习全局特征。

②高斯模糊模拟视觉灵敏度：高斯滤波器是一种低通滤波器，用于掩盖输入的高频分量。一个标准差σ参数化高斯滤波器。当与图像进行卷积时，增加σ会产生更大的模糊量和低的VA。实验中改变σ从1到16来产生不同水平的VA，σ越大那么得到的图片就越模糊。

为了进一步提高网络的性能，提出了一种基于视觉敏锐度的训练课程算法，该课程从模糊和低分辨率USG图像开始训练网络，并逐步提高训练样本的清晰度。

按照前面的说法：G(σ)为高斯过滤大小为σ，X∈ $R^{H\times W\times D}$ 然后卷积 $\circledast$ ，其中σ0 = 16, k ' =10, k=5。输入 $D^{train}$ ，从原始USG图像中裁剪的区域数据集。输出为优化后的模型参数W *。里面进行train(W，X)就是为了训练参数W。

四、结果

使用acc准确性、sens灵敏度和spec特异性作为评估指标。计算precision精确度和recall召回率。

1.区域选择模型：选择不同的区域选择模型会带来不一样的结果

2.本文提出的分类器在USG图像乳腺癌检测中的适用性：MS-SoP分类器的灵敏度要高得多，这说明MS-SoP架构在USG图像恶性肿瘤识别方面具有优势。

3.提出课程的成效：各个模型加上VA和之前没加上的进行比较。合成测试数据特异性的相对变化(以百分比表示)在括号内。灵敏度保持不变，因为恶性图像没有改变。观察到，与在高分辨率图像上训练的模型相比，我们基于va的课程对纹理的鲁棒性更强，并且能够保持更低的特异性下降。唯一的例外是ROI VGG16模型，其课程培训并没有降低特异性的下降。

4.消融实验：选择VA的区别

五、结论

本文研究了基于深度学习的超声图像胆囊癌检测，提出了一种基于ROI选择和多尺度二阶池化的监督学习框架(GBCNet)。提出的设计有助于分类器专注于区域选择网络预测的关键GB区域。我们提出了一种基于视觉敏锐度的课程，使我们的设计能够适应纹理偏见并提高其特异性。大量的实验表明，GBCNet与课程学习相结合，可以提高基准深度分类和目标检测体系结构的性能。我们希望我们的工作将引起社区对GBC检测这一重要但迄今为止被忽视的问题的兴趣。