1. 介绍
1.1 乳腺癌筛查
开发了一种新的DCN,它能够处理乳房x线摄影筛查的多个视图,并利用大分辨率图像而不缩小。将这种DCN称为多视图深度卷积网络(MV-DCN)。网络学习预测放射科医生的评估,将传入的样本分类为BI-RADS 0(“不完整”),BI-RADS 1(“正常”)或BI-RADS 2(“良性发现”)。研究了数据集大小和图像分辨率对所提出的MV-DCN筛选性能的影响,这将作为优化未来深度神经网络用于医学成像的事实上的指导方针。
通过可视化预测进一步研究了所提出的MV-DCN的潜力。最后,在测试集的随机子集上,提出的模型几乎与放射科医生委员会提供的相同数据一样准确。此外,通过将模型的预测与放射科医生委员会的预测平均,获得了最好的结果。
2. 高分辨率多视图深度卷积神经网络
2.1 深度卷积神经网络
深度卷积神经网络[9],[10]是一种以图像x为输入的分类器,通常有多个通道对应不同的颜色(如RGB),输出类别上的条件概率分布。通过一系列非线性函数来完成的,函数逐渐变换输入的像素级图像。深度卷积网络区别于多层感知器的一个主要特性是,它严重依赖于卷积层和池化层,这使得网络对输入中视觉特征的局部平移保持不变。
2.2 多视图深度卷积神经网络
自然图像的物体识别任务通常一次只涉及一个物体,相比之下,医学成像检查通常有一组视图。例如,在筛查乳房x线摄影中,获得患者每个乳房的颅尾侧(CC)和中外侧斜位(MLO)视图是标准的,结果是一组四张图像。我们将它们称为L-CC、R-CC、L-MLO和R-MLO。
首先,有研究使用深度自编码器的一种变体[11],[12],[13]从多个视图中进行无监督特征提取。通常用未标记的例子训练一个多视图深度神经网络,并使用这种网络的输出作为特征提取器,然后使用标准分类器。另一方面,Su等[14]提出直接构建多视图深度卷积网络进行分类。
Su等人[14]提出了一种MV-DCN的变体。MV-DCN分两个阶段计算输出。在第一阶段,将一些卷积层和池化层分别应用于每个视图。我们用表示这种特定于视图的表示,其中 v 指的是视图的索引。这些特定于视图的表示被连接起来形成一个向量,[hL−CC; hR−CC; hL−MLO; hR−MLO],这是第二阶段的输入-一个完全连接的层,然后是一个产生输出分布的softmax层。
整个网络通过反向传播随机梯度下降联合训练[15]。此外,采用了许多正则化技术来避免由于训练数据集相对较小而导致的过拟合行为,例如通过随机裁剪[16]和dropout[17]进行数据增强。
2.3 高分辨率卷积神经网络
在自然图像的目标识别和检测中,严重降低原始高分辨率图像的比例是很常见的。例如,ImageNet Challenge 2015(分类任务)中表现最好的网络的输入是一张缩小到224 × 224的图像[18]。这样做通常是为了在计算和内存方面提高计算效率,而且还因为在更高分辨率的图像上没有观察到明显的改进。它反映了自然图像的固有属性,其中感兴趣的物体通常比其他物体呈现出相对较大的部分,最重要的是它们的宏观结构,如形状、颜色和其他全局描述符。然而,在医学图像的情况下,输入图像的缩小是不可取的,特别是基于乳房x光检查的早期筛查。诊断的线索往往是一个细微的发现,只有在最初的分辨率下才能识别出来。
为了解决处理全分辨率图像的计算问题,建议使用主动卷积和池化层。首先,在前两个卷积层中使用步长大于1的卷积层。而且,第一个池化层比其他池化层的步幅更大。因此,大大减少了网络早期特征映射的大小。虽然这种激进的卷积和池化会损失一些空间信息,但在训练过程中调整了网络的参数以最小化这些信息损失。这与输入的降尺度不同,它会无条件地丢失信息。其次,在最后一层对特征图进行平均,然后再将它们连接起来[19],而不是简单地将特征图平坦化,然后再将它们连接起来[16],[20]。这极大地降低了特定于视图的向量的维数,而没有太多(如果有的话)性能下降[21]。使用这两种方法,能够构建一个MV-DCN,它需要四个2600 × 2000像素的图像(每个视图一个)作为输入,而不需要任何降比例。
3. 相关工作
3.1 多阶段vs端到端方法
传统上,乳腺癌筛查和病变检测分三个阶段进行:检测、分析和最终评估/管理。在第一阶段,乳房x光图像被分割成不同类型的区域,如前景(乳房)和背景。在乳房的分割区域内,第二阶段的重点是提取一组感兴趣的区域(ROI),这些区域将被更详细地检查。在第三阶段,确定每个ROI是否是恶性病变。第三阶段的结果用于对由多个视图组成的给定案例做出最终决定。
Kooi等[29]提出使用随机森林分类器进行质量检测,然后使用DCN对每个检测到的质量进行分类。Becker等人[30]也提出了类似的方法。Akselrod-Ballin等人[31]进一步提出使用深度卷积网络进行大规模检测和分类,有可能实现端到端训练。
3.2 数据大小
为了避免小训练数据的问题,大多数早期的工作都采用许多小补丁或ROI进行训练,避免端到端训练。一个例外是Carneiro等人[33]的工作,他们使用了整个图像,然而,深度卷积网络在自然图像中预训练了对象识别。与这些早期的方法不同,我们使用了一个前所未有的大规模数据集,由886,437张图像组成。这使我们能够仔细研究训练数据集大小的影响。
3.3 自然分配vs控制分配
INBreast在良性和恶性病例之间大致达到了平衡。这种人为的平衡,或者相当于恶性病例的上采样,可能会使模型更频繁地预测一个给定的病例是恶性的,并且需要比必要的更频繁地召回。与这些早期的工作不同,在本文中,使用了完整的数据,而没有人为地平衡结果,以确保任何训练过的深度卷积网络都能紧密地反映结果的自然分布。
4. 数据预处理和增强
对于每个图像,我们计算其像素的平均值µ和标准差σ。然后我们从每个像素减去µ,并将每个像素除以σ。此外,我们水平翻转了R-CC和R-MLO视图的图像,使乳房始终在图像的同一侧。
由于图像的大小不同,并且每个图像的大部分表面是空的,因此将它们裁剪为2600 × 2000像素的大小。这么做有两个原因。首先,要统一图像的大小(我们需要在训练时将它们放在小批量中),同时保持它们的规模相似;其次,避免处理不包含任何信息的背景。
5. 定量结果分析
5.1 尺度的影响
首先,验证了之前关于需要大规模数据来充分利用深度卷积神经网络的说法。在不同大小的训练集上训练单独的网络;原始训练集的100%,50%,20%和10%,5%,2%和1%。在表III中,我们观察到分类性能随着训练样本数量的增加而提高。这说明了使用大型训练集的重要性。这与计算机视觉、自然语言处理和语音识别等许多其他领域的观察结果一致[8]。
5.2 分辨率的影响
使用完整的训练集,训练了具有不同输入分辨率的网络;将输入的两个维度分别缩放×1/8, ×1/4和×1/2。使用双三次插值来缩小输入。当输入分辨率明显小于原始分辨率时,由于特征映射的大小小于卷积核的大小,后期的一些卷积层无法应用。在这种情况下,直接跳过剩下的层,直到全局平均池化。如表4所示,当输入的每个维度缩小一半时,已经看到了性能的下降。随着更大幅度的缩小,性能进一步下降。