开发了一种深度学习算法,该算法可以使用“端到端”训练方法在筛查乳房 X 光检查中准确检测出乳腺癌,该方法有效地利用了具有完整临床注释或仅具有整个图像的癌症 标签 的训练数据集。
在这种方法中,仅在初始训练阶段才需要病变注释,后续阶段只需要图像级标签,从而消除了对很少可用的病变注释的依赖。与以前的方法相比,我们用于对筛查乳房 X 光检查进行分类的全卷积网络方法获得了出色的性能。
作为图像分类任务,通过筛查性乳房X光检查检测亚临床乳腺癌具有挑战性,因为肿瘤本身仅占据整个乳房图像的一小部分。例如,全视野数字乳房 X 线摄影 (FFDM) 图像通常为 4000×3000 像素,而潜在癌性感兴趣区域 (ROI) 可能小至 100×100 像素。
因此,许多研究将其重点限制在注释病变的分类上。尽管对手动注释的 ROI 进行分类是重要的第一步,但全自动软件系统必须能够对整个乳房 X 线照片进行操作,以提供已知病变之外的附加信息并增强临床解释。如果 ROI 注释在乳房 X 线摄影数据库中广泛使用,那么可以轻松应用已建立的对象检测和分类方法,例如基于区域的卷积神经网络 (R-CNN)及其变体。然而,需要 ROI 注释的方法通常无法转移到缺乏 ROI 注释的大型乳腺 X 线摄影数据库。事实上,很少有公共乳房X线摄影数据库有完整的注释。
众所周知,深度学习需要大量的训练数据集才能最有效。因此,必须利用少数完全注释的数据集以及仅标记每张图像的癌症状态的较大数据集来提高乳腺癌分类算法的准确性。
当理想的大型且完整的训练数据集不可用时,预训练是解决训练分类器问题的一种很有前景的方法。使用逐层预训练来初始化具有三个隐藏层的深度信念网络(DBN)的权重参数,然后对其进行微调以进行分类。预训练提高了训练速度以及手写数字识别的准确性。另一种流行的训练方法是首先在大型数据库(例如 ImageNet32)上训练深度学习模型,然后针对其他任务微调模型。模型的权重参数已经初始化,用于识别边缘、角点和纹理等原始特征,这些特征可以轻松用于不同的任务。
使用带有 ROI 信息的完全注释数据集来预先训练用于分类局部图像块的模型。然后使用补丁分类器的权重参数来初始化整个图像分类器的权重参数,可以使用没有 ROI 注释的数据集进一步微调。
我们使用一个包含数千张图像的大型公共数字化胶片乳房X线摄影数据库来开发补丁和整个图像分类器,然后将整个图像分类器转移到一个包含数百张图像的较小的公共FFDM数据库。
1. 方法
1.1 将分类器从识别补丁转换为识别整个图像
为了对大型复杂图像执行分类或分割,一种常见的策略涉及使用滑动窗口方式的分类器来识别图像上的局部补丁,以生成概率输出网格。接下来是另一个过程,总结补丁分类器的输出,以给出最终的分类或分割结果。
假设有一个输入补丁和一个补丁分类器:函数,且函数,其中函数的输出满足 以及 。是补丁的类别数。
若,则类别是:良性钙化、恶性钙化、良性肿块、恶性肿块以及来自乳房X光照片的每个补丁的背景。假设输入块是从图像 中提取的,其中 。如果函数 表示卷积神经网络 (CNN),则可以在不改变网络参数的情况下将 应用于 M,,其中 u>1 和 v>1 取决于图像大小以及补丁分类器的步幅。
因为 CNN 的权重共享和局部性属性。如果函数 f 代表不同类别的神经网络,例如多层感知器 (MLP),那么这将变得不可行,因为 MLP 需要固定输入。因此,将输入从 X 更改为 M 后,我们得到了 c 个类别的概率输出的 网格(称为“热图”),而不是 c 个类别的单个输出。热图的大小为 。然后可以在热图之上添加更多层来转换输出并与图像的最终分类输出连接。在补丁分类器的输出之上添加一个卷积层,将整个补丁分类器变成一个过滤器,并扩大其感受野。
顶层有效地使用补丁分类器来“扫描”整个图像,寻找癌性病变的线索并提取最终可用于整个图像分类的更高级别的特征。使用函数 g 表示顶层,整个图像分类函数可以写为
其中 d 是整个图像的类别数。通常,d=2 代表我们想要预测的两类:恶性和非恶性(良性或正常)。
函数 接受整个图像作为输入并在整个图像级别生成标签。因此,它是端到端可训练的,与两步方法相比具有两个优点。首先,整个网络可以联合训练,避免每一步都出现次优解;其次,训练后的网络可以转移到另一个数据集,而无需明确依赖 ROI 注释。
具有 ROI 注释的大型乳房 X 线摄影数据库非常罕见且昂贵。具有数字化胶片乳房 X 光照片 ROI 注释的最大公共数据库 – DDSM – 包含数千张带有像素级注释的图像,可用于训练补丁分类器 f。一旦补丁分类器转换为整个图像分类器 h,就可以仅使用图像级标签在其他数据库上进行微调。这种方法使我们能够显着减少对 ROI 注释的要求。
1.2 网络设计
现代CNN通常是通过在输入之上堆叠卷积层,然后是一个或多个全连接 (FC) 层来连接分类输出来构建的。最大池化层通常用在卷积层中,以提高平移不变性并减小特征图大小。
VGG 网络 和 残差网络 (Resnet)
连续的网络层可以自然地分组为“块”,以便特征图大小在块的开头或末尾减小(通常为 2 倍),但在块中的其他位置保持不变。
“VGG 块”是几个具有相同深度的 3×3 卷积层的堆栈,后跟一个 2×2 最大池化层,该层将特征图大小减少 2 倍。一个VGG块可以用 N×K 的模式来表示,其中N表示每个卷积层的深度,K表示卷积层的数量。
“Resnet 块”在第一个卷积层中使用 stride=2 而不是 2×2 最大池化来减小块开头的特征图大小,然后堆叠多个卷积层。我们使用“瓶颈设计”,它由三个卷积层的重复单元组成,卷积核尺寸分别为 1×1、3×3 和 1×1。 Resnet块的一个关键特征是在每个单元的两端之间建立了一条捷径,以便直接继承特征,因此每个单元可以专注于学习“剩余”信息。
Resnet 中的每个卷积层都使用了批量归一化 (BN),众所周知,它可以加速收敛,并且还具有正则化效果。一个 Resnet 块可以用 [L−M−N]×K 的模式来表示,其中L、M和N表示一个单元中三个卷积层的深度,K表示单元的数量。
使用16层VGG网络(VGG16)和50层Resnet(Resnet50)作为补丁分类器。 VGG16 的原始设计由五个 VGG 块和两个 FC 层组成。为了与 Resnet50 保持一致,我们用全局平均池化层替换了两个 FC 层,该层计算最后一个 VGG 块输出的每个特征图的平均激活。例如,如果最后一个 VGG 块的输出大小为 7 × 7 × 512(高 × 宽 × 通道),则在全局平均池化层之后,输出变为长度为 512的一维向量。然后将该输出连接到分类输出,其中FC层。
从补丁分类器构建整个图像分类器的一种直接方法是展平热图并使用 FC 层将其连接到图像的分类输出。为了增加模型对补丁分类器输出的平移不变性,可以在热图之后使用最大池化层。此外,可以在热图和输出之间建立快捷方式,以使训练更容易。热图直接来自使用 softmax 激活的补丁分类器的输出:
然而,softmax 激活会减少大输入的梯度,这在中间层中使用时可能会阻碍梯度流。因此,可以使用修正线性单元(ReLU)来代替:
使用卷积层作为顶层,以保留空间信息。可以在补丁分类器层的顶部添加两个卷积层块(VGG 或 Resnet),然后是全局平均池化层,然后是图像的分类输出。
2. 结果
在 CBIS-DDSM 上开发补丁和整个图像分类器
DDSM 包含无损 JPEG 格式的数字化胶片乳房 X 光照片,该格式现已过时。我们使用了名为 CBIS-DDSM 的更高版本的数据库,其中包含转换为标准 DICOM 格式的图像。该数据集由 1249 名女性的 2478 张乳房 X 光检查图像组成,是从 CBIS-DDSM 网站下载的,并且包括大多数检查的头尾 (CC) 和内侧斜 (MLO) 视图。
每个视图都被视为单独的图像。我们在患者级别随机分割 CBIS-DDSM 数据集 85:15,以创建独立的训练和测试集。训练数据进一步按 90:10 分割以创建独立的验证集。以分层方式进行分割,以在训练、验证和测试集中保持相同比例的癌症病例。训练、验证和测试集中的图像总数分别为:1903、199 和 376。
CBIS-DDSM 数据库包含 ROI 的像素级注释及其病理学确认的标签:良性或恶性。它还将每个 ROI 进一步标记为钙化或肿块。大多数乳房 X 光检查仅包含一个 ROI。所有乳房X光照片均转换为PNG格式,并使用插值缩小至1152×896;没有执行图像裁剪。
通过从 ROI 和背景区域采样图像块来创建两个块数据集。所有补丁的大小相同,均为 224×224,足以覆盖大部分注释的 ROI。
第一个数据集 (S1) 由多组补丁组成,以 ROI 为中心。
第二个数据集(S10)由从每个 ROI 周围随机采样的 10 个块组成,与 ROI 的最小重叠率为 0.9,并包含一些背景,以更完整地捕获潜在的信息区域。
与ROI的最小重叠率为0.9时,意味着预测框与真实ROI的重叠面积至少要占两者并集面积的90%
网络训练
整个图像分类器的训练分两步完成。第一步是训练补丁分类器。我们将使用 ImageNet32 数据库预先训练权重的网络与随机初始化权重的网络进行了比较。
在预训练网络中,底层表示往往在不同任务中保留的原始特征,而顶层表示与特定任务更相关且需要进一步训练的高阶特征。对所有层使用相同的学习率可能会破坏底层学到的特征。为了防止这种情况,采用了三阶段训练策略,其中除了最后一层之外的所有层的参数学习都被冻结,并从顶层到底层逐渐解冻,同时降低学习率。
补丁分类器
S10 集比 S1 集更难分类,因为它包含从 ROI 周围采样的斑块,而不是以 ROI 为中心,这更难与背景区域区分开。在 S1 集上,随机初始化和预训练的 Resnet50 分类器都达到了相似的精度,但预训练网络的收敛时间是随机初始化网络的一半。
背景分类最简单,恶性钙化最难分类。恶性钙化最有可能被错误分类为良性钙化,其次是恶性肿块。良性钙化最有可能被错误分类为背景,其次是恶性钙化。恶性肿块最有可能被错误分类为良性肿块,而良性肿块最有可能被错误分类为恶性肿块或背景,具体取决于斑块分类器。
将补丁转换为整个图像分类器
使用预先训练的 Resnet50 和 VGG16 补丁分类器,测试了整个图像分类器顶层的几种不同配置。还评估了热图的移除以及在补丁分类器层顶部添加两个 Resnet 或 VGG 块,然后是全局平均池化层和分类输出。通过计算独立测试集上每张图像的 AUC 来评估模型性能。
显著性图说明了整个图像分类器认为输入图像的哪个区域负责癌症预测。图 4a 显示了真阳性 (TP) 图像的显著性图,其中识别的区域位于恶性 ROI 内或附近。这表明图像分类器能够正确定位其决策所依据的癌症区域。图 4b 显示了典型的 FP 图像,其中识别的区域位于类似于恶性 ROI 的良性 ROI 中。图 4c 显示了典型的 FN 图像,其中恶性 ROI 难以辨别,并且没有响应通过低截止值。
图 4d 显示了一个示例热图,它提供了输入图像的粗略分割;然后顶层使用分割对整个图像进行分类。
组合 CC 和 MLO 视图可以提高性能,因为每个视图都可以包含唯一的信息。删除只有单个视图可用的样本后,90% 的测试集仍用于分析 169 个乳房中每个乳房的两个视图。我们使用了一种简单的方法,即取两个视图的平均分数。
在基于 Resnet 的整个图像分类器中插入了一个热图,其中有两个 [512−512−1024]×2 块作为顶层。插入的热图是一个1×1的卷积层,它将 卷积核 的数量从之前的卷积层(2048)减少到5个,这对应于补丁分类器的5个类别。为了促进梯度的反向传播,使用ReLU代替热图中的softmax激活。
INbreast30 数据集是一个公共数据库,包含最近获取的 FFDM 图像。与 CBIS-DDSM 的数字化胶片乳房 X 光照片相比,这些图像具有不同的强度分布,如两个数据库的示例图像所示(图 5)。因此,INbreast 提供了一个绝佳的机会来测试整个图像分类器跨乳房 X 线摄影平台的可移植性。 INbreast 数据库包含 115 名患者和 410 张乳房 X 光照片,包括 CC 和 MLO 视图。
INbreast数据库包括放射科医生的BI-RADS44评估类别,其定义如下:0,检查不完整; 1、没有发现任何问题; 2、良性; 3、可能是良性的; 4、多疑; 5、高度提示恶性肿瘤; 6、已知的活检证实的癌症。
端到端训练方法可以成功地使用带有图像级标签的附加小型训练集来微调整个图像分类器,从而大大减轻了多种不同乳房X线摄影的训练集构建负担平台。
一旦构建了整个图像分类器,就可以使用缺乏 ROI 注释的附加数据集对其进行微调,即使像素强度分布不同,就像从异构乳房 X 线摄影平台组装的数据集经常出现的情况一样。与之前的深度学习方法相比,我们使用端到端方法训练的所有卷积网络都具有极具竞争力的性能,并且在不同的乳腺 X 线摄影平台上更具通用性。
使用胶片和数字乳房X光照片进行乳腺癌分类,这些方法是端到端可训练的。两项研究都使用多实例学习(MIL)并修改整个图像分类器成本函数以满足 MIL 标准。
通过采样更多或更大的补丁以包括 ROI 周围的邻近区域和其他背景区域,可以提高整个图像分类的准确性。然而,计算负担随着采样的补丁的数量或大小而线性增加,并且性能增益可能会迅速减少。