乳腺癌可以通过对浸润性导管性乳腺癌(IDC)和浸润性小叶性乳腺癌(ILC)的内部组织区域进行检查来确诊。因此,早期诊断乳腺组织异常是至关重要的,以减少风险,使快速和有效的治疗。本研究旨在利用所提出的基于深度学习的算法,利用组织病理学图像,建立一个综合性的浸润性导管癌(invasive ductal carcinoma, IDC) CAD系统。该方案从零开始开发了ConvNet-A、ConvNet-B和ConvNet-C三种不同的CNN模型,分别考虑了8层、9层和19层。此外,还针对四种流行的机器学习模型(如支持向量机(SVM)、k近邻(KNN)、随机森林(RF)和逻辑回归(LR))进行了性能验证。
实验分两步进行;首先,在不同的样本量下对所提出的CNN模型进行了评估,在10万张样本图像下,ConvNet-C模型的准确率达到了88.7%,灵敏度达到了92.6%。其次,SVM的分类精度在5000张以上时达到最好,因为它有一个正则化参数,避免了过拟合。
1. 引言
一些新细胞是在不需要时形成的,旧细胞不会死亡以允许新细胞取代它们。这种不寻常的细胞创造形成了大量的组织,也被称为肿瘤,它进一步分为几个组和分类,其中之一就是乳腺癌。另有浸润性导管乳腺癌(Invasive Ductal-Breast Carcinoma, IDC)和浸润性小叶乳腺癌(Invasive-lobular- Breast Carcinoma, ILC)两种。IDC是乳腺最常见的一种癌。侵袭性是指癌细胞已经扩散到乳腺的邻近组织。乳腺乳管中的癌称为IDC,然后从乳管膜的一侧突破到另一侧,并扩散到乳房下方的脂肪组织中,如图1(a)和图1(b)所示的组织病理学图像。
2. 相关工作
乳腺癌的早期检测提高了生存的可能性,并且有可能有恢复的机会。病理学家可以通过组织病理学图像检查它,以确认扩散的百分比,并使其图像处理机械化,并使用数字图像算法技术。在此背景下,Doyle等[10]利用图像分析建立了一种数字化的组织病理学,参照乳腺癌的低分级和高分级,准确率分别为95.8%和93.3%。Osareh等[23]提出的方法采用k近邻法区分良恶性病例,使用两种主要乳腺癌数据集的SVM分类器准确率分别达到98.80%和96.33%。
SVM、KNN和PNN是三种分类器,用于对1 ~ 3级恶性图像进行分类。KNN、SVM和PNN分类器的交叉验证准确率分别为86%、85%和90%。Kowal等[15]提出了三种不同的聚类算法,分别是神经网络、模糊c均值、k均值和高斯模型。三种不同的分类器使用这些提取的特征对图像进行分类。输出精度达到96% - 100%之间。Kooi等[17]利用计算机辅助诊断系统对乳腺样本活检图像进行诊断,并将其验证为导管内乳腺癌的分类。评价的重点是DCIS和UDH的导管内图像的分类。自动诊断过程包括颜色空间变换、核分割、分水岭运算、特征提取和降维等步骤。在支持向量机的帮助下进行分类,实验的准确率为89.4%。
2.1 相关方法
不同的深度学习算法已被用于检测乳腺组织病理学图像中的癌症。以下是过去在乳腺组织病理学图像中用于检测癌症的一些技术。Roa等[25]提出了卷积神经网络技术,数据集来自162例患者。计算输出结果:与使用随机森林的机器学习技术相比,F-score为71.80%,精度为84.23%。机器学习的输出结果分别为67.53、78.74%和RGB直方图66.6%、77.24%。
Jun等[33]提出了深度学习技术堆叠稀疏自编码器,从像素学习特征并区分它们。500张组织病理学图像和3500张手工分割图像。结果f值为84.49%,召回率为78.83%。Janowczyk等人[16]提出了数字病理学的深度学习,是开放框架的一个来源(Caffe)。结果F-score为0.764。Bayramoglu等[6]提出了卷积神经网络。两种结构,第一种是单任务分析恶性肿瘤,第二种是多任务分析恶性肿瘤和放大水平。使用的数据集是BreakHis数据集。
Bejnordi等[12]提出了一种卷积神经网络。采用646份组织样本对系统进行评价,得到ROC曲线为0.92。Spanhol等[9]使用BreakHis数据集提出了深度学习技术的方法。Couture等[1]将深度学习应用于被检查的患者,可以从分子检测中获益。该系统训练了571张图像,并对288张图像进行了评估,准确率达到75%。Zainudin等[13]提出了3种不同的分层网络6,13和17层。17层的精度达到了84.4%。gegeer等[31]提出了包含240张图像的4个卷积网络。准确率达到55%,并由45名病理学家进行评估。Jiamei Sun等[14]提出了活检图像的调整模型。通过对模型进行微调,对数据集进行了评估和分解。Benzheng等[4]开发了一种名为Bi-CNN模型的新技术,准确率达到97%。Sharma等人[30]提出了两种机器学习方法,使用BreakHis数据集实现自动多分类技术。提取的特征用于训练,而VGG16, VGG 19和ResNet 50用于提取特征。支持向量机的VGG 16精度最高。Monjoy等[9]开发了有丝分裂检测的监督技术,准确率达到92%,F-score为90%。
2.2 深度学习方法对IDC检测的限制
首先,大多数密集的研究都没有得到专家医生的临床证实,而且准确性很好。其次,所开发的方法可能不适用于其他集IDC数据集,因为它依赖于系统,识别有限。第三,大多数研究都是用较小的数据集进行的,因为没有公开的大型和标记的数据集。最后,大多数研究都没有集中在发展经济上可行的方法来防治这种疾病。这些挑战需要解决,以进一步开发更准确和经济可行的模型,用于使用DL方法识别IDC疾病。为此,本文旨在设计并推广一种由三种不同的CNN模型组合而成的具有不同超整定参数的多类分类模型。
本研究提出的CNN架构结合了三种不同深度的CNN块(ConvNet-A、ConvNet-B和ConvNet-C),这些块分别包含8层、9层和19层,随后是一个精心调整的全连接层。除了架构设计外,该模型还探究了多种超参数,如训练轮数(Number of Epochs)和逻辑回归类型(如二项、多项和序数等),以验证所提方案的有效性。在验证过程中,还采用了准确率、灵敏度、特异性、精确度和分类误差等多种性能指标来评估模型的效果。最终,将所提方案与一些最新的先进CNN模型以及四种流行的机器学习模型(KNN、SVM、随机森林和逻辑回归)进行了比较。实验结果表明,无论超参数如何变化,所提方案的表现均优于现有的先进CNN模型和四种机器学习模型。本研究的主要贡献可概括如下:
3. 材料和方法
3.1 所用数据集
乳腺癌的常见亚型是浸润性导管癌(Invasive Ductal carcinoma, IDC)。病理学家通常先关注包含IDC的区域,然后再对整个标本进行严重程度的评估。实验数据集取自Kaggle数据集,该数据集包含162张完整的载玻片图像[25]。乳腺组织样本共277524块,大小为50 × 50 × 3,其中非IDC(阴性)斑块198738块,IDC(阳性)斑块78786块,如图2所示。
3.2 提出的方法
3.2.1 预处理
为了克服人工提取特征的问题,提出了一种将图像的每个像素作为空间特征的方法。预处理阶段遵循两个步骤:规范化和数据增强。
数据的归一化是必不可少的一步,因为CNN模型可能学习得更快更稳定。因此,在本研究中,输入图像的像素值在0-1范围内进行归一化处理。所考虑的数据集中使用的图像是灰度图像,通过将像素值乘以1/255来实现重新缩放。每张组织病理学图像被转换成7500 × 1的单一矢量形式。
数据增强:深度学习中不同的CNN模型需要大量的数据进行有效的训练。然而,在考虑的数据集中,可用的训练组织病理学图像在数量上非常少。在使用深度学习算法对医学图像进行分析时,这一直是一个主要问题。为了克服这个问题,采用了数据增强技术。增强在数据集级别作为一种标准化的方法,并进行了一些更改[2]。本研究所采用的训练图像增强技术如图4所示。
使用以下技术对图像进行增强:(1)旋转(顺时针旋转30度)(2)缩放15%,(3)水平翻转,(4)添加均值(0)和方差(0.25)的高斯噪声。
3.2.2 加工处理
在处理阶段,采用深度学习算法对IDC和非IDC的组织病理图像进行分类。设计了三种不同的分层卷积神经网络模型。用于设计网络的层数为8层(ConvNet-A)、9层(ConvNet-B)和19层(ConvNet-C)。最后,将提出的CNN模型的结果与现有算法和机器学习技术进行比较。对于机器学习部分,考虑了K近邻(K- nn)、支持向量机(SVM)、逻辑回归(LR)和随机森林(RF)四种分类器[27]。所有四种分类器都在相同的数据集上实现。
3.2.3 处理过后
对机器学习和深度学习的不同分类技术进行了评估和比较。对分类精度、特异度、灵敏度、精密度、分类错误率、假阳性率等性能参数进行评价。