ETECADx: Ensemble Self-Attention Transformer Encoder for Breast Cancer Diagnosis Using Full-Field Digital X-ray Breast Images
内科医生和放射科医生建议使用多种方法来发现乳腺癌,包括数字乳房x线摄影(DM)、超声(US)和磁共振成像(MRI)。
CAD系统与乳腺x线影像结合,可提供乳腺密度、形状及肿块、钙化等疑似异常的相关信息。
卷积神经网络(CNN)是最常用的深度学习方法。他们的端到端技术从输入图像中预测有意义和相关的属性。由于CNN技术可以自动从输入图像中提取特征,因此优于传统方法,因此在图像分类研究领域得到了更广泛的应用。
本文提出的是一种基于集成策略的新型CAD系统(计算机辅助诊断系统),以处理输入原始图像的特征提取,并融合集成学习和基于Transformer的方法
本文使用迁移学习技术来评估六个预训练深度学习模型(即DenseNet201, VGG16, GoogleNet, InceptionResNetV2, Xception和ResNet50网络)在数字x射线乳房x线照片上的效果。
在二分类方法中,DenseNet201、VGG16和InceptionResNetV2作为变压器编码器网络的特征提取器。而在多类方法中使用DenseNet201、VGG16和Xception。
基于迁移学习技术和CNN的CAD模型被用于从异常图像中识别正常图像,旨在提高分类精度以及训练和检测的速度。
采用均匀流行逼近和投影(UMAP)、主成分分析(PCA)和单变量方法来降低基于CNN的CAD模型的特征维数。可以使用CNN模型进行特征提取,并使用PCA进行特征维数的降维操作。采用主成分分析法后,计算量和执行时间有所降低,但分类性能没有变化。
机器学习中的集成方法
机器学习中的集成方法是一种结合多个单一模型来解决特定问题的技术。继承策略比单个人工智能模型更有能力实现更高的预测精度。
研究人员通常尝试在独特的环境中使用相同的数据集单独优化和微调人工智能模型的权重。然后,使用单个后端数据库结构将训练好的模型融合在一起,以执行测试和验证过程。
基于Vision Transformer的医学图像分类
采用ViT原理对图像进行分类,其中输入图像被分割成固定大小的小块,然后将这些小块线性连接在一起形成一个矢量,并由传统的转换编码器进行处理。
几种简单模型
- 我们可以使用CNN模块提取输入图像的局部特征,同时使用ViT模块改进全局特征以识别输入图像中的不同区域。
- 基于超声图像和组织病理学数据集的ViT 半监督学习模型 也被用于乳腺癌的分类
- 可以使用局部和全局Transformer块对每侧两个视角拍摄的四张乳房X光照片进行建模,然后将这四幅图像组合成一个序列经由全局Transformer,传递到MLP头部进行分类
- 基于ResNet50提取的高级深度特征,使用Transformer编码器和多层感知机MLP进行分类
- 使用一个DeconvTransformer(DecT)模型,包括一个颜色反卷积作为卷积层对BreakHis数据集收集的组织病理学图像对乳腺癌进行分类。
基于人工智能的集成自注意力Transformer编码器
医疗基准数据收集、预处理、基于最新技术构建所需的AI模型、以及微调、验证和评估预测性能的连续处理阶段。我们使用基准INbreast数据集采用并微调人工智能框架,在证明了分类标签以及乳房病变的轮廓之后,仔细收集私人医学乳房图像并进行注释,以进一步验证和核实。
预处理步骤需要去除不需要的细节,提高图像质量,图像尺寸调整和强度归一化。在医学研究领域,这种预处理过程可以显著提高诊断准确率。其中最重要的步骤是提取潜在病变感兴趣区域或斑块,有意识地优化适当的输入图像大小,使AI模型能够根据特定和准确的恶性肿瘤区域微调其可训练参数。
数据集
INbreast公共数据集
INbreast共收集了来自115名患者的410张图像,其中包括来自90名双侧乳房受影响的女性的360张图像(左侧和右侧各4张图像,均为CC和MLO视图)。
CC位:上为乳腺外侧,下为乳腺内侧(即可理解为从头侧往下观察乳腺)
MLO位:上为乳腺上方,下为乳腺下方(即可以理解为从斜侧面观察乳腺)
共25例患者进行乳房切除术(单侧两视角)。多种形式的病变,如肿块、钙化和畸形,都包含在数据集中。其中正常、良、恶性病例分别如下图所示
医疗数据预处理
首先,需要准备可训练的乳房图像,为AI分类器去除不需要或无用的信息,提高图像的空间分辨率和质量,并对像素强度进行归一化和调整以适应所有图像的单一灰度范围。
根据患者唯一ID和BI-RADS分类评分0、1、2、3、4、5,将乳房图像从DICOM图像格式转换为“png”格式。“0”分代表正常情况,“1”和“2”分代表良性情况,“3”到“5”分代表恶性情况。
①每个乳腺肿瘤的乳腺病变精确轮廓由放射科专家精确确定,仅基于这些区域而不是使用整个乳房X光片来训练AI模型。
②在图像补丁提取过程之前,所有的乳房X光片都是作为一个完整的全尺寸图像来读取的,没有缩小尺寸,以保持图像的高分辨率。
③提取图像补丁,仅包含乳腺病变的ROI区域,忽略其他背景信息,这是最重要的预处理步骤。使AI模型能够根据准确的恶性肿瘤区域微调其权重,而不是使用整个图像。
④所有提取的补丁块都被调整为512*512的像素,使AI模型能够在相同的图像特征上进行训练,并减少GPU的处理时间,特别是在庞大的数据集上。
提取ROI图像
OpenCV:对图像的位操作https://blog.csdn.net/weixin_42286660/article/details/124478848从整张乳房x光片中提取的乳房病变ROI的示例
补丁图像提取
- cv2.threshold 函数通过阈值上限和下限应用于输入图像,我们使用二进制Ostu阈值方法作为附加标志传递,其中阈值可以随机选择
- cv2.findContours 函数用于查找乳房病变轮廓,第一步分割图像
cv2.RETR_EXTERNAL:只检索最外层的轮廓
cv2.CHAIN_APPROX_SIMPLE:压缩水平、垂直和对角方向的轮廓点
cv2.contourArea() 是 OpenCV 中的一个函数,用于计算轮廓的面积
cv2.boundingRect 函数提取具有新尺寸 x、y、宽度和高度的边界矩形(如上图C表示)
最终分割和裁剪的 ROI 用作输入补丁图像来执行本研究的实验。
对于正常情况,乳房X光照片被分割并裁剪成多个512*512像素的块,由于乳房图像位于图像的一侧,而另一侧具有黑色背景。故我们可以逐像素读取图像,如果黑色像素超过整个图像大小的25%,则计算并删除黑色像素。
用于训练、验证和测试的数据准备
数据分为二元分类和多元分类。乳房图像中的70%、20%和10%被随机分为训练集、测试集和验证集。
训练数据增强
训练基于深度学习的模型需要足够大的数据集。在 INbreast 数据集中,每个类别的图像并不平衡。数据分割后,训练数据由25张良性图像和49张恶性图像组成。对于正常情况,我们在这两种方法中都使用整个图像分割过程生成的所有 597 个补丁。将良性训练集垂直翻转到 50张图像,然后通过旋转 45、90、135、180、225、270 和 315 将所有良性和恶性训练集相加。
在二值分类方法中,训练集的总数为1010(418个正常和592个异常);但在多类别分类方法中,总数为1210(418个正常、400个良性和392个恶性)。正常的补丁图像是由原始正常乳房X光照片生成的,不必经过数据增强。
数据增强是针对异常情况进行的,以扩大实例数量并平衡正常和异常情况。避免在可训练参数的训练和优化过程中由于任何类别的大多数样本而产生任何偏差。
集成迁移学习
预测过程最终是通过合并多个不同模型来完成,使得可以利用来自不同分类器的更有用的信息并获得更准确的分类结果。大多数用于乳腺癌预测的深度学习技术依赖于单个卷积网络。
基于连接集成的特征提取策略
对于所提出的集成学习模型,我们结合了 DenseNet201、VGG16 和 InceptionResNetV2 的深度学习特征用于二元方法,而 DenseNet201、VGG16 和 Xception 则结合用于多分类问题。
混合人工智能模型
通过结合不同的基于CNN的模型,集成学习被用作骨干网络提供高级深层功能。为了不采用单一模型,在计算机视觉图像分类中引入融合技术。Vision Transformer主要根据珍贵的、深层派生的敏感特征更精确地诊断对象,而自注意力特征的使用则是因为它们的高性能和减少对视觉特定归纳偏差的需求。
Transformer是一种基于深度学习的方法,使用自注意力来应用各种权重计算编码器-解码器偏置中每个输入数据的重要性。CNN模型仅检查由滤波器大小建立的接收区域中空间相邻像素之间的关联,因此该类模型无法处理远处的像素。
自注意力网络、多线性感知器块和分类层组成了所提出的 Transformer 编码器
自注意力机制负责连接同一输入数据中的各个位置,创建单个输入序列。 SoftMax 函数将缩放后的点积转换为注意力分数。