卵巢癌发病率居我国女性生殖系统恶性肿瘤第3位,死亡率居妇科恶性肿瘤之首,其特点是存在异质性的组织学亚型。最常见的五种亚型,占所有卵巢癌的90%,分别是高级别浆液性癌(HGSC)、低级别浆液性癌(LGSC)、透明细胞癌(CCC)、粘液性癌(MC)和子宫内膜样癌(EC)。这些亚型在遗传学、预后和治疗选择上都有所不同,这使得它们的分类成为卵巢癌诊断的一个关键组成部分。然而,仅从标准的组织病理学样本中确定亚型可能是一项困难的任务,存在高水平的观察者间不一致性。因此,病理学家通常需要请求辅助性测试和第二意见以确保准确的诊断,这减缓了诊断路径并增加了成本。
计算机视觉模型在辅助病理诊断方面展现出巨大潜力,但卵巢癌亚型分类模型尚未得到临床验证。本文将使用基于视觉 Transformer (ViT) 的组织病理学基础模型UNICODE模型来提取特征,并将其与多分辨率图网络相结合,以实现对卵巢癌亚型的高精度分类。
1 方法
1.1 数据集
1.1.1 训练集:来自利兹教学医院 NHS 信托基金的 1864 张卵巢癌切除 WSI,包含五种亚型,共 434 名患者。
1.1.2 独立测试集:来自利兹教学医院 NHS 信托基金的 100 张 WSI,包含五种亚型,共 30 名患者,用于独立测试模型性能。
1.1.3 外部验证集:来自Transcanadian Study的 80 张 WSI,包含五种亚型,共 80 名患者,用于外部验证模型泛化能力。
卵巢癌组织学亚型 | 训练集 | 独立测试集 | 外部测试集 |
高级别浆液性癌 (HGSC) | 1266个WSIs, 308名患者 | 20个WSIs, 7名患者 | 30个WSIs, 30名患者 |
子宫内膜样癌 (EC) | 209个WSIs, 38名患者 | 20个WSIs, 5名患者 | 11个WSIs, 11名患者 |
透明细胞癌 (CCC) | 198个WSIs, 45名患者 | 20个WSIs, 7名患者 | 20个WSIs, 20名患者 |
低级别浆液性癌 (LGSC) | 92个WSIs, 21名患者 | 20个WSIs, 6名患者 | 9个WSIs, 9名患者 |
粘液性癌 (MC) | 99个WSIs, 22名患者 | 20个WSIs, 5名患者 | 10个WSIs, 10名患者 |
1.2 模型架构
多分辨率图网络模型流程
1.2.1 模型架构主要步骤
- 组织块提取: 从整个组织切片中提取多个组织块,并根据所选的放大倍数调整块大小。
- 特征提取: 使用预训练模型 (UNI 或 ImageNet 预训练的 ResNet50) 从降采样后的组织块中提取特征。
- 图构建: 基于组织块的空间排列构建图结构,其中每个节点代表一个组织块,节点之间通过边连接,边权重表示节点之间的空间距离或语义相似度。
- 图卷积网络: 使用图卷积网络 (GCN) 或图注意力网络 (GAT) 对图进行操作,学习节点之间的依赖关系,并更新节点特征。
- 图池化: 使用图池化层对图进行降维,减少节点数量,同时保留重要的图结构信息。
- 特征融合: 将不同放大倍数的图特征进行融合,例如通过连接或加权求和的方式。
- 分类器: 使用全连接神经网络对融合后的特征进行分类,输出卵巢癌亚型预测结果。
1.2.2 模型变种
- 不同特征提取器: 使用不同的预训练模型作为特征提取器,例如 UNI 或 ResNet50。
- 不同放大倍数: 使用不同放大倍数的组织块进行训练,例如 5x、10x 和 20x。
- 不同图结构: 使用不同的图结构,例如 GCN 或 GAT,并调整图结构和图池化层的参数。
- 不同特征融合方式: 使用不同的特征融合方式,例如连接、加权求和或注意力机制。
2 结论
七个卵巢癌亚型分类模型在交叉验证、内部保留测试和Transcandian Study数据集上的外部验证结果
- X轴:展示了不同的模型配置,包括基线图模型(5x + 10x)、ABMIL 10x 仅、图10x 仅、图10x + 20x、朴素特征空间、Concat_zero特征空间和ImageNet-ResNet50特征。
- Y轴:展示了模型性能的三个关键指标:平衡准确率(Balanced Accuracy)、AUROC(Area Under the Receiver Operating Characteristic curve,接收者操作特征曲线下面积)和F1分数(F1 Score)。
- 条形图/折线图:使用了条形图来表示不同模型在不同验证阶段的性能。每个模型有三个条形,分别对应交叉验证、保留测试和外部验证的结果。
2.1 模型性能
- 交叉验证:10x 和 20x 放大倍数的多分辨率图模型 (concat_zero) 表现最佳,平衡准确率为 74.2%。
- 独立测试集:ABMIL 模型表现最佳,平衡准确率为 88.0%。
- 外部验证集:10x 和 20x 放大倍数的多分辨率图模型表现最佳,平衡准确率为 99.0%,接近完美。
2.2 模型性能分析
- 特征提取器:UNI 特征提取器优于 ImageNet 预训练 ResNet50,说明选择合适的特征提取器对模型性能至关重要。
- 放大倍数:10x+20x 放大倍数模型在所有验证集上都优于 5x+10x 基线模型,说明使用更高放大倍数的数据可以提升模型性能。
- 多分辨率特征空间:三种不同的多分辨率特征空间处理方式各有优劣,concat_zero 在交叉验证和外部验证中表现最佳,naive 在独立测试集中表现最佳。
2.3 模型性能的影响因素
- 验证集的差异:独立测试集和外部验证集包含的样本数量较少,且不包括间隔减瘤手术样本,这可能导致模型性能评估结果存在偏差。
- 扫描放大倍数的差异:不同扫描放大倍数可能影响图像质量,进而影响模型性能。
- 指标的选择:AUROC 指标在处理不平衡多分类问题时存在局限性,平衡准确率和 F1 分数更能反映模型的临床应用价值。
2.4 结论
- 多分辨率图模型可以提高卵巢癌亚型分类的准确性,特别是在外部验证集中表现出接近完美的性能。
- UNI 特征提取器优于 ImageNet 预训练 ResNet50。
- 10x+20x 放大倍数模型优于 5x+10x 和单一放大倍数模型。
- 多分辨率特征空间的选择对模型性能有一定影响。