眼底照片和OCT图像,预测阿尔兹海默症
- 数据
- 多模态网络
- 模型集成
- 可视化分析
论文:https://www.ophthalmologyretina.org/action/showPdf?pii=S2468-6530%2824%2900045-9
目前,认知障碍的诊断依赖于血清和蛋白质生物标志物的检测、脑脊液检查和正电子发射断层扫描等成本高昂且有时具有侵入性的测试。
因此,这些测试并不适合在基层医疗环境或社区中进行认知障碍的检测。
这篇研究的目的是开发和验证一个能够快速、简便地准确识别认知障碍患者的人工智能系统。
过程:开发深度学习模型、模型验证和性能改进。
深度学习模型:
- 使用多模态数据输入,结合眼底照片和OCT图像。
- 应用卷积神经网络(CNN)技术,设计多模态网络架构。
之所以使用此子解法:因为多模态视网膜图像可以提供关于视网膜和脉络膜的综合信息,这对于识别认知障碍具有潜在价值。
例如,使用眼底图像可以观察视网膜血管的变化(视网膜发病中后期变化),而OCT图像可以提供视网膜层次结构的详细视图(视网膜发病前期变化)。
性能改进:
- 通过增加数据样本的多样性和数量来优化和改进模型。
- 应用模型集成技术,结合多种网络架构的优势。
之所以使用此子解法:增加样本多样性可以帮助模型更好地泛化到不同的人群,而模型集成可以提高预测性能,减少过拟合的风险。
例如,集成多个不同架构的网络(如ResNet-50, InceptionV3, DenseNet-121和VGG),可以利用它们各自的优势,提高整体模型的鲁棒性和准确性。
数据
入选标准是年龄≥50岁。共有4403名符合条件的个体,其中3468人(78.8%,包括1963名女性,占56.6%)参加了眼科检查。
需要每位参与者的眼底照片(双眼的视盘中心和黄斑中心)清晰可见,OCT图像(双眼的中心凹水平截面)层次分明且可以分析,以及迷你精神状态检查(MMSE)的数据。
- 总共有3468名参与者提供了眼底图像,其中包括6014张视盘中心图像和6106张黄斑中心图像。
- 2974名参与者提供了OCT图像,共计5948张。
开发数据集:
- 训练集:包含8248张眼底照片,4124张OCT图像,共2062名参与者。
- 内部验证集:包含1176张眼底照片,588张OCT图像,共294名参与者。
外部验证数据集:
- 外部测试集1:包含1180张眼底照片,590张OCT图像,共295名参与者。
- 外部测试集2:包含1180张眼底照片,590张OCT图像,同样是295名参与者。
主要统计数据和结果:
- 性别:训练集中男性占42.6%,外部测试集中大约46%。
- 年龄:训练集平均年龄约为63.84岁,外部测试集平均年龄约为63至64岁。
- 教育水平:较多参与者接受过7-9年的教育。
- 体力活动:训练集中有34.7%的参与者活跃,而外部测试集这一比例稍低。
- 健康状况:包括体质指数、血压、总胆固醇、高血压、糖尿病和与年龄相关的眼病情况。
- 迷你精神状态检查(MMSE):平均分数在训练集和验证集中约为26分,外部测试集约为26.5分。
为了提高模型的鲁棒性和适用性,训练集故意包括了患有眼病的患者的视网膜图像,因为AMD和青光眼等与年龄相关的眼病在50岁以上的个体中很常见。
对所有参与者使用4张眼底照片(双眼的视盘中心和黄斑中心图像)和2张OCT图像(双眼的中心凹水平截面)进行模型开发和验证。
同时收集了包括性别、年龄、教育水平、体力活动、收缩压、体质指数(BMI)、总胆固醇以及高血压、糖尿病和与年龄相关的眼病状况等风险因素数据。
多模态网络
训练用于分类眼底和OCT图像的CNN模型。采用3种独立的特征编码器(例如VGG-19)提取特征,并通过共享全连接层进行分类。
- 使用来自不同视场的眼底图像和OCT图像的特征,通过编码器提取并合并特征。
- 这些特征被输入到共享的分类器,并通过全连接层进行处理,以建立用于认知障碍筛查的模型。
模型集成
为了提高系统的整体性能和鲁棒性,训练了4个使用不同计算视觉学习主干网络的多模态网络,如VGG-19、ResNet-50、InceptionV3和DenseNet-121。
- 模型集成技术,结合了四种不同的深度学习模型(ResNet-50, InceptionV3, DenseNet-121, 和 VGG),通过简单的平均方法融合,以增强模型的鲁棒性和准确性。
- 通过集成多个模型,研究提高了算法对输入数据的综合理解能力,减少了过拟合的风险,使得模型在未见数据上的表现更加平滑和泛化。
- 独立训练多个模型
- 选择模型架构:选择具有不同特点的多个模型架构。
- ResNet-50 擅长处理层次较深的网络结构问题
- InceptionV3 在处理图片的尺度上有优势,能够捕捉到不同尺度上的特征
- DenseNet-121 则通过其密集连接的方式改进了信息和梯度的流动,使得网络更加高效
- 而 VGG 模型结构简单,但在图像识别上表现良好
- 训练过程:每个模型分别在相同的数据集上进行独立训练。
- 这包括使用眼底照片和OCT图像作为输入,训练每个模型以识别认知障碍的迹象。
- 模型输出的融合
- 输出平均:在模型训练完成后,将这些模型的输出(通常是分类的概率)进行平均处理。
- 融合策略:简单平均是一种常见的融合策略,因为它不需要额外的权重调整,可以减少过拟合的风险,并且实现简单。
- 每个模型被赋予相等的权重,其预测结果的平均值被用作最终预测。
模型集成能够综合不同模型的优势,降低因模型特定偏差带来的风险,从而在多样化的数据上获得更稳定和可靠的性能。
例如,在眼底图像分析中,不同模型可能对不同类型的图像特征(如血管结构、黄斑区的细节等)有不同的敏感性,通过模型集成,可以综合这些特征的识别能力,提高诊断的准确性和鲁棒性。
模型性能:
- 模型1(单独使用以黄斑为中心的眼底照片)
- 模型2(单独使用以视盘为中心的眼底照片)在三个数据集(内部验证、外部验证1、外部验证2)中的AUC值分别为0.738/0.758/0.725 和 0.754/0.732/0.702。
- 模型3(结合使用以黄斑和视盘为中心的眼底照片)在各数据集中的AUC值有轻微提高,分别为0.766、0.760、0.750。
- 模型4(使用OCT图像中穿过中心凹的水平截面)的性能略有下降,AUC值为0.726、0.707、0.702。
- 模型5(多模态模型,结合使用眼底照片和OCT图像)达到了最高的性能,AUC值为0.820、0.786、0.784。
- 模型6(使用CAIDE风险评分)的AUC值为0.836、0.795、0.749。
模型5的性能显著优于模型1至4。
- 与CAIDE风险评分模型相比,模型5在AUC上没有显著差异,但表现更稳定,准确性更高。
- 在不同性别和年龄组中,模型5的表现没有显著差异,展示了良好的稳定性。
可视化分析
热图分析显示:
- 在认知功能正常的参与者中,CNN主要使用眼底照片中的视盘信号,而OCT图像的重要性较低。
- 对于认知障碍的参与者,CNN使用的信号包括眼底照片中视盘周围的信号,以及OCT图像中黄斑和视盘区域的视网膜和脉络膜。
D、E和F图则对应地展示了认知功能正常的个体的相同图像。
A、B和C图分别展示了认知障碍患者的黄斑中心眼底照片、视盘中心眼底照片和OCT图像的热图。
看可视化的结果,阿尔兹海默症,OCT 图才是重点。
但如果只用 OCT 图,效果还不如 fundus图(眼底图)。
综合使用效果最好,现在医学算法,都是多模态、模型集成效果更 SOTA。
下一步:
- 尽管研究证实了使用视网膜图像识别认知障碍的可行性,但样本量的限制可能影响了模型性能的最优化。
- 未来研究需要在更大、多中心的人群中验证模型的普适性,使用不同的眼底相机和OCT设备,包括针对视盘中心的OCT图像和OCT血管造影的检查。