【医学影像 AI】基于深度学习的 ROP 病变检测图像评估系统
- 0. 论文简介
- 0.1 基本信息
- 0.2 摘要
- 1. 引言
- 2. 材料与方法
- 2.1 研究人群
- 2.2 疾病分类与参考标准的制定
- 2.3 深度学习系统开发
- 2.4 定量严重程度评分
- 2.5 数据分析
- 3. 结果
- 4. 讨论
- 6. 参考文献
0. 论文简介
0.1 基本信息
2018 年,Travis K Redd 等在 Br J Ophthalmology 发表论文 “基于深度学习的 ROP 病变检测图像评估系统(Evaluation of a deep learning image assessment system for detecting severe retinopathy of prematurity)”。
本研究旨在通过模拟临床筛查过程,开发一种可解释的AI系统,以确定ROP的严重程度。根据临床指南,整合分期、区域和“加号病变”的存在情况,推导出ROP的严重程度,通过病变类型提供分期信息,通过病变位置提供区域信息,并通过“加号病变”分类模型判断是否存在“plus”病变。
论文下载: bjophthalmol
引用格式:
Redd TK, Campbell JP, Brown JM, et al. Evaluation of a deep learning image assessment system for detecting severe retinopathy of prematurity. The British Journal of Ophthalmology. 2018 Nov:bjophthalmol-2018-313156. DOI: 10.1136/bjophthalmol-2018-313156.
0.2 摘要
- 背景:
先前的研究已经证明,深度学习视网膜图像分析系统在诊断早产儿视网膜病变(ROP)中的附加病变方面具有近乎完美的准确性。本文通过评估该评分系统检测ROP诊断所有组成部分的能力,探讨其筛查潜力。 - 方法:
在七家参与中心进行了临床检查及眼底摄影。训练了一个深度学习系统以检测附加病变,生成对视网膜血管异常的定量评估(i-ROP附加评分),评分范围为1至9分。ROP的整体疾病分类通过结合临床和图像诊断的共识参考标准确定。专家随后根据ROP的总体严重程度对包含100张后极部图像的第二数据集进行排序。 - 结果:
分析了来自870名婴儿的4861次检查,其中155次检查(3%)被参考标准诊断为1型ROP。i-ROP深度学习(DL)血管严重程度评分在检测1型ROP时的受试者工作特征曲线下面积为0.960。设定i-ROP DL评分阈值为3时,其对1型ROP的敏感性为94%,特异性为79%,阳性预测值为13%,阴性预测值为99.7%。专家对ROP总体严重程度的排序与i-ROP DL血管严重程度评分之间存在强相关性(Spearman相关系数=0.93;p<0.0001)。 - 结论:
i-ROP DL系统仅在基于后极部血管形态的训练后,能够以自动化方式准确识别诊断分类和总体疾病严重程度。这些数据提供了概念验证,表明深度学习筛查平台可以提高ROP诊断的客观性和筛查的可及性。
1. 引言
早产儿视网膜病变(ROP, Retinopathy of prematurity)是全球儿童视力丧失的主要原因之一。然而,该疾病的全球负担仍未得到充分解决,部分原因是筛查的可及性不足。筛查的障碍包括进行这些专业眼科检查所需的大量时间和培训、相对较低的经济补偿以及重大的医疗责任风险[1, 2]。 此外,随着全球ROP发病率(尤其是中等收入国家)的上升,对ROP筛查检查的需求也在持续增加[3]。
即使对于接受筛查的婴儿,ROP的准确诊断仍具有挑战性,需识别三个独立的检查参数(区域、阶段和附加病变),这些参数被组合为一个综合诊断类别[4]。 研究表明,即使在ROP专家中,诊断者之间的差异也很大[1],这种差异导致了早产儿临床结果的显著不同[5]。恰当的ROP诊断和治疗可降低疾病进展的风险,这强调了准确和及时诊断的重要性[4]。这些因素促使人们对ROP的人工智能技术产生了兴趣,该技术有望提高筛查的可及性并促进ROP诊断的标准化。
人工智能为改善多种疾病的治疗提供了机会,尤其是通过一种称为深度学习(DL)的技术子集[6]。DL是一种训练基于计算机的图像分析系统以自动识别和评估图像的方法,已成功用于多种眼部疾病的诊断,尤其是糖尿病视网膜病变[7–11]。目前已开发了多种人工智能系统用于检测ROP的附加病变[12–14]。
由ROP影像与信息学(i-ROP)研究联盟开发的深度学习算法(DeepROP)已被整合为一个名为“i-ROP DL”的系统。该系统先前已被证明在无需手动血管分割的情况下,从广角后极部视网膜图像中检测附加病变的准确性极高,其表现与或优于人类专家[15]。 然而,该系统仅被训练用于识别附加(plus)病变。
在本研究中,我们通过评估该系统仅基于后极部图像识别更广泛的ROP诊断类别以及总体疾病严重程度的能力,探讨了其在临床和公共卫生中的整体适用性。
2. 材料与方法
2.1 研究人群
本项目作为多中心 i-ROP 研究的一部分进行。所有数据均前瞻性地从七家参与机构收集:俄勒冈健康与科学大学、威尔康奈尔医学院、迈阿密大学、哥伦比亚大学、洛杉矶儿童医院、西达斯-西奈医疗中心和墨西哥防盲协会。
研究对象为以下婴儿:(1) 在2011年7月至2016年12月期间在接受筛查的新生儿重症监护病房接受检查,(2) 符合已发布的ROP筛查检查标准,且 (3) 其父母提供了知情同意书。我们排除了所有对曾接受过ROP治疗的眼睛进行的检查。
本研究根据《健康保险可携性和责任法案》指南进行,并前瞻性地获得了每家机构的机构审查委员会(IRB)批准,并遵守《赫尔辛基宣言》的原则。
2.2 疾病分类与参考标准的制定
训练深度学习系统需要一个可靠的“真实值”或参考标准。为此,我们采用了通过整合每次ROP检查的临床眼底检查和影像学诊断结果而得出的综合参考标准诊断(RSD),具体方法已在我们先前的研究中发表。简而言之,所有婴儿均根据各机构的现行筛查指南,由ROP专家进行系列散瞳眼底检查。随后,使用广角相机(RetCam;Natus Medical Incorporated,美国加利福尼亚州普莱森顿)获取标准五视野视网膜图像集,并由三位独立专家对去标识化的图像集进行诊断。所有临床眼底检查和影像学检查结果均按照国际ROP分类标准(ICROP)记录,包括区域、阶段和附加病变。临床检查与影像学诊断结果被整合为每套图像集的RSD,诊断差异通过小组评审解决。
随后,根据早产儿视网膜病变早期治疗(ETROP)规范,将三个关键诊断参数(区域、阶段、附加病变)整合为以下总体疾病类别:(1)无ROP;(2)轻度ROP,定义为低于2型ROP;(3)2型ROP(定义为I区1或2期,无附加病变,或II区3期,无附加病变);(4)1型或需要治疗的ROP,定义为I区任何分期伴附加病变;I区3期无附加病变;或II区2或3期伴附加病变。为聚焦于识别临床显著病变的早期表现,本研究排除了4期和5期ROP。此外,设立“临床显著ROP”类别以识别需要转诊至专科中心的病例,该类别包括1型ROP、2型ROP及预附加病变。
2.3 深度学习系统开发
i-ROP DL系统基于卷积神经网络的概念开发,采用了先前发表的方法。简而言之,通过分析来自有ROP风险新生儿的 5511 套广角图像集,建立了附加病变的参考标准诊断(RSD)。这些图像及其相应的附加病变RSD以迭代方式输入系统。
系统由两个连续的神经网络组成,第一个网络用于视网膜血管分割,第二个网络用于检测附加病变。
在第一个网络中,图像被缩小至640×480像素,并使用U-Net架构通过对200张手动标记的视网膜图像进行训练,生成了“血管概率图”。随后,该血管概率图用于创建原始图像的圆形掩码。图像随后被调整大小并裁剪为224×224像素。
在第二个网络中,通过对原始图像进行几何变换来扩充训练集,并随机抽样以确保训练集中每类附加病变严重程度的图像数量相等。然后,使用Inception V1(GoogLeNet)神经网络架构对个体视网膜图像进行分类(正常、预附加或附加),并在ILSVRC ImageNet数据集上进行预训练。修改了softmax输出层以进行三分类预测,并随后对所有网络层进行了微调。
通过随机梯度下降法(SGD)最小化交叉熵损失函数,共进行100个训练周期,学习率恒定为0.0001。此外,使用了0.4的dropout率以减轻过拟合。
通过这一过程,系统学会了识别被认为对附加病变诊断重要的视网膜图像特征,并具有近乎完美的接收者操作特征曲线特性。值得注意的是,在训练过程中,系统未获得有关区域和分期的RSD信息。对整体数据的不同子集训练了五个独立模型,并将每个模型应用于剩余的未见数据。这种五折交叉验证方法最小化了i-ROP DL系统输出的偏差。
2.4 定量严重程度评分
对于每张后极部图像,深度学习系统生成了一组概率(P),表示该检查结果为正常血管、预附加病变或附加病变。
为了反映疾病的连续谱,我们根据以下公式从该输出生成一个标度评分,以表示给定检查中的疾病严重程度[15,18]:
{[1×P(normal)] + [ 5×P(pre-plus)] + [9×P(plus)]}。
结果被称为“i-ROP DL评分”,反映了血管严重程度的定量测量,评分范围为1到9。
2.5 数据分析
i-ROP DL评分的受试者工作特征曲线下面积(AUROC)针对ROP的所有诊断参数和疾病分类进行了确定。AUROC用于量化测试对二元结果的分类能力,0.5表示随机概率,1.0表示完美测试。
基于这些曲线,选择了一个假设的转诊截断分数用于检测1型ROP。一个包含100张后极部图像(54张正常、31张预附加病变和15张附加病变)的独立数据集被排除在训练数据集之外,并用于系统的额外验证。
五位独立专家对这些检查进行了成对比较,要求“选择代表更严重疾病的图像”。通过Elo算法,这些比较被整合为根据ROP总体严重程度对整体数据集的共识排序,从1(最轻)到100(最严重)。
此外,计算了i-ROP DL评分与专家对每张图像ROP总体严重程度排序之间的Spearman相关系数。数据管理使用Excel 2011(微软,美国华盛顿州雷德蒙德),所有统计分析均使用Stata MP V.13进行。
3. 结果
共分析了来自870名婴儿的4861次眼部检查。平均出生体重为901±304克,平均孕周为27±2周。
根据ROP国际分类标准(RSD),15次检查(3%)显示为1型ROP,912次检查(19%)显示为具有临床意义的ROP。
具体而言,282次检查(6%)显示为I区病变,4469次检查(92%)为II区病变,110次检查(2%)为III区病变。2141次检查(44%)显示为0期病变,1168次检查(24%)为1期病变,1253次检查(26%)为2期病变,299次检查(6%)为3期病变。
关于附加病变(plus disease),4097次检查(84%)无附加病变,636次检查(13%)为预附加病变(pre-plus),128次检查(3%)为附加病变。
i-ROP DL血管严重程度评分在检测1型ROP时的AUROC为0.96,在检测具有临床意义的ROP时为0.91。对于附加病变,该评分表现出近乎完美的AUROC(两级分析中,附加病变 vs 无附加病变的AUROC为0.99)(表1)。对于未专门训练检测的病变特征(I区病变和3期病变),其效果较差:AUROC分别为0.82和0.88,但在血管正常(低于预附加病变)的情况下,AUROC分别降至0.62和0.67。
表1:(i-ROP-DL)系统检测 ROP各种参数和水平的性能
假设设定i-ROP DL的转诊截断分数为3以验证概念,i-ROP DL血管严重程度评分在检测1型ROP时的敏感性为94%,特异性为79%。用于筛查目的时,阴性预测值(NPV)为99.7%,但阳性预测值(PPV)仅为13%(图1)。在该研究人群中,使用此截断分数会漏诊10例(7%)1型ROP。
根据RSD分类,其中9例(90%)为I区、3期病变且无附加病变,1例(10%)为I区、2期病变且伴有附加病变(后者的i-ROP DL血管严重程度评分为2.93)。在包含100次按严重程度排序的独立数据集中,专家对整体疾病严重程度的排序与i-ROP DL血管严重程度评分之间存在非常强的统计学显著相关性(Spearman相关系数=0.93;p<0.0001)。在此独立数据集中,转诊分数为3时,能够捕获所有1型ROP病例,并排除47例(94%)无或轻度ROP病例(图2)。此截断分数仅漏诊1例具有临床意义的ROP病例,其i-ROP DL评分为1.15,被RSD分类为无附加病变、I区、1期病变(2型ROP)。
4. 讨论
本研究评估了基于后极部眼底照片的i-ROP DL系统在诊断ROP中的表现。主要发现包括:(1)尽管仅训练用于识别附加病变(plus disease),i-ROP DL系统仍能准确检测具有临床意义的ROP,对1型ROP的敏感性为94%;(2)i-ROP DL血管严重程度评分与专家对整体疾病严重程度的排序高度相关;(3)该系统仅基于后极部血管形态检测严重ROP,强调了ROP诊断参数的共线性。这些数据为基于深度学习的筛查平台的部署提供了概念验证,可提高ROP诊断的客观性并改善筛查的可及性。
第一个关键发现是,i-ROP DL系统在检测具有临床意义的ROP方面具有高准确性(表1)。我们此前已证明该系统在检测ROP附加病变方面具有极高的准确性。这些结果进一步扩展了这些发现,表明尽管仅训练用于识别附加病变,该系统在更广泛的ROP诊断类别(尤其是严重疾病)中仍具有高准确性。假设转诊分数为“3”时,对1型ROP的敏感性为94%(图1)。更重要的是,阴性预测值(NPV)为99.7%,这意味着评分低于此阈值的后极部图像仅有3/1000的概率为1型ROP。对于ROP等疾病,筛查测试的敏感性和NPV是最重要的参数,因为漏诊可能带来严重后果。
第二个关键发现是,i-ROP DL血管严重程度评分与专家评估的疾病严重程度连续谱高度相关(图2)。我们此前已证明,ROP表型似乎呈现从轻度到重度的连续谱,专家在相对疾病严重程度上的共识优于对分区、分期、附加病变或整体分类的共识。本研究再次证实了疾病连续谱的概念,并提供了一种自动化且准确的测量方法。这对疾病筛查(如图1所示)以及随时间跟踪疾病进展具有重要意义。
第三个关键发现是,i-ROP DL系统生成的严重程度评分仅基于后极部血管形态检测严重ROP。尽管未专门训练用于检测分区或分期,该系统仍能实现这一目标,这表明严重ROP很少在没有后极部血管变化的情况下发生,文献也支持这一点。
在本研究人群中,截断分数为3时漏诊了10例(7%)1型ROP,如果系统额外训练以检测I区和3期病变,这些病例均可被检出。未来版本的这一系统可能提供一种自动化的即时筛查测试,以识别需要全面眼科检查的具有临床意义ROP患者。
为实现这一目标,敏感性需进一步提高(以确保不漏诊任何1型ROP病例),并需重新构想当前依赖完整ICROP分类的ROP筛查模型。如果能识别所有需要紧急干预的ROP患者,其余患者可在规定时间(如1-2周)内重新筛查,以获取疾病进展的客观自动化指标。初步证据表明,i-ROP DL系统能够准确识别这种进展。
美国食品药品监督管理局(FDA)最近批准了首个基于深度学习的健康筛查系统,用于检测可转诊的糖尿病视网膜病变。以类似方式利用i-ROP DL系统可能大大减少充分筛查ROP所需的眼科检查次数,从而应对全球范围内对ROP筛查的高需求及日益增长的需求。
图1:不同参考标准诊断的眼科检查中早产儿深度学习视网膜病变(i-ROP DL)血管严重程度评分的成像和信息学分布。显示了4861次眼部检查的数据。在该数据集中,假设转诊截止分数为“3”,将有效排除89%的无ROP或轻度ROP的检查,同时捕获94%的1型ROP检查
图2:成像和信息学早产儿视网膜病变深度学习(i-ROP DL)血管严重程度评分与五位专家对100张图像的ROP疾病严重程度的排序之间的关联。在这个数据集中,假设转诊临界分数为“3”,将有效排除94%的无或轻度ROP病例,同时捕获100%的1型ROP病例。
本研究存在若干局限性。
首先,临床显著ROP的定义包括2型ROP、1型ROP及预附加病变。将预附加病变纳入该类别的原因是,预附加病变的概念直至2005年才被提出[17],而2型ROP的定义在此之前已确立[4]。此后研究表明,预附加病变是疾病进展的强独立风险因素[24],因此应作为转诊至专科检查的依据。
其次,评估任何ROP筛查系统的一个固有问题是ROP诊断中的专家间差异。本研究采用了共识参考标准诊断(RSD)进行系统训练和评估。
第三,任何人工智能系统的准确性均依赖于所输入数据的质量。本研究中,临床诊断质量不足的图像被排除在外。我们正在开发软件以自动判断图像是否具有足够质量[25]。
本研究为未来人工智能在自主或辅助ROP筛查中的应用提供了概念验证。i-ROP DL系统仅基于后极部摄影即表现出对临床显著ROP的高敏感性,支持开发和验证连续ROP严重程度评分的必要性,并可能在资源有限的环境中为ROP护理提供重要应用。
6. 参考文献
- Chiang MF, Jiang L, Gelman R, et al. Interexpert agreement of plus disease diagnosis in retinopathy of prematurity. Arch Ophthalmol 2007;125:875–80.
- Braverman RS, Enzenauer RW. Socioeconomics of retinopathy of prematurity in-hospital care. Arch Ophthalmol 2010;128:1055–8.
- Sommer A, Taylor HR, Ravilla TD, et al. Challenges of ophthalmic care in the developing world. JAMA Ophthalmol 2014;132:640–4.
- Early Treatment For Retinopathy Of Prematurity Cooperative Group. Revised indications for the treatment of retinopathy of prematurity: results of the early treatment for retinopathy of prematurity randomized trial. Arch Ophthalmol 2003;121:1684–96.
- Fleck BW, Williams C, Juszczak E, et al. An international comparison of retinopathy of prematurity grading performance within the Benefits of Oxygen Saturation Targeting II trials. Eye 2018;32:74–80.
- LeCun Y, Bengio Y, Hinton G. Deep learning. Nature 2015;521:436–44.
- Gulshan V, Peng L, Coram M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. JAMA 2016;316:2402–10.
- Gargeya R, Leng T. Automated identification of diabetic retinopathy using deep learning. Ophthalmology 2017;124:962–9.
- Abràmoff MD, Lavin PT, Birch M, et al. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ Digit Med 2018;1:39.
- Ting DSW, Cheung CY, Lim G, et al. Development and validation of a deep learning system for diabetic retinopathy and related eye diseases using retinal images from multiethnic populations with diabetes. JAMA 2017;318:2211–23.
- De Fauw J, Ledsam JR, Romera-Paredes B, et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat Med 2018;24:1342–50.
- Wittenberg LA, Jonsson NJ, Chan RV, et al. Computer-based image analysis for plus disease diagnosis in retinopathy of prematurity. J Pediatr Ophthalmol Strabismus 2012;49:11–19.
- Heneghan C, Flynn J, O’Keefe M, et al. Characterization of changes in blood vessel width and tortuosity in retinopathy of prematurity using image analysis. Med Image Anal 2002;6:407–29.
- Wallace DK, Zhao Z, Freedman SF. A pilot study using “ROPtool” to quantify plus disease in retinopathy of prematurity. J Aapos 2007;11:381–7.
- Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol 2018;136:803–10.
- Ryan MC, Ostmo S, Jonas K, et al. Development and evaluation of reference standards for image-based telemedicine diagnosis and clinical research studies in ophthalmology. AMIA Annu Symp Proc 2014;2014:1902–10.
- International Committee for the Classification of Retinopathy of Prematurity. The international classification of retinopathy of prematurity revisited. Arch Ophthalmol 2005;123:991–9.
- Campbell JP, Kalpathy-Cramer J, Erdogmus D, et al. Plus disease in retinopathy of prematurity: a continuous spectrum of vascular abnormality as a basis of diagnostic variability. Ophthalmology 2016;123:2338–44.
- Zweig MH, Campbell G. Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine. Clin Chem 1993;39:561–77.
- Kalpathy-Cramer J, Campbell JP, Erdogmus D, et al. Plus disease in retinopathy of prematurity: improving diagnosis by ranking disease severity and using quantitative image analysis. Ophthalmology 2016;123:2345–51.
- Maxim LD, Niebo R, Utell MJ. Screening tests: a review with examples. Inhal Toxicol 2014;26:811–28.
- Brown JM, Kalpathy-Cramer J, Campbell JP. Fully automated disease severity assessment and treatment monitoring in retinopathy of prematurity using deep learning. Proc SPIE Med Imaging 2018 Imaging Informatics Heal Res Appl;10579.
- News Release FDA, 2018. FDA permits marketing of artificial intelligence-based device to detect certain diabetes-related eye problems. Available from: https://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/ucm604357.htm[Accessed Aug 2018].
- Wallace DK, Freedman SF, Hartnett ME, et al. Predictive value of pre-plus disease in retinopathy of prematurity. Arch Ophthalmol 2011;129:591–6.
- Coyner A, Swan R, Brown JM. Deep learning for image quality assessment of fundus images in retinopathy of prematurity. AMIA Annu Symp Proc. In press.
版权说明:
本文由 youcans@xidian 对论文 Evaluation of a deep learning image assessment system for detecting severe retinopathy of prematurity 进行摘编和翻译。该论文版权属于原文期刊和作者,本译文只供研究学习使用。
youcans@xidian 作品,转载必须标注原文链接:
【医学影像 AI】基于深度学习的 ROP 病变检测图像评估系统(https://youcans.blog.csdn.net/article/details/146285746)
Crated:2025-03