深度学习和医学研究界对谷歌、纽约大学和DeepHealth发表的三篇有前途的乳腺癌诊断论文引发的讨论非常热烈。
几年前,纽约大学的一组研究人员开始发表关于将深度学习应用于癌症筛查的论文。该团队的最新论文《深度神经网络改善放射科医生在癌症筛查中的表现》于2019年10月发表。
去年12月,总部位于波士顿的DeepHealth——一家使用机器学习来帮助放射科医生的初创公司——在arXiv上发布了《乳房X光摄影中的鲁棒乳腺癌症检测》和《使用注释高效深度学习方法的数字乳房Tomosynthesis》。根据论文,所提出的方法在乳房X光片分类中实现了SOTA性能。合著者包括来自罗德岛医院和布朗大学、中国河南省人民医院、梅德福放射科集团和马萨诸塞大学医学院的研究人员。
DeepHealth首席技术官兼联合创始人William Lotter是第一作者。Lotter在给Synced的一封电子邮件中表示,该论文正在接受期刊审查,DeepHealth计划在4月中旬的乳腺成像学会会议上发表三篇相关摘要。
新年前夕,Reddit上一篇简单的帖子赞扬了DeepHealth的论文,这首次暗示了围绕这些研究的争议。题为“乳腺癌症检测的深度学习模型击败了五位全职放射科医生以及纽约大学和麻省理工学院以前的SOTA模型”的r/MachineLearning子版块在不到两天的时间里获得了600多张赞成票和106条评论。然而,DeepHealth认为标题是“夸张的,不一定是建设性的”,并要求删除该帖子。确实如此。
然后在元旦那天,谷歌的全球乳腺癌研究占据了世界各地的头条新闻。用于乳腺癌筛查的人工智能系统国际评估提出了一种新的人工智能系统,该系统比人类放射科医生更准确地读取乳房 X 光检查,假阳性更少,假阴性更少。这篇论文发表在《自然》杂志上,由来自Google Health,Google DeepMind,英国帝国癌症研究中心,西北大学和皇家萨里县医院的<>多名研究人员撰写。
然而,就在谷歌DeepMind创始人兼首席执行官德米斯·哈萨比斯(Demis Hassabis)和其他人庆祝论文的发布时,图灵奖得主、Facebook首席人工智能科学家艾恩·勒昆(AI Yann LeCun)却去破坏了派对,他在推特上说,谷歌论文的作者欠纽约大学的研究人员一些东西,应该“引用之前关于同一主题的研究”。他补充说,与谷歌系统不同,纽约大学的方法已经开源。
哈萨比斯回击说,谷歌确实引用了纽约大学的论文,并在此过程中对LeCun进行了抨击:“也许人们应该先阅读报纸,然后再在Twitter上发布带有错误信息的愤怒信息。
LeCun当时有点退缩:“我没有生气;-)”“以及”我确实读过这篇论文,但第一次错过了引用。
关于新颖性的重要挑战和争议
根据世界卫生组织的数据,在全球范围内,乳腺癌是女性中最常见的癌症。尽管近年来美国的乳腺癌死亡人数有所下降,但根据疾病控制和预防中心的数据,这种疾病仍然是该国女性癌症死亡的第二大原因。
乳腺癌是一种乳房细胞生长失控的情况,可以通过血液和淋巴管扩散到全身。乳房 X 光检查使医生能够在乳腺癌肿瘤大到足以引起症状或被患者检测到之前识别它们。但是,尽管数字乳房X光检查的使用有所增加,但即使对于专业放射科医生来说,阅读乳房X光检查仍然是一项艰巨的任务。
Google Health的技术负责人Shravya Shetty在一篇提炼《自然》论文的博客文章中表示,谷歌多年来一直与英国和美国领先的临床研究合作伙伴合作,看看人工智能是否可以改善乳腺癌的检测。这项研究的成果被写入了这篇新论文。
然而,谷歌的论文并没有像在主流媒体上那样在人工智能社区引起那么多的兴奋。
回到推特圈再次抨击该论文的新颖性,LeCun转发了英国皇家放射科医师学院的Hugh Harvey的评论:“恭喜谷歌,但我们不要忘记纽约大学的团队,他们去年发表了更好的结果,验证了更多病例,在更多读者身上进行了测试,并提供了他们的代码和数据。他们只是没有公关机器来提高认识。
纽约大学论文合著者、放射学教授Krzysztof J. Geras告诉Synced:“关于将深度学习应用于乳腺癌筛查的论文很长。我的论文可能是第一篇将大规模实验、对不同可能模型的仔细评估、非常好的结果、大量读者研究和在线公开的训练模型相结合的论文。然而,仍有改进的空间,我相信未来几年会有很多论文在不同方面走得更远。
纽约大学的研究人员引入了一种用于癌症筛查分类的深度卷积神经网络,该网络对20万次乳房检查中的100多万张图像进行了训练和评估。当在纽约大学医学院附属网站的图像上进行测试时,他们的系统在AUC性能指标上的得分为0.895(AUC或“受试者操作特征下的面积”范围为0-1,越高越好),令人印象深刻。在英国筛查数据中,谷歌系统的AUC为0.889,在美国筛查数据中为0.8107。
Geras承认谷歌论文仔细结果分析的力量,但在一条推文中警告说,“新颖性很难量化”,“已经有多篇论文显示出类似的结果”。
事实上,纽约大学去年8月的一项更早的研究得出了0.919的AUC。DeepHealth的新论文给出了更引人注目的AUC分数:来自中国的数据为0.971,来自英国的数据为0.95,来自美国的数据为0.957。
然而,Geras警告说,由于这些模型是在不同的数据集上训练和评估的,因此很难公平地比较结果或说任何模型是否实际上是最先进的。他认为,多个小组使用类似的方法获得类似的结果将是一件好事,“共同验证我们的方法,并表明我们使用的工具箱 - 在这种情况下,深度神经网络 - 是健壮的,适用于不同的场景。
谷歌和DeepHealth的研究在规模、方法和结果方面肯定有相似之处,但最大的区别可能是谷歌的论文发表在著名的《自然》杂志上,而DeepHealth的论文仍在arXiv上等待审查。谷歌首先将他们的研究公之于众,这将给DeepHealth带来更大的压力,以证明其模型的新颖性。
Lotter在一封电子邮件中写道:“我们论文的核心创新之一是,我们提出了一个模型,除了2D乳房X光摄影外,还适用于数字乳房断层合成(DBT,或3D乳房X光照相)。”他解释说,该方法在不需要强标记DBT数据的情况下实现了良好的性能。开发DBT的人工智能模型更具挑战性,因为3D乳房X光摄影通常包含比2D乳房X光照相多50到100倍的数据。但DeepHealth团队认为,鉴于该技术的广泛使用及其卓越的临床准确性,DBT至关重要。
乳腺癌检测中的人工智能与放射科医生
谷歌的系统对英国76000多名女性和美国15000多名女性的乳房X光检查进行了培训和调整,并对英国25000多名女性和英国3000多名女性的单独数据集进行了评估,使美国和英国的误报率分别降低了5.7%和1.2%;在美国和英国,假阴性率分别减少了9.4%和2.7%。
“阅读乳房X光照片是机器学习和人工智能的完美问题,但老实说,我没想到它会做得更好,”西北大学研究助理教授,谷歌论文的共同作者之一Mozziyar Etemadi告诉时代周刊。
在一项独立研究中,谷歌的人工智能系统表现优于所有六位人类专家。与此同时,DeepHealth的系统表现优于所有五位全职乳腺成像专家,绝对灵敏度平均提高了14%。纽约大学的模型优于12名有2至25年经验的放射科医生、住院医生和医学生。
面对一系列“人工智能击败放射科医生”的头条新闻,谷歌、DeepHealth和纽约大学的团队都强调,他们的系统的目标不是取代放射科医生,而是支持他们解释乳腺癌筛查检查。
值得注意的是,放射科医生通常在诊断中使用其他数据来源,例如家族癌症病史和先前的图像。但在DeepHealth的比较中,放射科医生接受了乳房X光检查,没有其他任何东西,这可能会影响他们的表现。谷歌团队确实向他们的人类专家(但不是人工智能)提供了患者病史和以前的乳房X光检查,他们的系统仍然比放射科医生获得更高的AUC。
同样值得注意的是,AUC 仅反映模型性能的某些方面。一些研究表明,在特定实验条件下,在乳腺癌筛查考试分类中,神经网络比放射科医生更有可能获得更高的AUC。然而,这种表现可能不会转移到其他指标上:“例如,在我们的研究中,当评估PRAUC时,放射科医生仍然相对较强,”Geras解释说。
模型泛化和未来应用
从科学的角度来看,确保跨人群的泛化对于现实世界的部署至关重要。DeepHealth深度学习模型主要针对西方人群进行训练,但可以很好地推广到中国人群。与此同时,谷歌团队在英国数据上训练了他们的模型,并在美国数据上对其进行了评估,以了解它将如何推广到其他医疗保健系统。
然而,考虑到地理、文化和种族的差异,证明在西方人群中训练的模型可以推广到亚洲人群似乎更有意义。例如,中国女性的乳房密度往往高于西方女性,这可能是乳房X光检查的技术挑战。证明在西方人群上训练的模型也可以在中国人群中实现高性能,这表明在其他人群中具有泛化能力的潜力。
Geras说,纽约大学的模型是在私有数据上训练的,在输入、输出的分布以及输入和输出之间的关系方面存在一些特殊的偏差。而且它不一定能很好地推广到其他数据集。
虽然很难直接比较这三个模型的泛化能力 - 或它们在医学诊断中的整体表现 - 但最终的测试将在真实的临床环境中进行。然而,如果没有开源模型,其他人——尤其是也可以为该领域进步做出贡献的小型团体——很难在谷歌的工作基础上再接再厉。这促使研究界的许多人批评谷歌决定不发布其模型的代码。
但是为什么不发布代码呢?麦吉尔大学生物医学工程教授Danilo Bzdok表示,谷歌的模型训练代码可能没有多大用处,因为它包含了大量基于内部工具、基础设施和硬件的依赖关系。
用于医疗用途的开源模型可能很复杂,DeepHealth团队目前正在决定如何“找到一种有利于研究界的最佳解决方案,同时减轻对真实患者滥用的可能性,”Lotter告诉Synced。“从研究方面来看,我们是开放代码的忠实粉丝。然而,从临床方面来看,盲目发布可以直接用于解释乳房X光检查的代码具有不小的风险。
Lotter强调,DeepHealth的目标是建立一个可用的产品,而不是一个纯粹的研究项目。这需要质量管理体系、FDA研究和批准等。“如果有人避开这些组件并直接使用我们的模型代码进行临床决策,特别是在没有保证适当的预处理,输入验证和监测的情况下,存在很大的伤害风险。
筛查只是乳腺癌诊断的第一步,这通常需要的不仅仅是乳房X光检查。关于何时开始筛查、乳房 X 光检查之间的理想间隔以及乳房 X 光检查的益处与有害影响的程度,还存在更广泛的问题。
这三篇强有力的论文将深度学习和医学界的注意力集中在通过深度学习极大地改善乳腺癌筛查和诊断的潜力上。希望我们能看到补充这个有前途的研究领域取得了进展。
纽约大学的论文《深度神经网络提高放射科医生在乳腺癌筛查中的表现》可在此处获得,DeepHealth论文《使用注释高效深度学习方法进行乳房X光检查和数字乳房断层合成中的稳健乳腺癌检测》可在此处获得,Google论文《乳腺癌筛查AI系统国际评估》可在此处获得。