原文来源:arXiv
作者:Alvin Rajkomar、Eyal Oren、Kai Chen、Andrew M. Dai、Nissan Hajaj、Peter J. Liu、Xiaobing Liu, Mimi Sun、Patrik Sundberg、Hector Yee、Kun Zhang、Yi Zhang、Gavin E. Duggan、Gerardo Flores、Michaela Hardt、Jamie Irvine、Quoc Le、Kurt Litsch、Jake Marcus、Alexander Mossin、Justin Tansuwan、De Wang、James Wexler、Jimbo Wilson、Dana Ludwig、Samuel L. Volchenboum、Katherine Chou、Michael Pearson、Srinivasan Madabushi、Nigam H. Shah、Atul J. Butte、Michael Howell、Claire Cui、Greg Corrado、Jeff Dean
「雷克世界」编译:嗯~是阿童木呀
可以这样说,使用电子健康记录(EHR)数据进行预测建模预计将推动个性化医疗的发展,提高医疗质量。构建预测统计模型通常需要从正则化EHR数据中提取筛选后的预测变量,这是一个劳动密集型过程,将会丢失每个病人记录中绝大多数的信息。基于快速医疗保健互操作性资源(FHIR)格式,我们提出了患者的全部原始EHR记录的表示方法。我们经过实验证明,使用这种表示的深度学习方法能够准确预测来自多个中心的多个医疗事件,而无需站点特定的数据协调。我们使用来自两个美国学术医疗中心的非识别EHR数据对我们的方法进行验证,其中216,221名成年患者住院至少24小时。按照我们所提出的序列格式,这一卷EHR数据总共包含了46,864,534,945个数据点,包括临床说明。深度学习模型在预测诸如住院死亡率(跨站点AUROC为0.93-0.94)、30天计划外再入院(AUROC为 0.75-0.76)、延长住院时间(AUROC 0.85-0.86)以及所有患者的最终诊断(频率加权AUROC 为0.90)等任务中取得了较高的准确度。在这些所有情况下,这些模型的性能表现均优于传统的预测模型。我们还提供了一个神经网络归因系统的案例研究,用以说明临床医生是如何获得预测的一些透明度的。我们认为,这种方法可以用以为各种临床情景创建精确的、可扩展的预测,并提供完整解释,直凸显出病人图表中所展示的证据。
其实,数字医学的前景部分源于希望,即通过数字化健康数据,我们可以更容易地利用计算机信息系统理解和改善医疗。实际上,常规收集的患者医疗保健数据在体积和复杂性上正日益接近基因组规模。不幸的是,这些信息大部分尚未用于临床医生可能用以改善医疗服务的预测统计模型中。人们普遍认为,如果成功的话,这样的努力不仅可以为患者的安全和质量带来莫大的好处,而且还能够降低医疗成本。
尽管可用数据具有丰富、潜力大的特点,但预测模型的扩展性发展还是存在困难的,因为对于传统的预测建模技术来说,每一个要预测的结果都需要创建具有特定变量的自定义数据集。人们普遍认为,分析模型中80%的工作都是用于预处理、合并、自定义和清理数据集,而不是用于对其进行分析以获得结果。这极大地限制了预测模型的可扩展性。
这个boxplot显示EHR中的数据量(以对数为单位),以及整个住院过程中的时间变化。
而另一个挑战是,电子健康记录(EHR)中潜在预测变量的数量可能轻易就会成千上万的出现,特别是当来自医生、护士和其他提供者的自由文本记录涵盖在内的时候更是如此。传统的建模方法通常只是通过选择数量非常有限的常用收集变量以处理这种复杂性。这是存在问题的,因为所得到的模型可能会产生不准确的预测结果:假阳性预测会使医生、护士和其他提供者被错误警报和随后的警报疲劳所压垮,联合委员会在2014年将其确定为全国患者安全优先事项。而假阴性预测可能错过大量临床重要事件,从而导致临床结果不佳。对整个HER进行整合,包括临床医生的自由文本,为克服这些缺点提供了一些希望,但是对于大多数预测建模技术而言,这是无望的,仅仅治标不治本。
最近深度学习和人工神经网络的发展可能使我们能够解决许多这些挑战,并解开EHR中的信息。深度学习是计算机视觉到语音识别等机器感知问题的首选机器学习方法,但最近在自然语言处理,序列预测和混合模态数据设置方面已证明有用。这些系统以处理大量相对混乱的数据的能力而闻名,包括标签中的错误和大量的输入变量。一个关键的优点是调查人员通常不需要指定要考虑哪些潜在的预测变量以及以何种组合;相反,神经网络学习的表示数据本身的关键因素和相互作用。
在接收方的曲线下,根据深度学习和基线模型的预测,在住院前和入院后的12小时内,对住院病人的死亡率进行了预测。
我们假设这些技术将能够很好地转化到医疗保健中。具体来说,这种深度学习方法可以将涵盖自由文本在内的整个电子健康记录结合起来,以产生对一系列临床问题和结果的预测,且这些预测结果都优于传统最为先进的预测模型。我们的核心观点是,与其对HER数据进行明确地协调数据,将其映射到高度筛选后的结构化预测变量中,然后将这些变量馈送到统计模型中,我们可以学习通过直接特征学习来协调输入并预测医疗事件。
有这样一种学习技术,它可以将涵盖自由文本在内的整个电子健康记录结合起来,以产生对一系列临床问题和结果的预测,且这些预测结果都优于传统最为先进的预测模型。因为我们有兴趣了解深度学习是否可以在不同的医疗领域进行扩展以产生有效的预测,所以我们使用单一数据结构以对重要的临床结果(死亡)、医疗质量的标准测量(再入院)、资源利用率的度量(停留时间)、以及对患者问题的理解度量(诊断)进行预测。
这种方法代表了在临床护理预测模型可扩展性方面的一个重要进展,原因如下几个方面:首先,我们的研究方法将整个EHR的单一数据表示作为一系列事件的序列,使得该系统可以用于临床或操作有用的任何预测,并且只需最少的数据准备。传统的预测模型需要大量的工作来准备一个手动制作的、具有特定变量的数据集,由专家进行选择并由分析人员为每个新的预测进行收集组合。这种数据准备和清理通常会消耗任何预测分析项目80%的工作量,从而限制了医疗保健中预测模型的可扩展性。其次,使用整个患者图表进行每一个预测不仅仅是促进了可扩展性,还揭示了更多的数据,从而作出准确的预测。而对于患者出院时做出的预测,我们的深度学习模型考虑了超过460亿条EHR数据,并且早在住院期间便比传统模型做出了更为准确的预测。例如,通过对评估住院死亡率所需人数的改进,人们提出了这种改善的临床影响:深度学习模型将使传统预测模型的警报数量减少一半,从而导致更少的误报。
然而,这种方法的新颖之处并不仅仅在于模型性能的改进。相反,这种预测性能是在没有手动选择专家认为重要的变量的情况下实现的。取而代之的是,该模型可以为每个患者提供数以万计的预测因子,包括自由文本,并且了解到对于特定预测来说重要的是什么。
患者记录显示一名女性患有转移性乳腺癌,伴有恶性胸腔积液和脓胸。图顶部的病人时间线包含每个时间步的圆圈,病人至少有一个存在的标记,水平线显示数据类型。在住院后24小时进行预测之前,可以近距离查看最近的数据点。我们训练了用于每种数据类型的模型,并用红色突出显示了模型参与的标记——未加亮显示的文本没有被关注,而是在上下文中得以显示。这些模型可以从药物,护理流程和临床记录中选择特征进行预测。
我们的研究也存在着重要的局限性。首先,这是一个回顾性研究,具有所有普遍存在的局限性。其次,尽管人们普遍认为,准确的预测可以用来改善医疗保健,但这并不是一个必然的结论,并且需要进行前瞻性试验才能证明这一点。再次,个性化预测的一个必要的含义是,它们利用特定于特定EHR的许多小数据点而不是少数的通用变量。未来的研究需要确定在一个站点进行训练的模型如何才能最好地应用到另一个站点中,这对于那些历史数据有限从而难以对模型进行训练的站点来说尤其有用。作为第一步,我们证明了相同的训练算法为两个地理上不同的卫生系统产生了相似的模型,但是在这一点上还需要进行进一步的研究。最后,我们的方法在计算上非常密集,目前需要专门的专业知识才能够实施。然而,我们不得不承认,机器学习的可用性和可访问性正在医疗保健和其他领域迅速扩大。
也许在我们的研究中最具挑战性的预测是预测病人的全套出院诊断。这个预测之所以很困难,主要存在以下几个原因:首先,病人可能有1到228次诊断,并且在预测时这个数目是未知的。其次,每个诊断可能是从大约14025个ICD-9诊断代码中选择的,这使得可能的组合的总数呈指数级增长。最后,许多ICD-9代码在临床上相似但在数值上不同(例如,011.30“支气管结核,未指定”VS 011.31“支气管结核,细菌学或组织学检查未完成”)。这具有将随机误差引入预测的效果。对于我们的模型来说,当预测具有不止一个结果(例如,多重诊断)时所使用的作为度量指标的微F1评分,要高于具有少量病例的ICU数据集文献中所报道的那样。这是一个概念验证,证明可以从常规的EHR数据中推断出诊断,这可能有助于触发决策支持或临床试验招募。
使用自由文本(free text)进行预测还可以提高预测的可解释性。由于其不透明性,临床医生历来不相信神经网络模型。我们展示了我们的方法是如何对模型所“查看”的每个病人的数据进行可视化的,临床医生可以使用这些数据以确定一个预测是否是基于可信的事实,并可能有助于对行动进行决策。在我们的案例研究中,该模型确定了患者的病史和放射学结果的要素从而进行预测,这也是临床医师将要使用的关键数据点。这种方法也许能够解决这种“黑匣子”方法的担忧。然而,我们还需要进一步研究,从而确认这种方法的认知影响及其临床效用。
原文链接:
https://arxiv.org/pdf/1801.07860.pdf
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”