编辑 | 绿萝
世界人口老龄化、慢性病和传染病负担日益加重,迫切需要安全有效的药物来满足全球数十亿人的医疗需求。然而,发现一种新药并将其推向市场是一个漫长、艰巨且昂贵的过程。
长期以来,人工智能(AI)一直被认为能够克服这些障碍,因为它能够分析大量数据、发现模式和关系,并预测效果。但是,尽管 AI 具有巨大的潜力,但 AI 尚未兑现改变药物发现的承诺。
现在,由哈佛医学院生物医学信息学家 Marinka Zitnik 领导的一个多机构团队推出了一个平台,旨在通过开发更真实的数据集和更高保真度的算法,来优化 AI 驱动的药物发现。
Therapeutics Data Commons(TDC)——是一个开放访问平台,一方面充当计算机科学家和机器学习研究人员之间的桥梁,另一方面充当生物医学研究人员、生物化学家、临床研究人员和药物设计师之间的桥梁。
该平台相关文章以《Artifcial intelligence foundation for therapeutic science》为题,发布在《Nature Chemical Biology》 上。
论文链接:https://www.nature.com/articles/s41589-022-01131-2
坚实的基础,现代数据管理,人工智能基础设施
为了建立用于药物发现和开发的开放科学机器学习基础,该研究团队创建了 TDC,这是一种跨治疗模式和发现阶段访问和评估 AI 方法的资源。该平台在药物开发的所有阶段,从化合物鉴定到临床试验药物性能,为多种治疗方式(包括小分子药物、抗体以及细胞和基因疗法)提供数据集管理和算法设计以及性能评估。
TDC 的核心是 AI 可解决任务、AI 就绪数据集和精选基准的集合。到目前为止,TDC 包含 66 个 AI-ready 数据集,跨越总共 15,919,332 个数据点,分布在药物发现的 22 个问题上。TDC 中的任务和数据集涵盖了广泛的治疗产品(15 个小分子任务,包括药物反应和协同预测;8 个大分子任务,包括互补位和表位预测;2 个细胞和基因治疗任务,包括 CRISPR 修复预测)跨越发现的所有阶段(5 个目标发现任务,例如识别与疾病相关的治疗目标;13 个活动建模任务,例如量子力学能量预测;6 个药物功效和安全性任务,例如分子生成;和 4 个制造任务,如产量结果预测)。这些数据集包含多种生物和化学实体,包括 4,264,939 种化合物、34,314 种基因、3,656 种抗体、3,983 种抗原、59,951 种肽、225 种主要组织相容性复合物、7,095 种疾病、1,010 种细胞系、1,521 种向导 RNA、3,465 种 microRNA 和 1,994,623 种化学反应。TDC 中的数据集大小从 242 到 4,649,441 个数据点不等,表明需要 AI 能力在小型和大型数据集上学习。
图 1:Therapeutics Data Commons 概述。(来源:论文)
TDC 中的所有数据集都是 AI 就绪的,这意味着输入特征被处理成机器可读的格式,这样它们就可以直接用作训练 AI 模型的输入。TDC 被组织成一个三层的分层系统(图 2a),以提供集成资源并在新药物发现应用程序和数据可用时容纳它们(图 2b)。TDC 包含支持 AI 方法开发的数据处理和算法功能(图 2c)。它提供了五种策略,将数据集拆分为训练集以训练 AI 模型,验证集以选择模型超参数,测试集以评估模型性能并评估模型是否可以泛化到训练期间未见的数据点。此外,TDC 实施了 23 种性能评估策略,以相互比较不同的方法,了解它们的失败和成功,并评估预测是否可以推广到全新的场景。
图 2:TDC 中的 AI 就绪数据集、机器学习任务和基准。(来源:论文)
令人信服的应用
跨学科的研究人员可以将 TDC 用于众多应用。例如,负责先导化合物优化的生物化学家可以使用 TDC 中的模型,通过提高有效性、降低毒性或增加初始先导化合物的吸收来寻找有前途的化合物。或者,再举一个例子,生物学家将进行高通量虚拟筛选,以在大型搜索空间中找到与目标蛋白质具有亲和力的高性能化合物。TDC 还为分子对接提供了 oracles,可以指导生成模型探索与初始化学库中研究的不同的化学空间,从而生成结构多样的化合物,这些化合物可合成并可能与 DRD3 治疗靶点结合。此外,使用大规模计算方法可以实现高级应用,TDC 为其提供了文档和教程。
图 3 :TDC 的示例用例。
打破治疗科学的障碍
TDC 为药物发现中的 AI 提供基准、方法实施和实施策略。它可以帮助提高可重复性并限制误解结论和误用工具的可能性。
实现人工智能在治疗科学中的广泛应用需要协调一致的社区倡议,以赢得不同科学家群体的信任。TDC 在生化和 AI 科学家之间建立了一个交汇点。这使得从不同的角度和跨越传统界限和多个学科的各种思维方式来看待人工智能成为可能。
TDC 中的资源被集成到一个开源软件包中,该软件包实现了分析和高效检索数据集的功能,并提供对 TDC 的编程访问。TDC 不断更新来自社区的贡献,可在 https://tdcommons.ai 获得。
Marinka Zitnik 将这个平台概念化,现在与麻省理工学院、斯坦福大学、卡内基梅隆大学、佐治亚理工学院、伊利诺伊大学香槟分校和康奈尔大学的研究人员合作领导这项工作。
最近,Zitnik 与 HMNews 讨论了 TDC 平台。
药物发现的主要挑战是什么?人工智能如何帮助解决这些挑战?
Zitnik:从头开发一种既安全又有效的药物极具挑战性。平均而言,这需要 11~16 年的时间和 10 ~20 亿美元的资金。这是为什么?
很难及早弄清楚一种最初有希望的化合物在人类患者身上产生的结果是否与它在实验室中显示的结果一致。小分子化合物的数量是 10 的 60 次方——但在这个天文数字般巨大的化学空间中,只有一小部分被研究用于具有药用特性的分子。尽管如此,现有疗法对治疗疾病的影响令人震惊。我们相信,结合自动化和新数据集的新算法可以找到更多可以转化为改善人类健康的分子。
人工智能算法可以帮助我们确定这些分子中哪些最有可能成为安全有效的人类疗法。这是药物发现开发面临的最终问题。我们的愿景是,机器学习模型可以帮助筛选和整合大量生化数据,我们可以将这些数据更直接地与分子和遗传信息联系起来,并最终实现个性化的患者治疗结果。
人工智能离实现这一承诺还有多远?
Zitnik:我们还没到那一步。有很多挑战,但我想说,最大的挑战是了解我们当前算法的工作情况,以及它们的性能是否可以转化为现实问题。
当我们通过计算机建模评估新的 AI 模型时,我们是在基准数据集上测试它们。我们越来越多地在出版物中看到这些模型正在实现近乎完美的准确性。如果是这样,为什么我们没有看到机器学习在药物发现中得到广泛应用?
这是因为在基准数据集上表现良好与准备好过渡到生物医学或临床环境中的实际实施之间存在很大差距。训练和测试这些模型所依据的数据并不能表明这些模型在实际应用中所面临的挑战类型,因此缩小这一差距非常重要。
Therapeutics Data Commons 平台从何而来?
Zitnik:Therapeutics Data Commons 的目标正是要解决这些挑战。它作为一端的机器学习社区和另一端的生物医学社区之间的交汇点。它可以帮助机器学习社区进行算法创新,并使这些模型更易于转化为现实场景。
你能解释一下它是如何运作的吗?
Zitnik:首先,药物发现的过程跨越了整个过程,从基于化学和化学生物学数据的最初药物设计,到基于动物研究数据的临床前研究,一直到针对人类患者的临床研究。作为平台的一部分,我们训练和评估的机器学习模型使用不同类型的数据来支持所有这些不同阶段的开发过程。
例如,支持小分子药物设计的机器学习模型通常依赖于分子图的大数据集——化合物的结构及其分子特性。这些模型在已知的化学空间中寻找模式,这些模型将化学结构的一部分与药物安全性和有效性所必需的化学特性联系起来。
一旦训练了 AI 模型以识别已知化学品子集中的这些指示模式,就可以对其进行部署,并可以在尚未测试的化学品的大量数据集中寻找相同的模式,并预测这些化学品的性能。
为了设计有助于后期药物发现的模型,我们使用动物研究的数据对它们进行训练。这些模型经过训练以寻找将生物数据与人类可能的临床结果相关联的模式。
我们还可以询问一个模型是否可以在与患者信息相关的化合物中寻找分子特征,以确定哪个患者子集最有可能对化合物产生反应。
谁是这个平台的贡献者和最终用户?
Zitnik:我们有一个由学生、科学家和专家志愿者组成的团队,他们来自合作大学和行业界,包括波士顿地区的小型初创企业以及美国和欧洲的一些大型制药公司。计算机科学家和生物医学研究人员以最先进的机器学习模型,和经过预处理和精选数据集的形式贡献他们的专业知识,这些数据集以可以发布并可供他人使用的方式标准化。
因此,该平台包含可供分析的数据集和机器学习算法,以及告诉我们机器学习模型在特定数据集上的表现如何的可靠度量。
我们的最终用户是来自世界各地的研究人员。我们组织网络研讨会来展示任何新功能、接收反馈并回答问题。我们提供教程。这种持续的培训和反馈非常重要。
我们每个月有 4,000 到 5,000 名活跃用户,其中大部分来自美国、欧洲和亚洲。总体而言,我们的机器学习算法/数据集包的下载量已超过 65,000 次。我们已经看到超过 160,000 次协调、标准化数据集的下载。人数在增加,我们希望他们会继续增加。
Therapeutics Data Commons 的长期目标是什么?
Zitnik:我们的使命是在两个方面支持 AI 药物发现。首先,在从化合物识别、药物设计到临床研究的药物发现和开发的所有阶段,对机器学习方法进行设计和测试。
其次,支持跨多种治疗方式设计和验证机器学习算法,尤其是较新的治疗方式,包括生物制品、疫苗、抗体、mRNA 药物、蛋白质疗法和基因疗法。
机器学习有巨大的机会为这些新疗法做出贡献,我们还没有看到人工智能在这些领域的使用达到我们在小分子研究中看到的程度,而今天的重点是小分子研究。这种差距主要是由于缺乏用于这些新型治疗方式的标准化 AI 就绪数据集,我们希望通过 Therapeutics Data Commons 解决这个问题。
是什么激发了您对这项工作的兴趣?
Zitnik:我一直对理解和建模复杂系统之间的交互很感兴趣,复杂系统是具有多个组件的系统,这些组件以非依赖的方式相互交互。事实证明,根据定义,治疗科学中的许多问题正是这样的复杂系统。
我们有一个蛋白质目标,它是一个复杂的三维结构,我们有一个小分子化合物,它是原子和这些原子之间键的复杂图形,然后我们有一个病人,其描述和健康状况以多尺度表示的形式给出。这是一个典型的复杂系统问题,我真的很喜欢寻找标准化和“驯服”这些复杂交互的方法。
治疗科学充满了可以从机器学习中受益的成熟问题。这就是我们所追求的。
参考内容:https://phys.org/news/2022-11-ai-drugs.html
人工智能 × [ 生物 神经科学 数学 物理 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。