AI能否改变我们发现新药的方式?哈佛医学院团队开发AI驱动的药物发现平台

编辑 | 绿萝

世界人口老龄化、慢性病和传染病负担日益加重,迫切需要安全有效的药物来满足全球数十亿人的医疗需求。然而,发现一种新药并将其推向市场是一个漫长、艰巨且昂贵的过程。

长期以来,人工智能(AI)一直被认为能够克服这些障碍,因为它能够分析大量数据、发现模式和关系,并预测效果。但是,尽管 AI 具有巨大的潜力,但 AI 尚未兑现改变药物发现的承诺。

现在,由哈佛医学院生物医学信息学家 Marinka Zitnik 领导的一个多机构团队推出了一个平台,旨在通过开发更真实的数据集和更高保真度的算法,来优化 AI 驱动的药物发现。

Therapeutics Data Commons(TDC)——是一个开放访问平台,一方面充当计算机科学家和机器学习研究人员之间的桥梁,另一方面充当生物医学研究人员、生物化学家、临床研究人员和药物设计师之间的桥梁。

该平台相关文章以《Artifcial intelligence foundation for therapeutic science》为题,发布在《Nature Chemical Biology》 上。

42f7fcbd93001fe0cc9fddd05f428e80.png

论文链接:https://www.nature.com/articles/s41589-022-01131-2

坚实的基础,现代数据管理,人工智能基础设施

为了建立用于药物发现和开发的开放科学机器学习基础,该研究团队创建了 TDC,这是一种跨治疗模式和发现阶段访问和评估 AI 方法的资源。该平台在药物开发的所有阶段,从化合物鉴定到临床试验药物性能,为多种治疗方式(包括小分子药物、抗体以及细胞和基因疗法)提供数据集管理和算法设计以及性能评估。

TDC 的核心是 AI 可解决任务、AI 就绪数据集和精选基准的集合。到目前为止,TDC 包含 66 个 AI-ready 数据集,跨越总共 15,919,332 个数据点,分布在药物发现的 22 个问题上。TDC 中的任务和数据集涵盖了广泛的治疗产品(15 个小分子任务,包括药物反应和协同预测;8 个大分子任务,包括互补位和表位预测;2 个细胞和基因治疗任务,包括 CRISPR 修复预测)跨越发现的所有阶段(5 个目标发现任务,例如识别与疾病相关的治疗目标;13 个活动建模任务,例如量子力学能量预测;6 个药物功效和安全性任务,例如分子生成;和 4 个制造任务,如产量结果预测)。这些数据集包含多种生物和化学实体,包括 4,264,939 种化合物、34,314 种基因、3,656 种抗体、3,983 种抗原、59,951 种肽、225 种主要组织相容性复合物、7,095 种疾病、1,010 种细胞系、1,521 种向导 RNA、3,465 种 microRNA 和 1,994,623 种化学反应。TDC 中的数据集大小从 242 到 4,649,441 个数据点不等,表明需要 AI 能力在小型和大型数据集上学习。

79d40d92a30fe6719fced3fdc4b1cce5.png

图 1:Therapeutics Data Commons 概述。(来源:论文)

TDC 中的所有数据集都是 AI 就绪的,这意味着输入特征被处理成机器可读的格式,这样它们就可以直接用作训练 AI 模型的输入。TDC 被组织成一个三层的分层系统(图 2a),以提供集成资源并在新药物发现应用程序和数据可用时容纳它们(图 2b)。TDC 包含支持 AI 方法开发的数据处理和算法功能(图 2c)。它提供了五种策略,将数据集拆分为训练集以训练 AI 模型,验证集以选择模型超参数,测试集以评估模型性能并评估模型是否可以泛化到训练期间未见的数据点。此外,TDC 实施了 23 种性能评估策略,以相互比较不同的方法,了解它们的失败和成功,并评估预测是否可以推广到全新的场景。

b85a69cca72fc7b8e1debdb029c4910b.png

图 2:TDC 中的 AI 就绪数据集、机器学习任务和基准。(来源:论文)

令人信服的应用

跨学科的研究人员可以将 TDC 用于众多应用。例如,负责先导化合物优化的生物化学家可以使用 TDC 中的模型,通过提高有效性、降低毒性或增加初始先导化合物的吸收来寻找有前途的化合物。或者,再举一个例子,生物学家将进行高通量虚拟筛选,以在大型搜索空间中找到与目标蛋白质具有亲和力的高性能化合物。TDC 还为分子对接提供了 oracles,可以指导生成模型探索与初始化学库中研究的不同的化学空间,从而生成结构多样的化合物,这些化合物可合成并可能与 DRD3 治疗靶点结合。此外,使用大规模计算方法可以实现高级应用,TDC 为其提供了文档和教程。

c58d62298d5cf6088d8acb58c245d661.png

图 3 :TDC 的示例用例。

打破治疗科学的障碍

TDC 为药物发现中的 AI 提供基准、方法实施和实施策略。它可以帮助提高可重复性并限制误解结论和误用工具的可能性。

实现人工智能在治疗科学中的广泛应用需要协调一致的社区倡议,以赢得不同科学家群体的信任。TDC 在生化和 AI 科学家之间建立了一个交汇点。这使得从不同的角度和跨越传统界限和多个学科的各种思维方式来看待人工智能成为可能。

TDC 中的资源被集成到一个开源软件包中,该软件包实现了分析和高效检索数据集的功能,并提供对 TDC 的编程访问。TDC 不断更新来自社区的贡献,可在 https://tdcommons.ai 获得。

Marinka Zitnik 将这个平台概念化,现在与麻省理工学院、斯坦福大学、卡内基梅隆大学、佐治亚理工学院、伊利诺伊大学香槟分校和康奈尔大学的研究人员合作领导这项工作。

最近,Zitnik 与 HMNews 讨论了 TDC 平台。

药物发现的主要挑战是什么?人工智能如何帮助解决这些挑战?

Zitnik:从头开发一种既安全又有效的药物极具挑战性。平均而言,这需要 11~16 年的时间和 10 ~20 亿美元的资金。这是为什么?

很难及早弄清楚一种最初有希望的化合物在人类患者身上产生的结果是否与它在实验室中显示的结果一致。小分子化合物的数量是 10 的 60 次方——但在这个天文数字般巨大的化学空间中,只有一小部分被研究用于具有药用特性的分子。尽管如此,现有疗法对治疗疾病的影响令人震惊。我们相信,结合自动化和新数据集的新算法可以找到更多可以转化为改善人类健康的分子。

人工智能算法可以帮助我们确定这些分子中哪些最有可能成为安全有效的人类疗法。这是药物发现开发面临的最终问题。我们的愿景是,机器学习模型可以帮助筛选和整合大量生化数据,我们可以将这些数据更直接地与分子和遗传信息联系起来,并最终实现个性化的患者治疗结果。

人工智能离实现这一承诺还有多远?

Zitnik:我们还没到那一步。有很多挑战,但我想说,最大的挑战是了解我们当前算法的工作情况,以及它们的性能是否可以转化为现实问题。

当我们通过计算机建模评估新的 AI 模型时,我们是在基准数据集上测试它们。我们越来越多地在出版物中看到这些模型正在实现近乎完美的准确性。如果是这样,为什么我们没有看到机器学习在药物发现中得到广泛应用?

这是因为在基准数据集上表现良好与准备好过渡到生物医学或临床环境中的实际实施之间存在很大差距。训练和测试这些模型所依据的数据并不能表明这些模型在实际应用中所面临的挑战类型,因此缩小这一差距非常重要。

Therapeutics Data Commons 平台从何而来?

Zitnik:Therapeutics Data Commons 的目标正是要解决这些挑战。它作为一端的机器学习社区和另一端的生物医学社区之间的交汇点。它可以帮助机器学习社区进行算法创新,并使这些模型更易于转化为现实场景。

你能解释一下它是如何运作的吗?

Zitnik:首先,药物发现的过程跨越了整个过程,从基于化学和化学生物学数据的最初药物设计,到基于动物研究数据的临床前研究,一直到针对人类患者的临床研究。作为平台的一部分,我们训练和评估的机器学习模型使用不同类型的数据来支持所有这些不同阶段的开发过程。

例如,支持小分子药物设计的机器学习模型通常依赖于分子图的大数据集——化合物的结构及其分子特性。这些模型在已知的化学空间中寻找模式,这些模型将化学结构的一部分与药物安全性和有效性所必需的化学特性联系起来。

一旦训练了 AI 模型以识别已知化学品子集中的这些指示模式,就可以对其进行部署,并可以在尚未测试的化学品的大量数据集中寻找相同的模式,并预测这些化学品的性能。

为了设计有助于后期药物发现的模型,我们使用动物研究的数据对它们进行训练。这些模型经过训练以寻找将生物数据与人类可能的临床结果相关联的模式。

我们还可以询问一个模型是否可以在与患者信息相关的化合物中寻找分子特征,以确定哪个患者子集最有可能对化合物产生反应。

谁是这个平台的贡献者和最终用户?

Zitnik:我们有一个由学生、科学家和专家志愿者组成的团队,他们来自合作大学和行业界,包括波士顿地区的小型初创企业以及美国和欧洲的一些大型制药公司。计算机科学家和生物医学研究人员以最先进的机器学习模型,和经过预处理和精选数据集的形式贡献他们的专业知识,这些数据集以可以发布并可供他人使用的方式标准化。

因此,该平台包含可供分析的数据集和机器学习算法,以及告诉我们机器学习模型在特定数据集上的表现如何的可靠度量。

我们的最终用户是来自世界各地的研究人员。我们组织网络研讨会来展示任何新功能、接收反馈并回答问题。我们提供教程。这种持续的培训和反馈非常重要。

我们每个月有 4,000 到 5,000 名活跃用户,其中大部分来自美国、欧洲和亚洲。总体而言,我们的机器学习算法/数据集包的下载量已超过 65,000 次。我们已经看到超过 160,000 次协调、标准化数据集的下载。人数在增加,我们希望他们会继续增加。

Therapeutics Data Commons 的长期目标是什么?

Zitnik:我们的使命是在两个方面支持 AI 药物发现。首先,在从化合物识别、药物设计到临床研究的药物发现和开发的所有阶段,对机器学习方法进行设计和测试。

其次,支持跨多种治疗方式设计和验证机器学习算法,尤其是较新的治疗方式,包括生物制品、疫苗、抗体、mRNA 药物、蛋白质疗法和基因疗法。

机器学习有巨大的机会为这些新疗法做出贡献,我们还没有看到人工智能在这些领域的使用达到我们在小分子研究中看到的程度,而今天的重点是小分子研究。这种差距主要是由于缺乏用于这些新型治疗方式的标准化 AI 就绪数据集,我们希望通过 Therapeutics Data Commons 解决这个问题。

是什么激发了您对这项工作的兴趣?

Zitnik:我一直对理解和建模复杂系统之间的交互很感兴趣,复杂系统是具有多个组件的系统,这些组件以非依赖的方式相互交互。事实证明,根据定义,治疗科学中的许多问题正是这样的复杂系统。

我们有一个蛋白质目标,它是一个复杂的三维结构,我们有一个小分子化合物,它是原子和这些原子之间键的复杂图形,然后我们有一个病人,其描述和健康状况以多尺度表示的形式给出。这是一个典型的复杂系统问题,我真的很喜欢寻找标准化和“驯服”这些复杂交互的方法。

治疗科学充满了可以从机器学习中受益的成熟问题。这就是我们所追求的。

参考内容:https://phys.org/news/2022-11-ai-drugs.html

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

城市大脑的基本原理与战略意义分析

本文发布于2022年10月中国指挥与控制学会会刊作者:刘锋城市大脑是21世纪以互联网为核心的世界数字生态向类脑结构演化并与智慧城市结合的产物,世界统一的数字神经元将人、物、系统和组织有机的结合在一起实现万物互联,云反射弧机制实现数字神…

“史上最贵”世界杯,暗藏哪些传感器黑科技?

来源:综合来源:科技日报、IDG资本、中国日报双语新闻、感知芯视界等编辑:感知芯视界2022年卡塔尔世界杯(FIFA World Cup Qatar 2022)是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国家境内举行、也是继2002年韩日世界杯之…

刘庆生:学术需要批判氛围

来源:刘庆生科学网博客链接地址:https://blog.sciencenet.cn/blog-673617-1364620.html作者:刘庆生(中国地质大学)最近在抖音上看了复旦大学特聘教授张汝伦的一个短视频。他在视频中提到,上海电视台采访一位…

斯蒂芬·沃尔夫勒姆 | 圣塔菲研究所的初创故事

来源:集智俱乐部 作者:斯蒂芬沃尔夫勒姆 数学家、物理学家、计算机科学家导语:圣塔菲研究所被誉为复杂性科学的圣地,被称为“没有围墙的研究所”,那么它是如何创建发展起来的呢?2019 年,为了纪…

为什么地球的生物都是碳基生命?科学家:大自然环境选择的结果

来源:科学的乐园地球是一个有着多达数百万种生物形式的生命世界,不管这些物种的外形有多大的差异,也不管是植物还是动物,它们都有一个共同的本质,都是碳基生命。可能有朋友会说了,生命体内最多的物质不是氧…

台积电1nm,有新进展

来源:万物智能视界中国台湾地区行政院副院长沈荣津昨日接受本台媒专访时表示,台积电1纳米新厂将落脚桃园龙潭,台积电大本营在新竹科学园区,若真的想要超前部署台湾半导体先进制程,就近选择龙潭科学园区是最理想之处&am…

除了作画、写歌、写文章,AI大模型还能帮我们做什么?

来源:AI前线随着技术的发展,AI 已经在金融、医疗、智慧城市等多个场景实现了技术落地,人们也可以将时间和精力,投入到更具有挑战性和创造性的工作中。今年,在极其需要创造力的绘画领域,随着大模型技术的不断…

最近,人工智能推进了数学研究的进程,揭示了矩阵乘法的新可能性

来源:今日头条(逻辑黑洞)当试图找到最有效的方法时,甚至像矩阵乘法这样抽象的事情也会像游戏一样。这有点像用尽可能少的步骤来解魔方。对于矩阵乘法,即使在相对简单的情况下,每一步都可以有超过10^12个选项…

钱学森:论技术科学

来源:远望智库预见未来论技术科学钱学森本文原刊载于1957年《科学通报》第3期一、科学的历史发展与技术科学概念的形成在人们从事生产的过程中,他们必然地累积了许多对自然界事物的经验。这些经验可以直接应用到生产上去,也可以先通过分析、整…

从量子到星空:混沌世界的隐藏秩序

导语1963年,洛伦兹用蝴蝶效应形象地展现出了混沌的魅力:亚马逊热带雨林中的一只蝴蝶偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。正所谓“失之毫厘,谬以千里”,混沌理论告诉我们,即使…

OpenFold更多细节公开:重新训练AlphaFold2对其学习机制和泛化能力产生新见解

编辑 | 萝卜皮AlphaFold2 彻底改变了结构生物学,能够以极高的准确性预测蛋白质结构。然而,它的实现缺乏训练新模型所需的代码和数据。这些对于解决新任务是必要的,例如蛋白质-配体复杂结构预测;可用于调查模型学习的过程&#xff…

李德毅院士:迭代的智能——从薛定谔、图灵和维纳谈开去

来源:图灵人工智能报告人:李德毅院士主持人:戴琼海院士报告时间:2022年11月24日(周四)19:30-21:00主办单位:北京信息科学与技术国家研究中心未来智能实验室的主要工作包括:建立AI智能…

未来产业最新动向及趋势展望

来源:赛迪智库、《赛迪前瞻》2022年第52期作者:彭健,无线电管理研究所副所长;滕学强 未来产业是代表未来科技和产业发展新方向且具有前瞻性和先导性的产业,市场潜力大、带动作用强,前瞻谋划未来产业已是大势…

AI都会和人类谈判了?Meta AI最新研究登上Science,LeCun称里程碑式成果

来源:明敏 羿阁 发自 凹非寺量子位 | 公众号 QbitAIAI都学会和人类谈判了?还能成功说服人类听它安排?话术一流到人类完全分辨不出它是AI。这就是Meta AI的最新成果——AI模型CICERO(西塞罗),现已登上Scienc…

我在 MIT 人工智能研究实验室工作一年学到的

来源:AI科技评论Mike Ferguson ,麻省理工学院大脑和认知科学系 (MIT BCS) 担任研究软件工程师/ML工程师。专门研究 Brain-Score(一种衡量类脑 AI 的工具)。他于 2021 年春季毕业于弗吉尼亚大学,获得计算机科学和应用数…

《科学》重磅:首次实现监测多种神经元间实时毫秒级互动!

*仅供医学专业人士阅读参考大脑的复杂之处在于众多神经元之间的协同作用,若能在同一时间显示不同神经元群体的电活动,那么将大大加深我们对于大脑功能的理解。基因编码的电压指示蛋白(GEVI)是一类在细胞膜电位变化后产生可检测信号…

冯·诺依曼的遗产:寻找人工生命的理论根源

来源:集智俱乐部 作者:东方和尚现在的人工智能研究如火如荼。然而,尽管AlphaGo Zero早已经秒杀人类智慧,但它却是冷冰冰、无生命的机器,因为它缺少一颗热血沸腾的“心”。当我们看到小虫子沿着崎岖的路面爬向食物&…

AI好奇心,不只害死猫!MIT强化学习新算法,智能体这回「难易通吃」

来源:新智元编辑:David【新智元导读】MIT强化学习新算法,根据监督稀疏程度自动调整AI智能体「好奇心」,高低难度任务通吃。人人都遇见过一个古老的难题。周五晚上,你正试图挑选一家餐厅吃饭,但没有预定。你…

2022,青年科学家最关注的基础研究是什么?

来源:科学网编辑:方圆排版:李言文:韩扬眉科学问题,起初由科学家提出,最终被科学家突破,才是一个完美的探索闭环。11月27日,“十大基础研究关键词”在2022年“青年科学家502论坛”上公…

地球能够调控自己的温度,但是……

来源:公众号“原理”地球的历史并非一帆风顺,比如,地球气候曾经历过一些巨大的变化,从全球火山活动,到全球降温的冰期,还有太阳辐射的明显波动。然而,在过去37亿年里,生命的故事却未…