刚刚,顶级科学期刊英国《Nature》(自然)杂志发表了一份重磅、突破性研究论文。
北京时间 5 月 8 日 23 点,谷歌 DeepMind 和其英国子公司 Isomorphic Labs 联合团队在《自然》杂志上发表一份共 46 页的重要成果,联合发布全新 AI 蛋白质结构预测模型 AlphaFold 3,可准确预测生物分子相互作用的结构。
具体来说,新的 AlphaFold 3 拥有更强的生成式 AI 模型能力,效果全面提升。对于蛋白质与其他分子的相互作用,与现有预测方法相比,AlphaFold 3 改进了至少 50%;对于一些重要的相互作用领域,AlphaFold 3 预测精(准确)度提高一倍(100%),可准确预测蛋白质、DNA、RNA、配体等的结构以及它们如何相互作用,有望帮助人们治疗癌症、免疫性疾病等。
稍早前举行的沟通会上,本论文共同监督作者、谷歌 DeepMind 联合创始人、CEO 戴密斯·哈萨比斯(Demis Hassabis)对钛媒体 App 等表示,对于团队来说,AlphaFold 3 的发布是一个重要的“里程碑”,同时也是用 AI 技术“理解和建模生物学”道路上迈出的重要一步。
“相比此前研究,AlphaFold 3 不仅能够模拟蛋白质与其他分子的相互作用,而且还能准确预测包括 DNA、RNA、配体等生物分子结构以及它们如何相互作用,从而能改变我们对生物世界和药物发现的理解,这非常重要。这是我们和 Isomorphic 共同正在推进的事情。我们非常自豪地在《自然》杂志新论文中宣布这些新突破发现、新结果和新方法。”Demis Hassabis 表示。
关于 AlphaFold 3 的论文研究截图
六年超 180 万人的蛋白质数据库,AlphaFold 3 模型预测精准再提升一倍
AlphaFold 是由谷歌 DeepMind 开发的一款蛋白质结构预测程序,它采用 AI 和深度学习技术仅根据其基因序列就能预测蛋白质的 3D 结构,仅需数日内可识别蛋白质的形状,从而找到药物靶点,并有望推进产生新的小分子药物。
而在此之前,研发一款药物,通常需要数年时间、数亿美元的投入。
AlphaFold 1 于 2018 年发布,其在 CASP(蛋白质结构预测的关键评估)竞赛中成功预测了 43 种蛋白质中 25 种蛋白质的最精确结构,排名第一,并认为成功预测了最困难目标的蛋白质结构,引发全球的关注。
2020 年,全新 AlphaFold 2 发布,并同步推出 AlphaFold 数据库,涵盖了人类和 20 种常用模式生物的 35 万个蛋白质结构,并且对 98.5% 的人类蛋白质结构进行了准确预测。同时,超过 2.14 亿个预测中约有 35% 被认为是高度准确的,这意味着它们与实验确定的结构一样好,另外 45% 被认为对于许多应用来说足够准确。
2022 年 7 月,AlphaFold 2 全面升级,DeepMind 公司与欧洲生物信息研究所(EMBL-EBI)的合作团队宣布,基于 UniProt 数据库序列,AlphaFold 预测出约 100 万个物种的 2 亿多个蛋白质结构,几乎涵盖了所有科学已知的蛋白质。相关研究成果发表在《自然》杂志上。
据 Demis Hassabis 披露的一份官方数据显示,截止目前,AlphaFold 数据库用户已达 180 万人次,覆盖超 190 个国家,已查看的结构超 600 万次,论文和数据引用次数超过 20000 次。
谷歌 DeepMind 反复强调,通过减少缓慢而昂贵的实验的需求,AlphaFold 可能为研究界带来了数亿年的进步,并节省了数万亿美元。数百万研究人员全球范围内已经使用 AlphaFold 2 在疟疾疫苗、癌症治疗和酶设计等领域取得了发现。
参与沟通会议论文作者包括 Max Jaderberg、John Jumper、Julien Bergeron、Dhavanthi Hariharan 和 Josh Abramson,语音演讲是哈萨比斯(图片来源:钛媒体 App 编辑拍摄)
6 年后的今天,AlphaFold 3 终于来了。
此次公布的 AlphaFold 3,官方定义为一种由神经网络架构组成、拥有能够高精度预测包含蛋白质数据库(PDB) 中几乎所有分子类型复合物的“生成式 AI 模型”。
钛媒体 AGI 基于 DeepMind 联合发布这份关于 AlphaFold 3 的 46 页论文以及数十页的外部信息,梳理了 AlphaFold 3 模型训练数据、实施过程、评测结果以及商业化与生态四个层面,谈及新模型的重要亮点:
1、模型训练数据上,AlphaFold 3 模型根据蛋白质数据库中包含的世界分子结构数据进行训练,能够处理其中包含的 99% 以上的已知生物分子复合物。
2、实施过程层面,AlphaFold 3 基于具备三角注意力的自定义 Transformer 构建,允许科学家输入生物分子复合物的描述,能预测该生物分子复合物的 3D 结构,并使用扩散过程生成每个原子的单独 3D 坐标,输入到指定系统。输入后,AlphaFold 3 使用扩散网络处理其预测,类似于 AI 图像生成器中的网络。扩散过程从原子云开始,经过许多步骤汇聚成最终的、最准确的分子结构。
而这一模型的核心是 DeepMind 改进的 Evoformer 模块。AlphaFold 3 对分子相互作用的预测超过了所有现有系统的准确性。
据论文显示,据研究发现和使用过程看,AlphaFold 3 的结构预测模式有助于创建与目标蛋白有效结合的设计;同时,AlphaFold 3 提高了蛋白质-蛋白质界面的结构准确性,为设计新的治疗方式(例如抗体或其他治疗性蛋白质)提供了可能性;另外,通过观察靶标在其完整生物学背景下的结构以及与其他蛋白质结合伴侣、DNA、RNA 或配体辅因子的复合体,可以更深入地了解新靶标,团队相信这种新的药物靶点寻找方式,能够转化为临床上更有效的药物。
DeepMind 举了 AlphaFold 3 三个应用案例。
比如,整合膜蛋白层面,AlphaFold 3 正确预测了 PORCN 与 LGK974 和 WNT3A 肽的复合物,为该临床阶段分子 (PDB ID 7URD) 的抑制功能提供了结构原理;变构位点领域,PI5P4Kγ 是一种脂质激酶,与癌症和免疫性疾病有关,而 AlphaFold 3 正确预测新型抑制剂 (PDB ID 7QIE) 的新型变构结合模式;具有独特折叠的蛋白质领域,AlphaFold 3 能正确预测与底物结合的蛋白质复合物的新折叠模式。
3、评测结果。
据 PoseBusters 基准集显示,对于蛋白质与小分子的相互作用,即使不使用任何结构输入,AlphaFold 3 在 76% 的情况下成功了,而下一个最好的工具只有 52%,大大优于 Vina38、39 等经典对接工具,并且大大优于 RoseTTAFold All-Atom 等所有其他真正的盲对接工具;同时,对于蛋白质与 DNA 结合的准确性,AlphaFold 3 有 65% 的成功率,而目前的技术水平只有 28%。甚至 AlphaFold 3 还改进了蛋白质相互作用能力,当蛋白质与抗体复杂结合时,AlphaFold 3 的准确成功率达 62%,而其他系统只有 30%,比 AlphaFold 2 有约两倍的性能提升。
此外,对于蛋白质与其他分子的重要相互作用领域,AlphaFold 3 预测准确度提高一倍(100%)。
4、商业化和生态。
AlphaFold 3 可以模拟这些分子(蛋白质)物质,这些分子控制着细胞的健康功能,如果受到破坏,就会导致疾病,因此,AlphaFold 3 可以应用于从生物学、可再生材料、粮食作物、理解癌症、开发治疗、金融等多个场景领域。
Demis Hassabis 坦言,DeepMind 更多是做基础研究,以便将 AlphaFold 提供给所有学术机构、非商业用途等;而延误发现子公司 Isomorphic Labs 更多是做商业化,与化学方面的药物发现有关,以及与大型药企合作开发世纪的药物发现项目。
“未来,我们将通过 Isomorphic Labs 和内部研究计划,并与我们在 Isomorphic Labs 上的制药合作伙伴合作,进一步提高这些能力。”Demis Hassabis 表示。
构建免费学术生态的同时,AlphaFold 将解决 AI 药物发现的局限性
作为此次发布的一部分,DeepMind 还推出 AlphaFold 3 免费 AI 工具 AFServer,可供学术界免费使用,以构建 AlphaFold 生态。
DeepMind 高级研究科学家 John Jumper 表示,理解生物结构以及它们如何相互作用是一个非常困难的问题。此前实验室需要花费数十万美元、更多科学家也很难通过实验模拟解决,但 AI 能够解决此类问题,这是令人难以置信的进步,从而将“开启”许多新的科学发现。
Demis Hassabis 强调,AlphaFold 3 模型和数据库技术已经开始有一些应用场景,对于药物和化合物发现有巨大的推动作用。相对于传统过程,AlphaFold 至少快2、3 倍,且系统足够准确。
然而目前,AlphaFold 3 模型在立体化学、幻觉、动力学和某些目标的准确性等方面仍存在一定局限性。
美国科学院外籍院士、美国艺术与科学院外籍院士、中国科学院院士,中国医学科学院学部委员、深圳医学科学院创始院长、深圳湾实验室主任、清华大学讲席教授颜宁曾表示,AlphaFold 无法预测新的分子机构,预测出的结构其实只是达到其 2017 年的水平,缺乏专业训练新的数据库(database),无法像人一样实现不同构想和新工作机理,从而不能获得新的药物靶点。
颜宁强调,尽管看好 AI 技术的未来,但 AI 本身还是非常有局限性的,需要有更大的数据库、更强的算力、更新的算法,才能够让 AI 变成结构生物学的重要工具。
“对于小分子药物的相互作用,目前 AlphaFold2 的预测研究无能为力,短期内不看好 AI 取代实验,结构生物学的未来也不会是 AI。”颜宁称。
DeepMind 团队则在论文中指出,分子生物学的核心挑战是理解并最终调节生物系统复杂的原子相互作用。而 AlphaFold 3 模型朝这个方向迈出了一大步,证明可以在统一的框架中准确预测各种生物分子系统的结构。
“尽管在所有交互类型中实现高度准确的预测仍然存在重大挑战,但团队证明,可以构建一个深度学习系统,对所有这些交互显示出强大的覆盖范围和泛化能力;同时还证明,缺乏跨实体进化信息并不是预测这些相互作用取得进展的重大障碍;此外,AlphaFold 衍生方法能够对分子相互作用类别的化学和物理进行建模,而无需对 MSA 的依赖,而且蛋白质-配体结构预测的巨大改进表明,可以在通用深度学习框架内处理化学空间的广泛多样性,而无需人工分离蛋白质结构预测和配体对接。”DeepMind 团队称,开发正确的深度学习框架可以大幅减少获取生物学数据所需的数据量。
展望未来,DeepMind 研究人员在交流中表示,团队将继续埋头研究,从第一性原理出发,用 AI 解决化学、生物学中前沿技术问题,从而有助于改变人类设计下一代生物疗法方式,让科学家更多了解细胞系统的复杂性、结构、相互作用等,推动药物作用和研发等。
“虽然这是 AI 驱动生物学研究的重要时刻,但 AI 加速生物学的潜力是无限的。AlphaFold AI 模型的进一步发展,将加深人类对生物学和生命构建模块的理解,以实现我们最终目标——利用 AI 重构整个药物发现过程。”论文研究团队表示。
(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)
来自: 钛媒体