PNAS | 蛋白质结构预测屈服于机器学习

今天为大家介绍的是来自James E. Rothman的一篇短文。今年的阿尔伯特·拉斯克基础医学研究奖表彰了AlphaFold的发明,这是蛋白质研究历史上的一项革命性进展,首次提供了凭借序列信息就能够准确预测绝大多数蛋白质的三维氨基酸排列的实际能力。这一非凡的成就是由Demis Hassabis、John Jumper以及他们在Google DeepMind和其他合作者的同事们共同取得的,它建立在几十年的实验性蛋白质结构确定(结构生物学)和多种融合生物启发的统计方法的渐进发展基础之上。但是,当Jumper和Hassabis将创新的基于神经网络的机器学习方法融入其中时,结果引起了轰动。实现半个世纪以来的蛋白质结构预测梦想已经加速了化学、生物学和医学等多个领域的进展和创新。

2c19c65684a8e795e4ee0f57abb89a14.png

蛋白质

在1838年,荷兰化学家G. J. Mulder创造了一个科学术语——蛋白质,这个术语被选得再合适不过。它源自希腊词汇"prōteios",意味着"第一等级"。蛋白质在接下来的六十年中一直没有明确定义,直到逐渐(从1900年到1965年)揭示出所有蛋白质都是由20种基本氨基酸组成的多肽链,其序列由遗传密码规定,并且能够折叠成独特的结构(构象),这些结构决定了它们的化学性质,从而影响生物功能。毫无疑问,蛋白质是"第一等级"的,因为细胞内几乎没有不涉及它们的生物过程。

27f2cd88da327e112cdf8610795e56d9.png
图 1

到了20世纪60年代,了解蛋白质如何折叠成独特的结构成为生物学的一个核心问题,人们期望能够预测蛋白质的结构将带来重大的益处。早期就已认识到,每个多肽链理论上可以假定有着天文数字级的可能构象,其中绝大多数会导致聚集和沉淀。然后在1961年,使用小型分泌酶核酸酶,Anfinsen证明了最简单的可能性成立——氨基酸序列本身可以决定链的折叠方式,而在这个过程中不需要额外的遗传信息。这一关键性实验将蛋白质折叠重新定义为物理问题,其简单思想是折叠状态是多肽链的最低可访问能量状态。但是,相应能量景观的极端复杂性,有许多局部能量井来捕获折叠中间体(图1),使得直接计算甚至模拟在除了最简单的情况以外几乎是棘手的,即使在计算能力呈指数增长的时期也是如此。

到了1990年,人们明白了生物细胞中的蛋白质折叠更加复杂,需要编码分子伴侣的基因。实际上,在高度进化的有机体中普遍存在的多域和多亚基蛋白质通常不会在Anfinsen风格的实验中高效或迅速地重新折叠。这绝不否定Anfinsen的核心思想,即最终的构象完全由多肽链的物理性质决定。但是,分子伴侣作为催化剂促进蛋白质折叠的发现是细胞生物学的一个基本进展。分子伴侣蛋白质本质上是ATP酶,通过将ATP水解的能量引导到折叠多肽链的能量陷阱中,"踢"出折叠多肽链,或者在首次避免这些陷阱(图1)中,同时屏蔽疏水侧链以防止聚集。通过这样做,分子伴侣蛋白质通过加速跨越能量景观的运动来催化折叠的整个过程。

结构预测

随着逐渐明显的趋势,直接的、仅基于物理的方法在没有像量子计算那样的革命性突破的情况下最终无法达到原子级的准确性,到了2010年左右,研究人员开始转向受生物启发的统计方法。其中一个基础性思想是,即使在氨基酸序列中它们彼此距离很远,但在折叠结构中物理上接触的氨基酸将以相关的方式在进化中变化。这些思想被纳入同源蛋白质的多序列比对(MSAs)中,这对所有预测算法都至关重要,包括AlphaFold。另一个基础性的统计概念涉及结构模板。除了同源序列,同源的三维结构也可以作为直接的蛋白质结构预测的起点。最初,基于模板的预测是主导方法,但协同进化方法在早期的2000年代,DNA序列的信息迅猛增长超越了蛋白质结构,于是占据了主导地位。在过去的10年中,随着冷冻电镜结构测定的出现,绕过了晶化的瓶颈,研究人员又开始关注蛋白质结构。

最重要的因素被证明是机器学习,它使得来自MSAs和模板以及其他数据的信息能够更加高效地被利用。尽管MSAs和模板的信息可以在单独的流程中使用,但它们也可以以交互方式同时使用。这基本上是像AlphaFold这样的"神经网络"系统在从数据中学习最佳的组合方式时所做的。为了客观评估进展,折叠研究领域建立了一个两年一次的比赛,即蛋白质结构预测的关键评估(CASP),该比赛测量了针对当时尚未公开的实验确定的结构的竞争方法的比较准确性。DeepMind团队在第13届会议中首次亮相,并且引起了广泛关注,他们的AlphaFold(版本1)在96个竞争对手中表现出色,但仍然远未达到原子级的预测准确性。他们的算法为43个测试蛋白质中的25个生成了最佳结构。

然而,Hassabis知道这还不够好。他们首先尝试将AlphaFold1推向极限。大约在CASP13后的六个月后,意识到它无法达到我们想要的原子级准确性,无法真正解决问题,也无法对实验学家和生物学家有所帮助。因此做出了我们需要重新开始的决定...但在那之后的大约六个月到一年内,情况变得更糟,而不是更好。AlphaFold2系统(早期版本)比AlphaFold1差得多。在准确性方面似乎退步是非常可怕的时期。John Jumper于2017年加入了DeepMind,担任研究科学家,他及时为CASP13/AlphaFold1项目提供了一些新的想法,这些想法后来成熟为AlphaFold2。Hassabis显然对Jumper印象深刻,并在2018年7月提拔他为AlphaFold2的负责人。Hassabis认识到Jumper在蛋白质物理学和机器学习领域的跨学科背景的重要性。至关重要的是,他们共享一个大胆的信念,即在AlphaFold2性能不断恶化的情况下,仍然可以解决预测问题(即准确性可以达到基因组尺度的1埃)。

最终,Jumper和Hassabis带领他们的团队进行了完全的系统重构,包括许多创新。描述这些方法的《自然》论文长达约60页。尽管这篇2021年8月的发表是一个重要的里程碑,但关键事件实际上发生在一年前,当所有参赛者提交了他们的结果给CASP14竞赛(2020年5月至7月)。当结果揭晓时(2020年12月),结构生物学界感到震惊。AlphaFold2远远超越了所有竞争对手,将预测提升到了原子级准确度,实现了飞跃。

为什么AlphaFold可行

415f7cb30093bb98337880e69e998cce.png
图 2

尽管AlphaFold神经网络是由人类设计的,就像人脑一样,我们可能永远无法完全理解它。AlphaFold是一种工程产品,其内部解剖结构是完全明确的(图2)。理解它究竟如何工作,就成了一个独立的科学问题。在神经科学中,经典的方法是消融,字面意思是去除大脑的一部分,或更微妙地切断连接,甚至更微妙的是在细胞层面引入光遗传损伤,或者在人类情况下观察与病变相关的功能缺陷。Jumper、Hassabis和他们的团队进行了系统性的计算消融研究,明确证明了各种不同的机制以一种在很大程度上合并到整体的方式起作用。

设计中的一个基本机制是机器学习的人工神经网络,它捕捉了长程和短程相互作用,与以前的算法不同,以前的算法通常只考虑了局部或成对的相互作用,部分通过考虑多肽链几何结构的基本特征来实现。迭代细化的使用类似于人脑的工作方式,是其另一个核心概念。其他关键特征包括一个新的架构,用于联合嵌入MSAs和成对特征;一个新的输出表示和相关的损失,可以实现准确的端到端预测;使用中间损失来实现迭代细化;以及涉及自我蒸馏的新的培训程序。该网络分为两个主要阶段(图2)。首先,网络的主干通过重复使用称为Evoformer的新型网络块来处理输入,最终表示经过处理的MSAs和残基对,并包含基于注意力的组件。消融研究表明,在Evoformer中形成了一个具体的结构假设,并不断更新。Jumper和Hassabis在他们的论文中解释说,Evoformer中的关键创新包括在MSA和对表示之间交换信息的新机制,这使得可以直接推断空间和进化关系。这些更新本质上创建了预测结构收敛到正确解的轨迹,并可以视为在明确的分子动力学或蒙特卡洛模拟中的“动作”。其次,主干后面是结构模块,它以每个残基的坐标形式生成3D结构。随着每次迭代,这些结构迅速发展并细化,形成了具有原子细节的高度准确的蛋白质结构。关键的创新包括分解链结构,以允许对结构的所有部分进行同时细化,从而可能提供一种避免地景上多个能量陷阱(图1)的机制。

该网络是从开放获取的蛋白质数据银行(PDB)中进行训练的,这实际上是几代结构生物学家的努力累积而成。PDB目前包含约200,000个独特的蛋白质结构和相关序列,主要来自X射线晶体学和最近的冷冻电镜技术。然后,训练好的网络被用来预测另一个重要的公共库(Uniclust30)中约350,000个不同序列的结构。最后,使用混合PDB数据和预测结构数据集作为训练数据,从头开始训练了新的AlphaFold网络。这种自我蒸馏过程鼓励网络利用未伴随结构的序列数据,并观察到总体准确性的提高。

从GO开始

Hassabis和Jumper的成功展示了当两个领域融合时释放出的创造性能量。Demis Hassabis出生在英国伦敦,有希腊塞浦路斯和新加坡华人的血统,他是一个官方认可的神童,13岁时已经是公认的国际象棋大师,可以与成年人比赛。17岁时,他加入了Bullfrog Productions公司,在那里设计了畅销游戏《主题公园》等游戏。然后,他进入剑桥大学,在那里学习计算机科学和数学,并从生物学专业的朋友口中第一次听说了蛋白质折叠问题。毕业后(1997年),他加入了Lionhead Studios,然后创办了自己成功的公司Elixir Studios。"我一直在思考和致力于通用人工智能,甚至在大学时也是如此。我倾向于记下我认为有朝一日可能会变得可行的科学问题...而蛋白质折叠问题正是其中之一。"然而,他意识到他仍然需要学习如何专业地处理科学问题,因此他在伦敦大学学院学习了认知科学。在此之后,Hassabis创立了DeepMind(2014年被谷歌收购),他和同事最初专注于创建用于掌握游戏的学习算法,最终在2016年DeepMind的AlphaGo惊人地击败了传奇围棋选手李世石。"我们几乎是在从首尔AlphaGo比赛回来的那天开始的...我们从游戏开始,因为开发AI和测试各种东西更加高效...但最终,那从来不是最终目标。"在剑桥大学毕业近20年后,Hassabis准备翻出他的旧笔记。

John Jumper出生在阿肯色州。他的非传统之旅相对传统的从物理和数学(范德堡大学,2007年学士学位)开始,然后获得了前往剑桥大学的马歇尔奖学金。然而,他决定在金融领域担任“量化分析员”的职位,2008年申请加入了DE Shaw公司,这家由计算机科学家David Shaw创立的著名公司。碰巧的是,但直到他申请时,Jumper并不知道,Shaw已经从投资回归到基础研究,并专门设计了用于蛋白质折叠和药物发现的计算机设备,在D.E. Shaw Research工作,他被邀请加入Shaw的研究团队。在前沿计算领域工作了3年后,Jumper既致力于解决问题,也充分意识到他可能再也不会有如此强大的计算能力。听说DeepMind在围棋之后涉足蛋白质折叠领域,他设法将自己的简历送到Hassabis那里,而今年的阿尔伯特·拉斯克基础医学研究奖的获得者双人组就是在2017年开始合作的。

开普勒和牛顿不同

尽管我们为首次能够从基因序列准确预测基因组规模的蛋白质结构的发明而欢呼,但许多科学家也感到有些不安,因为我们并没有像预期的那样提取出可推广的传统科学解释原则。例如,基于开普勒的定律,我们可以准确预测行星的轨道,但开普勒的技术的全部威力只有在牛顿从中提取了古典力学原理后才被充分释放出来。有许多类似的例子。兰登的X射线,于1895年发现,并于1901年获得首个诺贝尔物理学奖,长时间以来在医学上产生了巨大的影响,尽管在最终从量子力学中理解它们之前,它们仍然是未解之谜。随着时间的推移,我们可以希望会出现有关蛋白质实际如何折叠(与最终形状不同)的类似深刻的见解和新原则。

未来的影响

毫无疑问,当前版本的AlphaFold只是一个开始。它已经在不断改进,以包括多亚单位蛋白质复合体。与任何革命性和强大的技术概念一样,它将吸引开放式创新,并以无法预测的方式发展,触及生物科学的各个角落。作者所知道的每个实验室都在使用AlphaFold并且是高度富有想象力的方式。即使在这些无数的探索远征中不可避免地会失败,也会在许多方面催化改进。然而,AlphaFold可能最长期的影响之一是预示AI即将成为生物学中被接受的、可靠的和有用的发现方法。今天的科学家大多接受了使用模型的培训,但并不真正信任它们,特别是如果他们无法明确理解这些模型。我们准备好信任模型并进行验证吗?

参考资料

Rothman, J. E. (2023). Starting at Go: Protein structure prediction succumbs to machine learning. Proceedings of the National Academy of Sciences, 120(39), e2311128120.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/141114.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

堆排序(大根堆、小根堆)

参考视频: 1、数据结构,小根堆的调整!必须熟练掌握! 2、数据结构建堆筛选输出最小值 | 计算机软件考研期末知识点2

Scikit-LLM:一款大模型与 scikit-learn 完美结合的工具!

Scikit-LLM 是文本分析领域的一项重大变革,它将像 ChatGPT 这样强大的语言模型与 scikit-learn 相结合,提供了一套无与伦比的工具包,用于理解和分析文本。 有了 scikit-LLM,你可以发现各种类型的文本数据中的隐藏模式、情感和上下…

【STM32】定时器+基本定时器

一、定时器的基本概述 1.软件定时器原理 原来我们使用51单片机的时候,是通过一个__nop()__来进行延时 我们通过软件的方式来进行延时功能是不准确的,受到很多不确定因素。 2.定时器原理:计数之间的比值 因为使用软件延时受到影响&#xff0c…

Spring中的循环依赖解决方案

前言:测试环境突发BeanCurrentlyInCreationException,导致后端服务启动失败,一看就是Spring的Bean管理中循环依赖。项目中存在Bean的循环依赖,是代码质量低下的表现。多数人寄希望于框架层来给擦屁股,造成了整个代码的…

大数据-玩转数据-Flume

一、Flume简介 Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。Flume基于流式架构,容错性强,也很灵活简单。Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时查询。二、Flume…

开放领域对话系统架构

开放领域对话系统是指针对非特定领域或行业的对话系统,它可以与用户进行自由的对话,不受特定领域或行业的知识和规则的限制。开放领域对话系统需要具备更广泛的语言理解和生成能力,以便与用户进行自然、流畅的对话。 与垂直领域对话系统相比…

AIX5.3安装weblogic10.3

目录 1安装IBM JDK 1.6 2图形化准备 3安装weblogic 准备 4图形化界面安装 1安装IBM JDK 1.6 1.1检查操作系统 # oslevel 5.3.0.0 # bootinfo -y (显示AIX机器硬件是64位) 64 # bootinfo -K (显示AIX系统内核是64位) 64 因此,系统需要安装64位的jdk,…

JavaWeb Day09 Mybatis-基础操作01-增删改查

目录 环境准备 ①Emp.sql ②Emp.java 一、删除 ①Mapper层 ②测试类 ③预编译SQL(查看mybatis日志) 1.性能 2.安全 ④总结 二、新增 ①Mapper层 ②测试类 ③结果 ④新增(主键返回) 1.Mapper层 2.测试类 ⑤总结​…

上机4KNN实验4

目录 编程实现 kNN 算法。一、步骤二、实现代码三、总结知识1、切片2、iloc方法3、归一化4、MinMaxScale()5、划分测试集、训练集6、KNN算法 .py 编程实现 kNN 算法。 1、读取excel表格存放的Iris数据集。该数据集有5列,其中前4列是条件属性…

Carla之语义分割及BoundingBox验证模型

参考: Carla系列——4.Cara模拟器添加语义分割相机(Semantic segmentation camera) Carla自动驾驶仿真五:opencv绘制运动车辆的boudingbox(代码详解) Carla官网Bounding Boxes Carla官网创建自定义语义标签…

【QT】飞机大战

0 项目简介 飞机大战是我们大家所熟知的一款小游戏,本教程就是教大家如何制作一款自己的飞机大战 首先我们看一下效果图 玩家控制一架小飞机,然后自动发射子弹,如果子弹打到了飞下来的敌机,则射杀敌机,并且有爆炸的特…

隧道施工工艺流程vr线上虚拟展示成为产品3D说明书

行业内都知道,汽车生产的大部分都需要冲压加工来完成,因此汽车冲压工艺是汽车制造过程中的重要环节,传统的展示方式往往局限于二维图纸和实地操作,难以充分展现工艺的细节和流程。然而,随着技术的进步,汽车…

不同优化器的应用

简单用用,优化器具体参考 深度学习中的优化器原理(SGD,SGDMomentum,Adagrad,RMSProp,Adam)_哔哩哔哩_bilibili 收藏版|史上最全机器学习优化器Optimizer汇总 - 知乎 (zhihu.com) import numpy as np import matplotlib.pyplot as plt import torch # …

优秀智慧园区案例 - 中建科技产业园(中建·光谷之星),万字长文解析先进智慧园区建设方案经验

一、项目背景 中建科技产业园(中建光谷之星),位于武汉光谷中心城、中国(湖北)自贸试验区武汉片区双核心区,光谷发展主轴高新大道北侧,建筑面积108万平米,是中建三局“中建之星”和“…

设计模式—结构型模式之代理模式

设计模式—结构型模式之代理模式 代理模式(Proxy Pattern) ,给某一个对象提供一个代理,并由代理对象控制对原对象的引用,对象结构型模式。 静态代理 比如我们有一个直播平台,提供了直播功能,但是如果不进行美颜,可能就比较冷清…

Adobe Photoshop 2020给证件照换底

1.导入图片 2.用魔法棒点击图片 3.点选择,反选 4.选择,选择并遮住 5.用画笔修饰证件照边缘 6. 7.更换要换的底的颜色 8.新建图层 9.使用快捷键altdelete键填充颜色。 10.移动图层,完成换底。

【ArcGIS Pro微课1000例】0030:ArcGIS Pro中自带晕渲地貌工具的妙用

在ArcGIS中,制作地貌晕渲效果通常的做法是先制作山体阴影效果,然后叠加在DEM的下面,再改变DEM的透明度来实现。而在ArcGIS Pro中自带了效果显著的晕渲地貌工具。 文章目录 一、晕渲地貌工具1. 符号系统2. 栅格函数二、山体阴影效果1. 工具箱2. 栅格函数打开ArcGIS Pro3.0,加…

【C++】类和对象(2)--构造函数

目录 一 概念 二 构造函数特性 三 默认构造函数 一 概念 对于以下Date类&#xff1a; class Date { public:void Init(int year, int month, int day){_year year;_month month;_day day;}void Print(){cout << _year << "-" << _month <…

C语言 每日一题 牛客网 11.13 Day17

找零 Z国的货币系统包含面值1元、4元、16元、64元共计4种硬币&#xff0c;以及面值1024元的纸币。 现在小Y使用1024元的纸币购买了一件价值为N(0 < N≤1024)的商品&#xff0c;请问最少他会收到多少硬币&#xff1f; 思路 运用if语句进行判断分类 代码实现 int main() {…

OpenGL_Learn10(颜色)

1. 颜色 我们在现实生活中看到某一物体的颜色并不是这个物体真正拥有的颜色&#xff0c;而是它所反射的(Reflected)颜色。换句话说&#xff0c;那些不能被物体所吸收(Absorb)的颜色&#xff08;被拒绝的颜色&#xff09;就是我们能够感知到的物体的颜色。例如&#xff0c;太阳光…