它将改变一切:AI解决了生物学50年来的重大难题

图片来源:Pixabay

来源  公众号“机器之心”

CASP14 组织者、年近七旬的 UC Davis 科学家 Andriy Kryshtafovych 在大会上感叹道,I wasn't sure that I would live long enough to see this(我活久见了)[1]。

11 月 30 日,一条重磅消息引发了科技界所有人的关注:谷歌旗下人工智能技术公司 DeepMind 提出的深度学习算法“AlphaFold”破解了出现五十年之久的蛋白质分子折叠问题。

最新一代算法 AlphaFold 2,现在已经拥有了预测蛋白质 3D 折叠形状的能力,这一复杂的过程对于人们理解生命形成的机制至关重要。

DeepMind 重大科研突破的消息一出即被《自然》、《科学》的新闻栏目争相报道,新成果也立刻获得了桑达尔 · 皮查伊、伊隆 · 马斯克等人的祝贺。

科学家们表示,Alphafold 的突破性研究成果将帮助科研人员弄清引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的“超级酶”研发铺平道路。

“这是该研究领域激动人心的一刻,”DeepMind 创始人、首席执行官德米斯 · 哈萨比斯说道。“这些算法今天已经足够成熟强大,足以被应用于真正具有挑战性的科学问题上了。”

蛋白质对于生命至关重要,它们是由氨基酸链组成的大型复杂分子,其作用取决于自身独特的 3D 结构。弄清蛋白质折叠成何种形状被称为“蛋白质折叠问题”。在过去 50 年里,蛋白质折叠一直是生物学领域的重大挑战。


DeepMind 的 AlphaFold 让人类在这一问题上取得了重要突破。在今年的国际蛋白质结构预测竞赛 CASP 中,DeepMind 开发的 AlphaFold 最新版本击败了其他选手,在准确性方面比肩人类实验结果,被认为是蛋白质折叠问题的解决方案。这一突破证明了 AI 对于科学发现,尤其是基础科学研究的影响。

在两年一次的 CASP 竞赛中,各组争先预测蛋白质的 3D 结构。今年,AlphaFold 击败了所有其他小组,并在准确性方面与实验结果相匹配。

对于不熟悉生物领域的人来说,CASP 的大名可能有些陌生——CASP 全称 The Critical Assessment of protein Structure Prediction,旨在对蛋白质结构预测进行评估,被誉为蛋白质结构预测的奥林匹克竞赛。CASP 从 1994 年开始举办,每两年一届,目前正在进行的一届是 11 月 30 日开始的 CASP14。

而 DeepMind 这一突破有什么影响?

用哥伦比亚大学计算生物学家 Mohammed AlQuraishi 在 Nature 报道中的话来说,"可以说这将对蛋白质结构预测领域造成极大影响。我怀疑许多人会离开该领域,因为核心问题已经解决。这是一流的科学突破,是我一生中最重要的科学成果之一。"

蛋白质折叠问题

蛋白质的形状与它的功能密切相关,而预测蛋白质结构对于理解其功能和工作原理至关重要。很多困扰全人类的重大问题(如寻找分解工业废料的酶)基本上都与蛋白质及其扮演的角色有关。

多年以来,蛋白质结构一直是热门的研究话题,研究者使用核磁共振、X 射线、冷冻电镜等一系列实验技术来检测和确定蛋白质结构。但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花数年时间。

1972 年,美国科学家 Christian Anfinsen 因“对核糖核酸酶的研究,特别是对其氨基酸序列与生物活性构象之间联系的研究”获得诺贝尔化学奖。在颁奖礼上,他提出了一个著名的假设:从理论上来说,蛋白质的氨基酸序列应该可以完全决定其结构。这一假设引发了长达五十年的探索,即仅仅基于蛋白质的一维氨基酸序列计算出其三维结构。

但这一思路的挑战在于,在形成三维结构之前,蛋白质的理论折叠方式是一个天文数字。1969 年,Cyrus Levinthal 指出,如果使用蛮力计算的方式来枚举一种蛋白质可能存在的构象,要花费的时间甚至比宇宙的年龄还要长。Levinthal 估计,一种蛋白质大约存在 10300 种可能构象。但在自然界中,蛋白质会自发折叠,有些只需几毫秒,这被称为 Levinthal 悖论。

CASP 14 比赛最新结果:AlphaFold 中位 GDT 高达 92.4

CASP 竞赛由 John Moult 和 Krzysztof Fidelis 两位教授于 1994 年创立,每两年进行一次盲审,以促进蛋白质结构预测方面的新 SOTA 研究。

一直以来,CASP 选择近期才经过实验确定的蛋白质结构,作为参赛团队测试其蛋白质结构预测方法的目标(有些结构即使在评估时仍然处于待确定状态)。这些蛋白质结构不会事先公布,参赛者也必须对其结构进行盲测,最后将预测结果与实验数据进行对比。正是基于这种严苛的评估原则,CASP 一直被称为预测技术评估方面的“黄金标准”。

CASP 衡量预测准确率的主要指标是 GDT(Global Distance Test),范围从 0 到 100,可以理解为预测的氨基酸残基在正确位置阈值距离内的百分比。John Moult 教授表示,GDT 分数在 90 分左右,即可视为对人类实验方法具备竞争力。

在刚刚公布的第 14 届 CASP 评估结果中,DeepMind 的最新 AlphaFold 系统在所有预测目标中的中位 GDT 达到 92.4,意味其平均误差大概为 1.6 埃(Angstrom),相当于一个原子的宽度(或 0.1 纳米)。即使在难度最高的自由建模类别中,AlphaFold 的中位 GDT 也达到了 87.0。

历届 CASP 竞赛自由建模类别中预测准确率中位数的提升情况,度量指标为 BEST-OF-5 GDT。

CASP 竞赛自由建模类别中的两个目标蛋白质示例。AlphaFold 能够预测出高度准确的蛋白质结构。

这些令人振奋的结果开启了生物学家使用计算结构预测作为科研主要工具的时代。DeepMind 提出的方法对于某些重要的蛋白质类别尤其有用,例如膜蛋白(membrane protein)。膜蛋白很难结晶,因此很难通过实验方法来确定其结构。

该计算工作代表了在蛋白质折叠这一具备 50 年历史的生物学问题上的惊人进展,比该领域人士成功预测蛋白质折叠结构早了几十年。我们将很兴奋,它能从多个方面对生物学研究带来基础性改变。——Venki Ramakrishnan 教授(诺贝尔奖得主,英国皇家学会会长)

DeepMind 这样解决蛋白质折叠问题

2018 年,DeepMind 团队使用初始版 AlphaFold 参加 CASP13 比赛,取得了最高的准确率。之后,DeepMind 将 CASP13 方法和相关代码一并发表在 Nature 上。而现在,DeepMind 团队开发出新的深度学习架构,并使用该架构参加 CASP14 比赛,达到了空前的准确率水平。这些方法从生物学、物理学、机器学习,以及过去半个世纪众多科学家在蛋白质折叠领域的工作中汲取灵感。

我们可以把蛋白质折叠看作一个「空间图」,节点表示残基(residue),边则将残基紧密连接起来。这个空间图对于理解蛋白质内部的物理交互及其演化史至关重要。对于在 CASP14 比赛中使用的最新版 AlphaFold,DeepMind 团队创建了一个基于注意力的神经网络系统,并用端到端的方式进行训练,以理解图结构,同时基于其构建的隐式图执行推理。该方法使用进化相关序列、多序列比对(MSA)和氨基酸残基对的表示来细化该图。

通过迭代这一过程,该系统能够较强地预测蛋白质的底层物理结构,并在几天内确定高度准确的结构。此外,AlphaFold 还能使用内部置信度度量指标判断预测的每个蛋白质结构中哪一部分比较可靠。

DeepMind 团队在公开数据上训练这一系统,这些数据来自蛋白质结构数据库(PDB)和包含未知结构蛋白质序列的大型数据库,共包括约 170,000 个蛋白质结构。该系统使用约 128 个 TPUv3 内核(相当于 100-200 个 GPU)运行数周,与现今机器学习领域出现的大型 SOTA 模型相比,该系统所用算力相对较少。

此外,DeepMind 团队透露,他们准备在适当的时候将这一 AlphaFold 新系统相关论文提交至同行评审期刊。

AlphaFold 主要神经网络模型架构概览。该模型基于进化相关的蛋白质序列和氨基酸残基对运行,迭代地在二者的表示之间传递信息,从而生成蛋白质结构。

对现实世界的潜在影响

“让 AI 突破帮助人们进一步理解基础科学问题”,经过 4 年的研究攻关,现在 AlphaFold 正在逐步实现 DeepMind 初创时的愿景,在药物设计和环境可持续性等领域都产生了重要的影响。

马克斯 · 普朗克演化生物学研究所所长,CASP 评估员 Andrei Lupas 教授表示:“AlphaFold 的精确模型让我们解决了近十年来被困扰的蛋白质结构,重新启动关于信号如何跨细胞膜传输的研究。”

DeepMind 表示愿与其他研究者合作,以进一步了解 AlphaFold 在未来几年的潜力。除了作用于经过同行评审的论文以外,DeepMind 还在探索如何以最佳的可扩展方式为系统提供更广泛的访问可能。

同时,DeepMind 的研究者还研究了蛋白质结构预测如何帮助人们理解一些特殊的疾病。例如,通过帮助识别存在故障的蛋白质,并推断其相互作用的方式,来理解一些疾病的原理。这些信息能够让药物开发更加精确,从而补充现有的实验方法,并更快找到更有希望的治疗方法。

AlphaFold 是十分卓越的,它在预测结构蛋白质的速度和精度上有着惊人的表现。这一飞跃证明了计算方法对于生物学中的转换研究,加速药物研发过程都具有广阔的前景。

同时许多证据也表明,蛋白质结构预测在未来的大流行应对上是有用的。今年早些时候,DeepMind 使用 AlphaFold 预测了包括 ORF3a 在内的几种未知新冠病毒蛋白质结构。在 CASP14 中,AlphaFold 预测了另一种冠状病毒蛋白质 ORF8 的结构。目前,实验人员已经证实了 ORF3a 和 ORF8 的结构。尽管具有挑战性,并且相关序列很少,但与实验确定的结构相比,AlphaFold 在两种预测上都获得了较高的准确率。

除了加速对已知疾病的了解,AlphaFold 还具备很多令人兴奋的技术潜力:探索数亿个目前还没有模型的数亿蛋白质,以及未知生物的广阔领域。由于 DNA 指定了构成蛋白质结构的氨基酸序列,基因组学革命使大规模阅读自然界的蛋白质序列成为可能——在通用蛋白质数据库(UniProt)中有 1.8 亿个蛋白质序列。相比之下,考虑到从序列到结构所需的实验工作,蛋白质数据库(PDB)中只有大约 170000 个蛋白质结构。在未确定的蛋白质中可能有一些新的和未确定的功能——就像望远镜帮助人类更深入的观察未知宇宙一样,像 AlphaFold 这样的技术可以帮助找到未确定的蛋白质结构。

开创新的可能

AlphaFold 是 DeepMind 迄今为止取得的最重要进展之一,但随着后续科学研究的开展,依然有很多问题尚待解决。DeepMind 预测的结构并非全部都是完美的。还有很多要学习的地方,包括多蛋白如何形成复合体,如何与 DNA、RNA 或者小分子交互,以及如何确定所有氨基酸侧链的精确位置。此外,在与他方合作的过程中,还需要学习如何以最好的方式将这些科学发现应用在新药开发以及环境管理方式等诸多方面。

对于所有致力于科学领域中计算和机器学习方法的人而言,像 AlphaFold 这样的系统彰显了 AI 作为基础探索辅助工具的惊人潜力。正如 50 年前 Anfinsen 提出的远超当时科研能力所及的挑战一样,这个世界依然有诸多未知的方面。

DeepMind 取得的这一进展令人们更加坚信,AI 将成为人类扩展科学知识边界的最有用工具之一,同时也期待未来多年的艰苦工作能够带来更伟大的发现。

[1] https://zhuanlan.zhihu.com/p/315497173

原文链接:

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486162.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

教你彻底学会动态规划——入门篇

动态规划相信大家都知道,动态规划算法也是新手在刚接触算法设计时很苦恼的问题,有时候觉得难以理解,但是真正理解之后,就会觉得动态规划其实并没有想象中那么难。网上也有很多关于讲解动态规划的文章,大多都是叙述概念…

linux终端密码星星,如何获得您的sudo密码在Ubuntu中显示为星号 | MOS86

我的一个朋友最近从Windows切换到Ubuntu Linux。在新操作系统花了一个星期左右的时间,他提出了一个问题109mh1112虽然这确实导致了这里和那里的一些打字错误,一次输入正确的sudo密码已被证明是非常有挑战性的,主要是因为在输入密码时没有显示…

正则 null_正则表达式exec、match、test的区别

一、定义的不同RegExp.prototype.test()RegExp.prototype.exec()String.prototype.match()从MDN的定义可以看出,test和exec是正则实例的API,match是String的,这一点决定了调用方式的不同。二、应用场景的不同如果只是想要判断正则表达式和字符…

Gartner发布2021年重要战略科技趋势!

来源:Gartner不久前,全球领先的信息技术研究和顾问公司Gartner发布企业机构在2021年需要深挖的重要战略科技趋势。分析师们在举行的Gartner IT Symposium/Xpo大会美洲站虚拟会议上展示了自己的发现。Gartner研究副总裁Brian Burke表示:“各企…

linux at24测试程序,linux 2.6下eeprom at24c08 i2c设备驱动(new style probe方式)

1 修改bsp_以便支持probe1.1 AT24C08地址的确定原理图上将A2、A1、A0都接地了,所以地址是0x50。注意到是7位(bit).1.2 修改bsp采用友善之臂的, 2.6.32.2内核[rootlocalhost mach-s3c2440]# vim/opt/FriendlyARM/mini2440/linux-2.6.32.2/arch/arm/mach-s3c2440/mach…

Java中注释的使用

如何在Java中使用注释 在编写程序时,经常需要添加一些注释,用以描述某段代码的作用。 一般来说,对于一份规范的程序源代码而言,注释应该占到源代码的 1/3 以上。因此,注释是程序源代码的重要组成部分,一定要…

关于动态规划,你想知道的都在这里了!

作者 | Your DevOps Guy翻译| 火火酱~,责编 | 晋兆雨出品 | AI科技大本营头图 | 付费下载于视觉中国什么是动态规划?它又有什么重要的呢?在本文中,我将介绍由Richard Bellman在20世纪50年代提出的动态规划(dynamic pro…

linux修改永久ip地址,centos设置IP地址,永久修改ipv4

# ifconfig #查看下本机的IP地址。eth0Link encap:Ethernet HWaddr 00:50:56:0A:0B:0Cinet addr:192.168.0.3 Bcast:192.168.0.255 Mask:255.255.255.0inet6 addr: fe80::250:56ff:fe0a:b0c/64 Scope:LinkUP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1RX packets:172220…

详细介绍MySQL/MariaDB的锁

官方手册:https://dev.mysql.com/doc/refman/5.7/en/innodb-locking-transaction-model.html 1.事务提交的方式 在MariaDB/MySQL中有3种事务提交的方式。 1.显式开启和提交。 使用begin或者start transaction来显式开启一个事务,显式开启的事务必须使用c…

美国专利商标局发布人工智能专利扩散分析报告

以下文章来源:中科院知识产权信息,2020-11-23报告显示,从2002到2018年,美国人工智能专利的年申请量增长超过100%,从每年3万件增加到6万多件,含人工智能的专利申请所占份额从9%上升到近16%。同时&#xff0c…

java 开发环境的搭建

这里主要说的是在windows 环境下怎么配置环境。 1.首先安装JDK java的sdk简称JDK ,去其官方网站下载最近的JDK即可。。http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html点击下载好的exe文件安装即可。 2.接下来我们需要配置环…

linux内核等价多路径路由,Linux内核分析 - 网络[四]:路由表

路由表的创建inet_init() -> ip_init() -> ip_fib_init() -> fib_net_init() -> ip_fib_net_init()[net\ipv4\fib_frontend.c]首先为路由表分配空间,这里的每个表项hlist_head实际都会链接一个单独的路由表,FIB_TABLE_HASHSZ表示了分配多少个…

2017级面向对象程序设计 作业二

以下均以扫描方式为例,即电梯只会在最底层和最高层选择掉头,路途中遇到路径方向相同的乘客将他带上电梯。 文字描述面向过程实现的步骤: 一. 定义有关电梯的变量,如:1.电梯当前所在楼层.,2. 电梯内的人数&a…

新型支架状电极允许人类思想操作计算机

Illustration: Synchron来源:IEEE电气电子工程师据悉,两名患有神经肌肉疾病的澳大利亚人在他们的大脑中植入了支架状的电极,使他们能够利用自己的思想操作电脑,从而恢复了一些个人独立性。据发明者介绍,这是这种被称为…

java中的foreach

foreach 并不是java中的关键字,是for语句的特殊简化版,在比那里数组,集合时,foreach更加简单快捷,从字面上的意思理解 foreach 也就是 “ for每一个 ”的意思,那么到底怎么使用 foreach语句呢? …

ACM数论-素数

ACM数论——素数 素数定义: 质数(prime number)又称素数,有无限个。质数定义为在大于1的自然数中,除了1和它本身以外不再有其他因数,这样的数称为质数。例 子:2、3、5、7、11、13、17、19。&am…

机器视觉中彩色成像必须考虑的十个问题

来源:Imagination Tech在为你的产品开发最适合的机器视觉系统时,需要考虑很多因素,以下列出开发过程中需要考虑的一些问题:颜色准确性/差异化首先要考虑的是应用程序所需的颜色精度和差异程度。在某些应用中,机器视觉相…

嫦娥“挖土”归来有多难?看看中国首颗返回式卫星的故事

本文转载自“科技日报(kjrbwx)”,原标题《嫦娥“挖土”归来有多难?看看中国首颗返回式卫星的故事》,作者 | 吕炳宏 付毅飞2020年11月30日,嫦娥五号探测器在环月轨道上,成功实施着陆器上升器组合…

重磅,2020年度第十届吴文俊人工智能科学技术奖获奖名单公示

来源:科奖圈根据《吴文俊人工智能科学技术奖励条例》和《吴文俊人工智能科学技术奖励实施细则》相关规定,经全国各地方人工智能学会、协会及联盟,各高校及科研(院)所,学会各专业委员会及工作委会&#xff0…

理解 %IOWAIT (%WIO)

%iowait 是 “sar -u” 等工具检查CPU使用率时显示的一个指标,在Linux上显示为 %iowait,在有的Unix版本上显示为 %wio,含义都是一样的。这个指标常常被误读,很多人把它当作I/O问题的征兆,我自己每隔一段时间就会遇到对…