AlphaFold2爆火背后,人类为什么要死磕蛋白质?

来源: 脑极体

近期在生命科学领域,有一则爆炸性的新闻,DeepMind 的Al phaFold2模型,将人类的98.5%的蛋白质,全部预测了一遍,并且做成了数据集免费开源,供科研圈的人使用。

开放的数据集不仅包括人类蛋白质组,还有大肠杆菌、果蝇、小鼠等20个具有科研常用生物的蛋白质组数据,总计超过35万个蛋白质的结构。phaFold2模型的目标是为所有具有已知序列的蛋白提供预测结构。Deepmind计划在年底将预测数量增加到1.3亿个,而这个数量已经达到了人类已知蛋白质总数的一半。

科研圈因为这一新闻都炸锅了,平时需要花费数月、数年的才能完成的事情,只需要几天就可以搞定,大家无一不在赞叹这个具有划时代意义的时刻。DeepMind联合创始人兼CEO Demis Hassabis谈道:“我认为这是DeepMind整个10年多生命周期的顶峰。”对于研究人员来说,丰富的蛋白质结构数据有了,开展下一步的研究就顺畅了。

内行人看门道,外行人看热闹,对于学术圈人的集体高潮,外行人的内心都有个大大的问号,预测这么多的蛋白质结构究竟有什么卵用?人类为何一直在和蛋白质死磕?

研究蛋白质的意义

回答这个问题之前,不得不提及生命科学领域最重要的中心法则:遗传信息在细胞内的生物大分子间转录从DNA→RNA→蛋白质。

如何理解呢?在生物世代繁衍的过程中,生物会把自身携带的遗传物质DNA分子,通过复制传递给后代,而在每一代生物从生到死的过程中,这套DNA分子以自身为设计蓝图,指导生产大量的蛋白质分子,执行支持生物生存和活动的全部功能。

中心法则的一端是DNA,一端是蛋白质,DNA可以看做是工厂里面生产制造的设计图纸,而蛋白质就是有各种功能的零部件,造出来的蛋白质有的跑去参与体内各种生物化学反应,比如食物的消化有各种酶的参与,有的在血液中(血红蛋白)积极的运输养料,有的作为信使在细胞之间传递信号,有的作为卫士,参与生物体的免疫大战,各种设计组装出厂的不同蛋白质可以让遗传、发育、繁殖、代谢等生命活动正常运行开展。

对蛋白质进行系统深入的研究,能让我们从更深层次诠释生命体的构成和运作变化规律,进而全面揭示生命运行、发展的机制,激发生物科学、药物研发、合成生物学方面的发展。

我们在中学就已经简单了解过蛋白质了。蛋白质是生物构成的重要基本物质,由各种氨基酸组成,其排列方式和位置的差异使得其种类极其繁多,结构复杂。每种蛋白质的空间结构和功能都大不相同,也因为蛋白质的空间结构,不同的折叠方式使得蛋白质具有的活性和生物性能不定,而这个复杂的特性也就注定了研究蛋白质的路径困难重重。

蛋白质研究的波折之路

蛋白质早在18世纪就被法国化学家发现,但是因为技术条件的限制,直到20世纪初,科学家才能根据一些技术去深入的研究蛋白质。因为蛋白质结构的复杂与种类极其繁多,研究了解的过程极其费时费力。

对于早期的生化学家来说,研究蛋白质的困难在于难以获取大量的纯化的蛋白质用于研究,因此早期的研究工作就是在各种纯化蛋白质的路上。后来有生物公司1950年在牛胰腺中纯化了核糖核酸酶a,并免费提供给科学家使用,科学家的大量试验逐渐打开。

1949年,英国生化学家桑格用8年的时间测试出了胰岛素(蛋白质)的51个氨基酸的排列顺序,验证了蛋白质是由氨基酸所形成的线性多聚体。因这一研究桑格被授予1958年诺贝尔化学奖。人们运用桑格的方法对许多别的蛋白质迅速进行了测序,桑格的研究为1965年第一次人工合成胰岛素铺平了道路。

人类第一次知悉蛋白质分子结构是在1959年,英国科学家 Max Perutz 利用X射线衍射的方法,根据射线被散射的角度推测电子的位置解析了肌红蛋白分子的三维结构,自此之后,X射线衍射成为解析高分辨率蛋白质结构最有力的工具。除了X射线衍射之外,后期科学家们常用的研究工具还有核磁共振与冷冻电子显微镜技术。

虽然有设备辅助研究,但是现实测试技术的局限,施行起来成本过高,按照传统的实验步骤,从基因序列到相应的蛋白质结构测定之间还要经过基因表达、蛋白质的提取和纯化、结晶、X射线衍射分析等步骤。由于蛋白质结构和性质的多样性,这些步骤大多没有固定的规律可循。

历史上有科学家耗费几十年时间才能得到一个清晰的蛋白质三维结构,蛋白质三维结构的测定成了生物学领域非常困难的研究。至今为止没有AI技术的协助,三维结构被看清的量也仅仅只有17万个,这跟蛋白质的总量相比差距大的跟九牛一毛似的。

对于蛋白质的结构来说,就算我们看得清测得出它的形态,但是关于其折叠的方向在三维空间中有10^300种方式,为何就选择折叠为现在的状态,这个过程和选择的路径没法解析。因为研究的方法与内容都极其困难,所以研究蛋白质的结构以及定性就真的只有死磕这一条路了。半个多世纪以来,研究蛋白质结构的相关工作只要有新的发现就会喜提诺贝尔奖,至今为止仅仅蛋白质领域已经拿过20多项诺贝尔奖。

也有一批科学家跳出肉眼观测的技术思路困境,另辟蹊径,绕开费事费钱的传统技术的试验步骤,从蛋白质的氨基酸序列直接进行计算预测它们的三维结构。

站在AI巨人肩膀上研发

实现从氨基酸预测蛋白质结构的大前提就是计算机技术的发展。1998年,华盛顿大学的 David Baker 教授开发了一套名为 “Rosetta”(罗塞塔石碑)的计算机程序来预测蛋白质结构。但是因为算力的有限,不能暴力地穷举,因此在早期的预测中,主要用来处理氨基酸数量很小、排列比较规则的蛋白质。对于复杂的蛋白质也只能望洋兴叹了。

为了获得对蛋白质结构预测技术水平的客观评估,由马里兰大学的John Moult领导的一组科学家在1994年创立了CASP(结构预测的关键评估),预测者可以在一个双盲框架内评估他们的方法,以促进研究、监测进展,并建立蛋白质结构预测的最新水平。

得益于卷积神经网络的发展,Deepmind的研究在第十四届CASP比赛中大放异彩,团队使用基于注意力机制的神经网络,依靠端到端的优化整体构建结构,内置了大量的序列、结构和宏基因组等多重比较信息,其预测的GDT-TS中值达到了92.4分,远远高于第二名。这是个什么水平呢?据悉,GDT-TS的得分在70分左右,说明其结果具有准确的全局和局部拓扑结构的模型。超过80分,结构细节的建模越来越正确,超过95分,模型就像根据实验数据建立的模型一样准确。

人工智能技术作为预测蛋白质结构的辅助手段,通过暴力的学习穷举,将科学家本来需要几年几十年预测的时间缩短为几日,并且对于简单的蛋白质分子来说结构的预测已经非常精准,而这样的结局就会让科学家们转身投入到深度理解蛋白质本身的机理的研究中。

纵观科学史,每次科学家在所在领域内取得重大的进步,都离不开当时技术的支持。无论是在蛋白质提纯的困难年代,还是观察蛋白质的冷电镜技术时代,科学家研究的工具都依赖于当时的最高科技水平。在AI时代,因为算力和算法模型的极大提升,我们见证了蛋白质结构预测的历史时刻。

AlphaFold2的数据库现已开源并且还在不断地增加新蛋白质结构预测,这也成为了科学家进行蛋白质研究的宝藏数据库。不过算出结构也只是生物科学领域的初步阶段,指明了方向后续的进展还得需要试验与头脑的风暴。对于没有在已有蛋白质结构数据集训练的其他蛋白质结构,其研究仍然是谜一般的存在,这也给科学家们留下了很大的研究空间。

不过AlphaFold2 这样的高精度模型,总的来说还是极大地推动科学家的研究与发展,拓展了对蛋白质进行功能分析、以及下游应用的范围,科学家们得以在各个领域展开开拓性的研究,比如一些癌症、病毒类感染的疾病研究,抗生素、靶向药的开发,研发新效率的酶等为健康与环保的层面做出贡献。

站在神经网络与深度学习的技术巨人的肩膀上,生命科学领域的发展已经有了质的飞跃,AI对于蛋白质的预测也不再依赖人类的先验知识去做结构预测,相比几年前引起轰动的 AlphaGo,AlphaFold 也让深度学习与神经网络好好秀了把肌肉。科学的创新离不开技术工具的强力辅助,而蛋白质这个能够影响生命进程的分子,技术为我们打开了研究它的大门,这些海量的蛋白质结构信息被技术释放,背后的解读与分析可能蕴含着生命信息的密码。下一个生命科学领域的革命性研究成果,炸出来的是什么我们无法想象。在生命科学研究中体验开盲盒的快乐,也是从来没有想过的惊喜,期待下一个未来。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484217.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hadoop伪分布式配置

1.1 准备 通过gedit编辑器修改比较方便&#xff0c;因此需先安装gedit。 sudo apt-get install gedit1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注释部分需要删除) gedit打开core-site.xml $ gedit ./etc/hadoop/core-site.xml<configuration>#在该语句对中添…

实现AGI,强化学习就够了?Sutton、Silver师徒联手:奖励机制足够实现各种目标...

来源&#xff1a;机器学习研究组订阅通用人工智能&#xff0c;用强化学习的奖励机制就能实现吗&#xff1f;几十年来&#xff0c;在人工智能领域&#xff0c;计算机科学家设计并开发了各种复杂的机制和技术&#xff0c;以复现视觉、语言、推理、运动技能等智能能力。尽管这些努…

这可能是十年来最酷的神经科学发现

© Designer Shit Documentary来源&#xff1a;Diego Salinas翻译&#xff1a;Rachel校对&#xff1a;Yord原文&#xff1a;medium.com/artificial-intelligence-and-cognition/what-makes-emotions-feel-good-or-bad-9bdcd0a81afc过去的十年是神经科学史上极不平凡的十年&…

计算机网络(二十一)-数据链路层设备

1.1 物理层扩展以太网 扩展添加了主干集线器&#xff0c;信道的冲突概率增大&#xff0c;冲突域增加&#xff0c;效率降低。 1.2 链路层扩展以太网 可以通过网桥和交换机来实现。 网桥&#xff1a;根据MAC帧的目的地址对帧进行转发和过滤。当网桥接收到一个帧时&#xff0…

计算机网络(十八)-以太网

一.概述 1.1 以太网指的是由Xerox公司创建并由Xerox、Intel和DEC公司联合开发的基带总线局域网规范&#xff0c;是当今现有局域网采用的最通用的通信协议标准。以太网络使用CSMA/CD技术。 1.2 以太网在局域网各种技术中占统治性地位。 造价低;是应用最广泛的局域网技术。比令…

Cell颠覆性发现:中脑神经元的新作用

来源&#xff1a;生物通除了颠覆长期以来关于中脑运动区域作用的观点&#xff0c;这项研究还可能缓解对药物无效的帕金森病患者的姿势和步态问题具有启示意义。中脑运动区是中脑的一部分&#xff0c;参与调节许多动物的行走和其他形式的运动。但是大脑这一区域神经元的功能仍然…

计算机网络(十九)-IEEE802.11无线局域网

IEEE802.11是无线局域网的通用的标准&#xff0c;它是由IEEE所定义的无线网络通信的标准。 802.11的MAC帧头格式 3.无线局域网分类 有固定基础设施无线局域网 wifi名称其实就是服务集标识符。无固定基础设施无线局域网的自组织网络

谷歌用量子计算机造出「时间晶体」,挑战热力学第二定律

来源&#xff1a;新智元近日&#xff0c;谷歌联合几十位物理学家&#xff0c;用量子计算机造出了「时间晶体」。你能想象得到&#xff0c;有这样一个物体&#xff0c;竟然跳出了经典的热力学第二定律&#xff1f;没错&#xff0c;这就是「时间晶体」。然而&#xff0c;时间晶体…

7、JPA-映射-双向一对多

一个用户对应多个订单&#xff0c;多个订单对应一个用户&#xff0c;不管查哪一边都可以得到另一边的信息 实体类 Customer package com.jpa.yingshe;import javax.persistence.*; import java.util.HashSet; import java.util.Set;Table(name "JPA_CUTOMERS") Enti…

计算机网络(二十)-广域网-PPP协议和HDLC协议

一.广域网 广域网&#xff0c;通常跨接很大的物理范围&#xff0c;所覆盖的范围从几十公里到几千公里&#xff0c;它能连接多个城市或国家&#xff0c;远距离通信&#xff0c;形成国际性的远程网络。 广域网的通信子网主要使用分组交换技术。广域网的通信子网可以利用分组交换…

导弹防御系统,如何跟蜻蜓的大脑学习计算?

来源&#xff1a;大数据文摘作者&#xff1a;Frances Chance多雨的夏季&#xff0c;蜻蜓最为常见&#xff0c;这些美丽的生物的飞行速度极快&#xff0c;狩猎能力也极为出色&#xff1a;蜻蜓狩猎的成功率捕获了高达95% &#xff0c;它们一天可以吃掉数百只蚊子。这种狩猎能力吸…

分布式文件系统HDFS

1.HDFS简介 1.1 Hadoop Distributed File System&#xff0c;简称HDFS。解决海量数据的分布式存储。 1.2 分布式文件系统 计算机集群中内部机器通过光纤高速交换机进行连接&#xff0c;机架之间通过宽带更高的光纤交换机连接。 有一个主节点机器其他的为从节点机器&#xff…

小程序开发初体验,从静态demo到接入Bmob数据库完全实现

之前我胖汾公司年会、问我能不能帮忙搞个小程序方便他们进行游戏后的惩罚/抽奖使用、出了个简单的设计图、大概三天左右做了个简单的小程序、目前提交审核了。对于写过一小段时间vue来说小程序很容易上手、写法和结构差不多。 ----------------- 这里整理的内容大致划分四个部分…

演讲实录丨徐宗本院士:如何突破机器学习的先验假设?

来源&#xff1a;中国人工智能学会2021年6月5日至6日&#xff0c;由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导&#xff0c;中国人工智能学会、杭州市人民政府主办&#xff0c;杭州市余杭区人民政府筹备组承办&#xff0c;浙江杭州未来科技城管理委员会具体…

hbase单机模式配置

1.软件 https://pan.baidu.com/s/1mgPA8s02FFyPqcc9DmR-FA 提取码: 337t 2.在安装hbase之前&#xff0c;确保你的电脑已经安装Hadoop3.1.3&#xff0c;hbase对Hadoop具有版本依赖。 3.将hbase压缩文件解压到/usr/local目录下&#xff0c;先切换到压缩文件所在目录&#xff0…

QT QTransform与QMatrix 有啥区别?

刚开始学习QT&#xff0c;我使用的是QT5.12进行开发&#xff0c;要不时地查阅QT的官方帮助文档~ 仔细阅读QT官方帮助QTransform类以及QMatrix类&#xff0c;发现两个类的作用描述一模一样&#xff08;“The QTransform class specifies 2D transformations of a coordinate sys…

hbase伪分布式配置

1.在单机模式的基础上进行配置&#xff0c;打开hbase-env.sh。 vim /usr/local/hbase/conf/hbase-env.sh2.配置HBASE_CLASSPATH为hadoop安装目录下的conf目录&#xff0c;即 /usr/local/hadoop/conf。JAVA_HOME、HBASE_MANAGES_ZK之前已经配置好了。 export HBASE_CLASSPATH/…

机器学习是科学还是“炼金术”?

作者:Samuel Flender译者:王强策划: 刘燕在实证领域&#xff0c;科学的严谨性是从假设开始塑造的。业界对机器学习研究的科学严谨性的质疑声越来越多了。在 2017 年 NIPS 会议上的一场 演讲 中&#xff0c;当时就职于谷歌 AI 的 Ali Rahimi 和 Ben Recht 认为 ML 已经成为了一种…

谷歌发布史上最强人类大脑「地图」,在线可视3D神经元「森林」!

来源&#xff1a;机器学习研究组订阅突触&#xff0c;是神经网络的「桥梁」。我们知道&#xff0c;人类大脑有860亿个神经元&#xff0c;因为有了突触&#xff0c;才可以把神经元上的电信号传递到下一个神经元。长久以来&#xff0c;科学家们一直梦想通过绘制完整的大脑神经网络…

javaweb c3p0连接oracle12c

最近在搞javaweb&#xff0c;在连接池上碰到了一系列的问题&#xff0c;在Junit测试时&#xff0c;oracle12c报错&#xff1a; ORA-28040: 没有匹配的验证协议 百度解决&#xff1a;修改 $ORACLE_HOME/network/admin/sqlnet.ora 加入如下:   SQLNET.ALLOWED_LOGON_VERSION8 之…