AlphaGo之后,DeepMind重磅推出AlphaFold:基因序列预测蛋白质结构

640?wx_fmt=png

来源:机器之心


摘要:Alphabet(谷歌)旗下公司 DeepMind 的人工智能 AlphaGo 曾在国际象棋、围棋等项目中取得了超越人类的表现,其研究不仅震惊世界,也两次登上 Nature。如今,该公司已将人工智能技术应用到最具挑战性的科学研究问题中,其刚刚推出的 AlphaFold 可以仅根据基因「代码」预测生成蛋白质的 3D 形状。


DeepMind 表示,AlphaFold 是「该公司首个证明人工智能研究可以驱动和加速科学新发现的重要里程碑」。看来,人类医学研究要前进一步了。


周日,在墨西哥坎昆举办的一场国际会议中,DeepMind 的最新 AI——AlphaFold 在一项极其困难的任务中击败了所有对手,成功地根据基因序列预测出蛋白质的 3D 形状。


「蛋白质折叠」是一种令人难以置信的分子折叠形式,科学界以外很少有人讨论,但却是一个非常重要的问题。生物由蛋白质构成,生物体功能由蛋白质形状决定。理解蛋白质的折叠方式可以帮助研究人员走进科学和医学研究的新纪元。


「对于我们来说,这真的是一个关键时刻,」DeepMind 联合创始人兼 CEO Demis Hassabis 表示,「这个项目就像灯塔,这是我们关于人和资源的首次重大投资,用于解决一个根本性的、现实世界的重要问题。」


在 2016 年 AlphaGo 击败李世乭后,DeepMind 就开始将目光转向蛋白质折叠。尽管实践证明,游戏是 DeepMind AI 项目的优秀试验场,但在游戏中取得高分并非他们的终极目标。「我们的目标从来就不是赢得围棋或雅达利比赛的胜利,而是开发能够解决蛋白质折叠这类问题的算法,」Hassabis 表示。


为什么要预测蛋白质结构


人体能够产生数万甚至数百万的蛋白质。每个蛋白质都是一个氨基酸链,而后者的类型就有 20 种。蛋白质可以在氨基酸之间扭曲、折叠,因此一种含有数百个氨基酸的蛋白质有可能呈现出数量惊人(10 的 300 次方)的结构类型。


蛋白质的 3D 形状取决于其中包含的氨基酸数量和类型,而这一形状也决定了其在人体中的功能。例如,心脏细胞蛋白质的折叠方式可以使血流中的任何肾上腺素都粘在它们上面,以加速心率。免疫系统中的抗体是折叠成特定形状的蛋白质,以锁定入侵者。几乎身体的每一种功能——从收缩肌肉和感受光线到将食物转化为能量——都和蛋白质的形状及运动相关。


通常情况下,蛋白质会呈现出能量效率最高的任何形状,但它们可能会纠缠在一起或者折叠错误,导致糖尿病、帕金森和阿茨海默症等疾病。如果科学家可以根据蛋白质的化学构成来预测其形状,他们就能知道它是做什么的,会如何出错并造成伤害,并设计新的蛋白质来对抗疾病或履行其它职责,比如分解环境中的塑料污染。


AI 如何改变研究方法?


正因为蛋白质的结构如此重要,在过去的五十年中,科学家已经能使用低温电子显微镜和核磁共振等实验技术确定蛋白质的形状,但是每一种方法都依赖大量的试验与误差反馈,每种结构可能需要花费数万美元、历时数年进行研究。因此生物学家转攻 AI 方法,以完成这一困难且单调的过程。


幸运的是,由于基因测序成本快速降低,基因组领域的数据非常丰富。因此在过去几年中,依赖于基因组数据的预测问题正越来越多地借助深度学习方法。DeepMind 非常关注这一问题,并提出了 AlphaFold,这一项工作目前已经提交到了Critical Assessment of Structure Prediction (CASP)。


DeepMind 用 AlphaFold 参加了 CASP,这是一年两次的蛋白质折叠奥运会,吸引了来自世界各地的研究小组。比赛的目的是根据氨基酸列表来预测蛋白质的结构,这些氨基酸列表会在几个月内每隔几天发送给参赛团队。这些蛋白质的结构最近已经通过费力又费钱的传统方法破解,但还没有公开。提交最准确预测的团队将获胜。


尽管是首次参加比赛,AlphaFold  就在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。值得一提的是,AlphaFold 关注从头开始建模目标形状,且并不使用先前已经解析的蛋白质作为模板。AlphaFold 在预测蛋白质结构的物理性质上达到了高度的准确性,然后基于这些预测可以使用两种不同的方法预测构建完整的蛋白质结构。


使用神经网络预测物理属性


AlphaFold 构建的模型都依赖深度神经网络,这些经过训练的神经网络可以从基因序列中预测蛋白质的属性。DeepMind 的研究人员表示,神经网络预测的蛋白质属性主要有:(a)氨基酸对之间的距离;(b)连接这些氨基酸的化学键及它们之间的角度。这些方法的首要进步就是对常用技术的提升,它们可以估计氨基酸对是否彼此接近。


640?wx_fmt=gif


为了构建 AlphaFold,DeepMind 在数千已知的蛋白质上训练了一个神经网络,直到它可以仅凭氨基酸预测蛋白质的 3D 结构。给定一种新的蛋白质,AlphaFold 利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。接着,AlphaFold 调整初步结构以找到能效最高的排列。该项目花了两周时间来预测其第一个蛋白质结构,但现在几小时内就可以完成了。


根据神经网络预测的两种物理属性,DeepMind 还训练了一个神经网络以预测蛋白质成对残基(residues)之间距离的独立分布,这些概率能组合成估计蛋白质结构准确率的评分。此外,DeepMind 还训练了另一个独立的神经网络,该网络使用集群中的所有距离来估计预测的结构与实际结构之间的差距。


640?wx_fmt=png

640?wx_fmt=gif


预测蛋白质结构的新方法


这些评分函数可以用来探索蛋白质内部,以找到与预测匹配的结构。DeepMind 的第一种方法建立在结构生物学的常用技术上,用新的蛋白质片段反复替换蛋白质整体结构的某个部分。他们训练了一个生成神经网络来创造新的片段,这些片段被用来不断提高蛋白质结构的评分。


640?wx_fmt=png


先通过神经网络预测氨基酸之间的距离和化学键角度,然后再根据两种物理属性对结构进行评分,最后通过梯度下降优化评分。


第二种方法是通过梯度下降来优化评分,得到的结构高度精确。梯度优化被用在整个蛋白质链,而不是组装前必须单独折叠的片段,这种做法降低了预测过程的复杂性。


未来可期


首次涉足蛋白质折叠领域的成功表明,机器学习系统可以整合各种信息来源,帮助科学家快速找到各种复杂问题的创造性解决方案。人工智能已经通过 AlphaGo 和 AlphaZero 等系统掌握了复杂的游戏,与此类似,利用人工智能攻克基本科学问题的未来同样可期。


雷丁大学的研究人员 Liam McGuffin 在比赛中带领得分最高的英国学术团体。他表示,「DeepMind 今年似乎取得了更大的进展,我想进一步了解他们的方法。我们的资源并不充足,但我们仍然有很强的竞争力。」


「预测蛋白质折叠形状非常重要,对解决很多世纪难题有重大影响。这种能力可以影响健康、生态、环境,基本上可以解决任何涉及生命系统的问题。」


「包括我们在内的很多团队几年来一直都在使用基于机器学习的方法,而深度学习和人工智能的进步似乎也产生了越来越重要的影响。我对这个领域很乐观,我觉得我们会在 21 世纪 20 年代真正解决这个问题。」McGuffin 表示。


Hassabis 也表示还有很多工作要做。「我们还没有解决蛋白质折叠问题,目前只是迈出了第一步。这是一个极具有挑战性的问题,但我们有一个良好的体系,还有很多想法尚未付诸实践。」


蛋白质折叠的早期进展令人兴奋,它证明了人工智能对科学发现的效用。尽管在能够对疾病治疗、环境管理等方面产生量化影响之前,我们还有很多工作要做,但我们知道人工智能的潜力是巨大的。在一个专注于研究机器学习如何推进科学发展的专业团队的努力下,我们期待看到技术能够有所作为。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Web开发之容器

Web开发之容器 主题 Servlet容器、Web容器、应用服务器 参考资料 Servlet容器、Web容器、应用服务器 Servlet容器的主要任务是管理Servlet的生命周期;而Web容器更准确的说应该叫做Web服务器,它是用来管理和部署Web应用的;还有一种服务器叫做应…

李开复看2019投资趋势:最坏的时代将酝酿最伟大的公司

来源:网易智能摘要:12月3日下午,创新工场在北京举办了2019投资趋势分享会。创新工场创始人、董事长兼CEO李开复,创新工场联合创始人、管理合伙人汪华与创新工场合伙人张鹰对目前中国经济形势和投资趋势做了分析。01最坏的时代将酝…

高斯混合模型做聚类

概述 聚类算法大多数采用相似度来判断,而相似度又大多数采用欧式距离长短来衡量,而GMM采用了新的判断依据—–概率,即通过属于某一类的概率大小来判断最终的归属类别 。 GMM的基本思想就是:任意形状的概率分布都可以用多个高斯分…

C#使用HTML文件中的file文件上传,用C#代码接收上传文件

单独做图片上传很简单,如果要客户端要上传头像保存到服务器就要稍微麻烦一点点了。 不多说了,直接上源码: private void Upload() { string jsonInfo string.Empty; ///这句是关键,它是获取HTTP中文件流 的对象集合。 Ht…

基于深度学习的NLP 32页最新进展综述,190篇参考文献

来源:专知摘要:深度学习使用多层学习层次的数据表示,并在许多领域得到了最优的结果。最近,各种各样的模型设计和方法在自然语言处理(NLP)蓬勃发展。在本文中,我们回顾了被广泛应用于各种NLP任务的深度学习相关模型和算法以及它们的发展演变过程。我们还总…

.net framework摘抄与理解

1."源码"编译成"托管模块": 2.将"托管模块"合并成"托管程序集" 3.clr中的"JIT"执行"托管程序集" 第二次执行已被JIT编译成机器码的Console.WriteLine("") 转载于:https://www.cnblogs.com/doujiaomifan…

“新一代人工智能前沿与挑战”国际研讨会专家观点分享

来源:西电人工智能学院摘要:2018年11月25日-26日举办的“新一代人工智能前沿与挑战”中青年论坛暨第二十一届学术周在西安电子科技大学圆满落幕,研讨会上包括长江学者、IEEE Fellow、领域顶尖中青年学者、新锐企业领导者等在内的国内外权威专…

决策树算法及可视化

经典决策树算法包括ID3算法、C4.5算法以及GBDT的基分类器CART算法 ,ID3算法选择特征的依据是信息增益、C4.5是信息增益比,而CART则是Gini指数。 例子: 所谓信息增益就是数据在得到特征X的信息时使得类Y的信息不确定性减少的程度。假设数据集D的信息熵为H(D)&#x…

ListView排序并隔色显示

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Collections; using System.Windows.Forms; using System.Drawing;namespace STools {class ListViewColumnSorter : IComparer{/**//// <summary>/// 指定按照哪个…

python多进程并发+pool多线程+共享变量

一&#xff0e;多进程 当计算机运行程序时&#xff0c;就会创建包含代码和状态的进程。这些进程会通过计算机的一个或多个CPU执行。不过&#xff0c;同一时刻每个CPU只会执行一个进程&#xff0c;然后不同进程间快速切换&#xff0c;给我们一种错觉&#xff0c;感觉好像多个程…

高通骁龙855发布,5G大幕拉开,新一轮手机大战在即

来源&#xff1a;网易智能摘要&#xff1a;高通终于公布下一代移动芯片骁龙855。美国时间12月4日&#xff0c;高通在美国夏威夷召开了第三届高通骁龙技术峰会&#xff0c;在峰会首日&#xff0c;骁龙855正式发布。并非外界传言的8150&#xff0c;高通还是沿用了之前的命名规则。…

机器学习的几种方法(knn,逻辑回归,SVM,决策树,随机森林,极限随机树,集成学习,Adaboost,GBDT)

一.判别模式与生成模型基础知识 举例&#xff1a;要确定一个瓜是好瓜还是坏瓜&#xff0c;用判别模型的方法是从历史数据中学习到模型&#xff0c;然后通过提取这个瓜的特征来预测出这只瓜是好瓜的概率&#xff0c;是坏瓜的概率。 举例&#xff1a;利用生成模型是根据好瓜的特…

大端小端模式

大端小端模式是指内存中的数据存储方式。 大端模式&#xff0c;指数据的高位字节存在内存的低地址&#xff0c;数据的低位字节存在内存的高地址。 小端模式&#xff0c;指数据的高位字节存在内存的高地址&#xff0c;数据的低位字节存在内存的低地址。 如十六进制数0x12345678&…

京东物联网战略大升级|与华为合作,疯狂发布新品,“养鱼”的京东正在物联网赛道上花式秀技术...

来源&#xff1a;物联网智库12月4日下午&#xff0c;在“智联万物 新响无限”2018年京东IoT战略发布会上&#xff0c;京东发布了其IoT领域的最新战略规划&#xff0c;推出了新的品牌“京鱼座”&#xff0c;还推出一系列合作品牌与硬件产品&#xff0c;该战略不仅是对去年5月9日…

centos下apache安装

安装环境&#xff1a;centos查找可安装的包&#xff1a;yum list httpd*安装&#xff1a;yum install httpd.x86_64查看安装包的所有安装文件&#xff1a;rpm -ql httpd 配置文件&#xff1a;/etc/httpd/conf/httpd.conf日志目录&#xff1a;/etc/httpd/logs页面存放路径&…

电动车的惊世骗局

来源&#xff1a;世界科技创新论坛摘要&#xff1a;新能源是一个很好的机会&#xff0c;技术也没有瓶颈&#xff0c;如果发展对了方向&#xff0c;十年扶持一两个世界领先水平的企业是没问题的。但如果有人趁机“钻空子”&#xff0c;让有限的资源被浪费&#xff0c;怕是很难有…

语义分割中的类别不平衡的权重计算

这是5幅图&#xff0c;加上背景共5类。 可以参考这篇文章https://blog.csdn.net/u012426298/article/details/81232386 对于一个多类别图片数据库&#xff0c;每个类别都会有一个class frequency, 该类别像素数目除以数据库总像素数目, 求出所有class frequency 的median 值&…

盘点百度、阿里、腾讯、华为自动驾驶战略

来源&#xff1a;智车科技摘要&#xff1a;本文中盘点了百度、阿里、腾讯、华为四家巨头的自动驾驶事迹&#xff0c;以及从车路协同、车联网、高精度地图等方面对四家公司进行了梳理。今年阿里9 月云栖大会、华为10 月全联接大会、百度11 月世界大会、腾讯11 月合作伙伴大会可以…

N 组连续子串最大和

数组 a 中有 M 个数 &#xff0c; 将 M 个数分成 N 组 &#xff0c; 并且每组中的数据顺序和原数组中的顺序保持一致&#xff0c;求 N 组中的数据之和最大为多少&#xff1f; 向 dp 数组中赋初始值 &#xff0c;如果 M N &#xff0c;则 dp[ i ][ i ] dp[ i - 1 ][ i - 1 ] …

计算机行业2019年度投资研究手册

来源&#xff1a;乐晴智库精选摘要&#xff1a;计算机服务于各行各业&#xff0c;担当各下游需求行业的重要工具&#xff0c;在技术上游电子元器件和通信的技术变迁中&#xff0c;计算机企业结合客户需求不断进行技术和模式创新以获取源源不断的成长动力。2014-2015年在4G及移动…