世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成...

a41cb3fc88571bf91cfbcde3a61cd568.png

来源:ScienceAI

编辑:陈萍、杜伟

如今,在蛋白质结构预测领域,各大厂也出现了「百家争鸣,百家齐放」。

今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质。现在,另一家科技巨头 Meta 正在填补另一空白,微生物领域。

简单来说,Meta 使用 AI 技术预测了约 6 亿种蛋白质结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。团队负责人 Alexander Rives 表示:「这些蛋白质是我们所知最少的结构,它们是非常神秘的蛋白质。我认为这些发现为深入了解生物学提供了潜力。」

通常,语言模型是在大量文本上进行训练的。Meta 为了将语言模型应用于蛋白质,Rives 的研究小组将已知的蛋白质序列作为输入,这些蛋白质由 20 种氨基酸组成,并用不同的字母表示。然后,该网络在遮蔽一定比例氨基酸的情况下学会了自动补全蛋白质。

Meta 将这个网络命名为 ESMFold。虽然 ESMFold 预测准确性不如 AlphaFold,但在预测结构方面,它比 AlphaFold 快约 60 倍。这一速度意味着可以将蛋白质结构预测扩展到更大的数据库。

b3024dc0ec617329839081648cc348aa.jpeg

论文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

项目地址:https://github.com/facebookresearch/esm

如今,作为测试,Meta 决定将他们的模型应用于宏基因组 DNA 数据库,这些 DNA 全部来自环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。Meta AI 宣布推出包含 6 亿多个蛋白质的 ESM 宏基因组图谱(ESM Metagenomic Atlas),它是首个蛋白质宇宙「暗物质」的综合视图。这还是最大的高分辨率预测结构数据库,比任何现有的蛋白质结构数据库都要大 3 倍,并且是第一个全面、大规模地涵盖宏基因组蛋白质的数据库。

514afe90d33e9145b88daac50c63d10d.jpeg

Meta 团队总共预测了超过 6.17 亿个蛋白质结构,只花了两周的时间。Rives 说,预测是免费的,任何人都可以使用,就像模型的底层代码一样。

6758ea19f68b5f842e67c9c721c26ff9.jpeg

交互版本地址:https://esmatlas.com/explore?at=1%2C1%2C21.999999344348925

举例而言,下图为 ESMFold 对 PET 酶的预测。

9d497f0e3b323354194ce614abb059cb.jpeg

引言

众所周知,蛋白质作为复杂且动态的分子,其由基因编码,主要负责生命基本过程。蛋白质在生物学中有着惊人作用。比如,人类眼睛中的视杆和视锥细胞可以感知光线,因而我们能看到外面的世界;构成听觉和触觉基础的分子传感器;植物中把光能转化为化学能的复杂分子;驱动微生物和人类肌肉运动的「马达」;分解塑料的酶;保护我们免受疾病的抗体,等等这些都是蛋白质。

1998 年,来自威斯康辛大学植物病理学部门的 Jo Handelsman 首次提出宏基因组学(Metagenomics)这一概念,它是源于将来自环境中基因集可以在某种程度上当成单个基因组研究分析的想法。

宏基因组学揭示了数十亿个对科学来说是新的蛋白质序列,并首次编入由 NCBI、欧洲生物信息学研究所 (European Bioinformatics Institute) 和联合基因组研究所 (Joint Genome Institute) 等公共项目编制的大型数据库中。

d34beb53d566c2fb16cc77d87086eeeb.jpeg

Meta AI 开发的新的蛋白质折叠方法,该方法利用大型语言模型,在宏基因组数据库中(具有数亿蛋白质)创建了首个全面的蛋白质结构视图。Meta 发现,相对于现有的 SOTA 蛋白质结构预测方法,语言模型可以将预测蛋白质原子级三维结构的速度提高 60 倍。这一进展将有助于加速蛋白质结构理解的新时代,这是首次人类有可能了解基因测序技术正在编目的数十亿蛋白质的结构。

解锁隐藏的自然世界:宏基因组结构空间的首个综合视图

我们知道,基因测序的进步使得对数十亿个宏基因组蛋白序列进行编目成为可能。但是,通过实验确定数以亿计蛋白质的 3D 结构远远超出了时间密集型实验室技术的范围,例如 X 射线晶体学,它可能需要数周乃至数年的时间来检测单个蛋白质。计算方式可以让我们深入了解使用实验技术无法实现的宏基因组学蛋白质。

ESM 宏基因组图谱将使科学家能够在数亿蛋白质的尺度上搜索和分析宏基因组蛋白质的结构。这可以帮助识别以前未被表征的结构,寻找遥远的进化关系,并发现可用于医学和其他应用的新蛋白质。

如下为一张包含数以万计高置信度预测的图谱,展示了与目前已知结构的蛋白质的相似性。并且,该图像首次显示了完全未知的蛋白质结构空间的更大区域。

c967b3266ccf26b180ee54bb5eea8b12.jpeg

学习阅读生物学语言

如下图所示,ESM-2 语言模型经过训练,可以预测进化过程中被序列掩盖的氨基酸。Meta AI 发现,作为训练的结果,蛋白质结构的信息出现在该模型的内部状态中。这实在令人惊讶,因为该模型仅在序列上进行了训练。

30dfaa34664d706afb1b521651d2562d.jpeg

就像论文或信件的文本一样,蛋白质可以写成字符序列。其中,每个字符对应 20 种标准化学元素(氨基酸)中的一种,每种又具有不同的特性,它们是蛋白质的构建块。这些构建块能够以天文数字的不同方式组合在一起,例如对于由 200 个氨基酸组成的蛋白质,存在 20^200 个可能的序列,这要比可见宇宙中的原子数量还要多。每个序列都折叠成 3D 形状(但并非所有序列都会折叠成连贯的结构,许多序列折叠成无序形式),正是这种形状在很大程度上决定了蛋白质的生物学功能。

学习阅读这种生物学语言带来了很大挑战。虽然蛋白质序列和文本段落都可以写成字符,但它们之间存在着深刻而根本性的差异。蛋白质序列描述了一个分子的化学结构,该分子根据物理定律折叠成复杂的 3D 形状。

蛋白质序列包含了传递蛋白质折叠结构信息的统计模式。举例而言,如果一个蛋白质中的两个位置共同进化,或者换言之,如果其中一个位置出现某种氨基酸,通常与另一个位置的某种氨基酸配对,这可能意味着这两个位置在折叠结构中相互作用。这类似于拼图游戏中的两块拼图,进化必须选择在折叠结构中拼合在一起的氨基酸。这又意味着我们通常可以通过观察蛋白质序列中的模式来推断蛋白质的结构。

ESM 使用 AI 来学习阅读这些模式。2019 年,Meta AI 提供证据证明语言模型学习了蛋白质的特性,例如它们的结构和功能。通过一种被称为掩码语言建模的自我监督学习形式,Meta AI 在数百万个天然蛋白质的序列上训练了一个语言模型。使用这种方法,模型必须正确填写文本段落中的空白,例如「To _ or not to , that is the _____」。

之后,Meta AI 训练了一个语言模型来填补蛋白质序列中的空白。他们发现,蛋白质结构和功能的信息在这一训练中浮现了出来。2020 年,Meta 发布了一个 SOTA 蛋白质语言模型 ESM1b,用于各种应用,包括帮助科学家预测 COVID-19 的演变以及发现疾病的遗传原因。

现在,Meta AI 扩展了这种方法,用来创建下一代蛋白质语言模型 ESM-2,它的参数为 150 亿,是迄今为止最大的蛋白质语言模型。他们发现,当模型参数从 800 万放大到 150 亿时,内部表示中会出现信息,从而能够以原子分辨率进行 3D 结构预测。

将蛋白质折叠实现数量级加速

在下图中,随着模型的扩大,高分辨率的蛋白质结构出现。同时随着模型的缩放,蛋白质结构的原子分辨率图像中会出现新的细节。

0c19225db88a7ea74a33870c1f3e0a5d.gif

使用当前 SOTA 计算工具,在实际时间范围内预测数亿蛋白质序列结构可能花费数年时间,即便用上主要研究机构的资源也是如此。因此,想要在宏基因组尺度上进行预测,预测速度的突破至关重要。

Meta AI 发现使用蛋白质序列的语言模型大大加快了结构预测的速度,最高提升 60 倍。这足以在短短几周内对整个宏基因组数据库做出预测,并且可以扩展到比我们当前发布的数据库大得多的数据库。事实上,这种新的结构预测能力能够在短短两周内,在大约 2000 个 GPU 组成的集群上预测超过 6 亿多个宏基因组蛋白的序列。

此外,当前 SOTA 结构预测方法需要搜索大型蛋白质数据库以识别相关序列。这些方法实际上需要一整组进化相关的序列作为输入,以便它们可以提取与结构相关的模式。Meta AI 的 ESM-2 语言模型在其对蛋白质序列的训练过程中学习这些进化模式,进而能够直接从蛋白质序列中对 3D 结构进行高分辨率预测。

下图展示了使用 ESM-2 语言模型进行蛋白质折叠。箭头从左到右显示了网络中从语言模型到折叠 trunk 再到结构模块的信息流,最后输出 3D 坐标和置信度。

85f290ed642953b5ab8c0fa19ccbe4d5.jpeg

更多详细内容请参阅原文。

博客链接:https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

5d3384a68964b5f7705f97153786c0f0.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481435.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌用AI研发「乒乓球机器人」,4分钟对拉300多次,还能指哪打哪!

一个人怎么练习乒乓球?或许这事你可以问问谷歌。最近,谷歌又玩新花样,这回是乒乓球机器人AI 项目,号称和人类对战时能够连续接球340次?!要知道,让解说员激动到破音的「乒乓球史上最疯狂一球」—…

【网络搜索】学习资料

文章目录1.综述2.相关技术3.课程4. 论文4.1综述召回预训练4.2 相关模型及论文5.书6. 博客6.1 电商搜索QP:Query Processor相关性1.综述 微软综述视频,较老但不过时 2.相关技术 相关技术目录 3.课程 北邮《网络搜索原理》2020 4. 论文 sigir 4.1综…

论文新鲜出炉 - 数学家张益唐攻克 Landau-Siegel 零点猜想(2022-11-05)

来源:北大大纽约校友会感谢钱朝晖师兄、贾德星师兄的分享。张益唐老师厉害,出来了!虽然还有待数学权威机构认定,但以张老师的性格,没有攻克他不会轻易公开。看了一下PDF时间戳,是昨天的:2022-11…

神奇!一篇不足700字的论文,竟然能发表在Science上

来源:彭聃龄科学网博客 作者:彭聃龄(北京师范大学教授)文字:南方配图:南方排版 :南方一篇不足700单词的文章为什么能发表在国际顶级期刊 Science 杂志上?刊登在 Science 上的这篇文…

【搜索/推荐排序】FM,FFM,AFM,PNN,DeepFM:进行CTR和CVR预估

文章目录1.FM1.1代码-是否点击预测效果和参数量级1.3 和其他模型的比较SVMMF2. FFMone-hot的比较eg训练注意事项效果和参数量级实现3. AFM4.FNN/PNN4.1 FNN4.2 PNN5. DeepFM与Wide&Deep比较与NFMFM 本来就可以在稀疏输入的场景中进行学习,为什么要跟 Deep 共享稠…

科学家首次3D生物打印出血管化肿瘤,并成功使用免疫疗法治疗

近些年,癌症治疗领域不断取得了突破性进展,但仍缺乏标准化和生理相关的体外测试平台。一个关键性障碍是肿瘤微环境和免疫反应之间复杂的相互作用。因此,该领域研究人员不得不依赖临床试验来测试治疗效果,最终限制了抗癌治疗药物的…

【搜索/推荐排序】总结

文章目录1.进化路线2. 公式比较1.进化路线 LR:没有较叉项->FM:LR交叉项,一个特征一个向量->FFM:一个特征对每一个field(属性名)的交互有一个向量,一个特征有一个特征矩阵。->AFM:每个内积都有一个权重&#…

人工智能帮助揭秘生物衰老的原理

编辑 | 萝卜皮年龄是流行疾病和死亡的主要风险因素。然而,人们对与年龄相关的生理变化和寿命之间的关系知之甚少。新加坡 Gero PTE 公司的研究人员结合分析和机器学习工具来描述大量纵向测量中的老化过程。假设衰老是由有机体状态的动态不稳定性引起的,该…

DALL-E 2的错误揭示出人工智能的局限性

OpenAI的文字图像转换器与文本、科学和偏见作斗争。在2022年4月,人工智能(AI)研究实验室OpenAI继2021年推出的DALL-E后,又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像,包括照…

【搜索/推荐排序】NCF,DeepCross,Deep Crossing,高阶:AutoINt,AFN

文章目录0.交叉特征1.NCF1.1 问题:基于FM的问题问题动机:神经网络替代点积1.2 NCF模型图1.3代码2. Deep Crossing:微软:ResNet3.Deep&Cross4. AutoInt(19)摘要贡献相关工作:模型结构优缺点实…

中国指挥与控制学会关于申请加入《城市大脑系列建设标准规范》第二批团体标准参编单位的通知...

来源:中国指挥与控制学会各有关单位和相关专家:2022年04月14日,中国指挥与控制学会组织召开立项评审会,与会专家审议通过了8个相关团体标准的立项申请。2022年9月1日,《城市大脑系列建设标准规范》首批三项团体标准《城…

【搜索/推荐排序】Pairwise:BPR

1.BPR 1.1 做法 构建样本对假设背后是某个常见模型:如MF排序对成立情况下倒推U/V向量,计算UV乘积,得到完整评分矩阵 矩阵分解:XˉWHT\bar{X}WH^TXˉWHT 贝叶斯:P(θ∣>u)P(>u∣θ)P(θ)P(>u)P(\theta|>_…

见证历史!数学家张益唐北大讲座:本质上已证明“零点猜想”,111页论文已公开...

来源:AI前线整理:凌敏有数论学者表示,张益唐有关朗道 - 西格尔零点猜想的论文结果意义重大,使得以前的很多结果从假设性结果变成了确定性结果。张益唐在北大作“零点猜想”学术报告11 月 8 日上午 9 点,数学家张益唐在…

【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review

Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录管道语义模型1.召回形式化1.0 Indexing MethodsThe inverted index倒排索引approximate nearest neighbor (ANN)1.1 classical term-based retrieval methods,VSM概率方法BIM二元独立模型语言模…

Science 封面 4 文连发:大脑分区不是功能关键!智慧从脑区间连接中诞生

来源:深度学术搜索是时候重新认识一下我们大脑的运行原理了!最新一期顶刊Science,以特刊的形式连发 4 篇论文,剑指同一核心要点:大脑各种功能的关键,并不在于各脑区独立完成特定功能,而在于不同…

【信息检索导论1】布尔模型

1.Information Retrieval 定义: Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). web search…

一个基于 Transformer 的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群...

编辑 | 萝卜皮通过组蛋白修饰对转录控制的定量表征受到许多计算研究的挑战,但其中大多数只关注启动子周围的狭窄和线性基因组区域,留下了改进的空间。韩国首尔大学的研究人员提出了 Chromoformer,这是一种基于 Transformer 的三维染色质构象感…

【搜索排序】预训练综述Pre-training Methods in Information Retrieval

文章目录相关性效率系统预训练word embeddingtransformers2. 召回阶段2.1 Sparse Retrieval Models2.2 Dense Retrieval Models。2.3 混合方式3.re-rank阶段4. 其他组件4.1 在query理解上4.2 在doc理解上:未来工作数据集数据集中排行榜信息检索中的花式预训练综述&a…

i-Refill | 张益唐:虽未实现大海捞针,但摸透了整个海底的情况

来源:IDG资本#i-Refill欢迎回到本周的i-Refill! 我们知道,黎曼猜想是当代数学领域内最重要的待解决问题之一,很多深入和重要的数学及物理结果都将在它成立的大前提下得到证明。10月中,我们围绕数学家张益唐承认已攻克黎曼猜想的弱…

【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

文章目录数据集3. 同一框架4. 模型结构-对称与非对称对称结构:s,t可互换siamese networksSymmetric interaction networks,非对称结构query splitdocument splitJoint split,one-way attention mechanism基于表示的模型和基于交互的模型representation-focused arch…