语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了

26c0fbc3f24231673d09e52a2d020c9d.png

来源:药学前沿进展

Meta:设计蛋白质这件事,语言模型就能干。

用机器学习去研究蛋白质结构预测,吸引了众多科技大厂、科研机构的目光纷纷投入其中,这期间,他们也产出了重要成果。

如在 2021 年 《Science》的十大年度突破中,DeepMind 携预测蛋白质结构的 AI 模型 AlphaFold 上榜,在这项工作的基础上,研究人员现在已经使用人工智能来设计可用于疫苗、建筑材料或纳米机器的全新蛋白质。

在《Science》今年 9 月发表的一篇论文中,华盛顿大学医学院生物化学教授 David Baker 等研究者提出,AI 可以通过两种思路从头设计蛋白质。

当然,对这一领域的热情,自然也少不了 Meta 的加入,就在刚刚过去的 11 月,Meta 拿下微生物领域蛋白质结构预测,开放 6 亿 + 宏基因组蛋白质结构图谱,这是首个蛋白质宇宙「暗物质」的综合视图。

时间刚刚过去一个月,在 FAIR 公布的最新两篇论文中,该研究发现 ESM2 语言模型通过学习深层语法,就能生成天然蛋白质以外的新蛋白质,并可以编程生成复杂和模块化的蛋白质结构。其中 ESM2 模型参数为 150 亿,是迄今为止最大的蛋白质语言模型

3b4b7143c02bb768110217e2744832a1.gif

Yann LeCun 在推特上表示:FAIR 开发的新蛋白质设计系统,可以产生与自然界中观察到的蛋白质完全不同的蛋白质;在这个蛋白质设计系统之上,蛋白质可以通过一种编程语言来指定。

b61820de6a262057b8255dd546f54785.jpeg

078b6ea6880ed6dd14331f8965d82a4d.jpeg

在论文《Language models generalize beyond natural proteins》中,ESM2 通过学习深层语法,成功设计了 152 种蛋白质

6600ca89c5425155b77f954683a751c3.jpeg

论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf

在论文《A high-level programming language for generative protein design》中,该研究实现了一种用于生成蛋白设计的高级编程语言。这使得编程生成具有复杂和模块化结构的大蛋白质和复合物成为可能。

3dada1ef3cd931fac2392daca7fb643b.jpeg

论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf

ESM2 设计蛋白质

在论文《Language models generalize beyond natural proteins》中,研究者专注于两个蛋白质设计任务:

  • 指定结构的固定骨架设计;

  • 从模型中采样结构的无约束生成。

尽管语言模型仅针对序列进行训练,但该研究发现它们能够设计结构。在该研究的实验结果中,一共生成了 228 种蛋白质,设计成功的比率是 152/228(67%)。

在 152 个实验成功的设计中,有 35 个与已知的天然蛋白质没有明显的序列匹配。

对于固定主干设计,语言模型成功为 8 个经过实验评估的人工创建的固定主干目标生成了蛋白质设计。

对于不受约束生成的情况,采样的蛋白质涵盖了不同的拓扑结构和二级结构组成,结果具有很高的实验成功率 71/129(55%)。

该研究用语言模型设计的蛋白质反映了连接序列和结构的深层模式,包括已在自然结构中出现的基序,和在已知蛋白质的结构环境中未观察到的基序。实验结果表明,语言模型虽然只接受序列训练,但通过学习深层语法就可以设计蛋白质结构,并且设计出自然界中未出现过的蛋白质。

下图 1 是 ESM2 模型设计蛋白质的总体流程:

846dfa218bddeb1f3839d29fc2aed093.jpeg

该研究通过分析比较,归纳出语言模型在蛋白质设计过程中的作用,如下图 2 所示:

5da5c00c231b0be066f37dc0dbe44844.jpeg

实验结果表明,ESM2 模型能够生成自然界已有的蛋白质结构和全新的蛋白质结构

a041711ccd7770c9f099c08501cfdefd.jpeg

cd4c54851e03bc89ba6b11c01f5df3aa.jpeg

一种用于生成蛋白质设计的高级编程语言

对于蛋白质来说,我们不能将其分解为易重组部分,因为蛋白质序列的局部结构纠缠在其全局背景中,传统的设计方法试图确定一组基本的结构构件,然后在组装成更高阶的结构。然而,现有方法还不能达到真正可编程性所必需的高度组合复杂性。

该研究从模块化和可编程性入手,将两者置于更高的抽象层次,蛋白质设计者只需要重新组合高级指令,然后在生成模型上执行指令即可。

他们提出的生成蛋白质设计的编程语言,允许设计人员指定直观、模块化和分层的程序。该编程语言首先需要一个语法树 (图 1A),由末端符号 (即树的叶子) 和非末端符号 (即树的内部节点) 组成,前者对应一个独特的蛋白质序列 (在蛋白质中可能重复),后者支持分层组织。

此外还需要一个基于能量的生成模型。首先,蛋白质设计器指定一个高级程序,该程序由一组按层次组织的约束组成(图 1A)。然后,该程序编译为一个能量函数,用于评估与约束的兼容性,约束是任意的且不可微的(图 1B)。最后通过将原子级结构预测(由语言模型支持)合并到能量函数中,可以生成大量复杂的蛋白质设计(图 1C)。

5293bf621f98f6e5ab7d235a7af1b9fe.jpeg

下图为模型生成的高置信度结构(图 2A 和 2B)。

568566a755a8b5c90fb3b804d8bab0a3.jpeg

图 2。

下图为生成模型产生了一组不同的高置信度结构(图 3B、S2A 和 S2B),包括自然界中蛋白质的各种折叠(卷曲螺旋、β 螺旋桨状、β 桶状和 TIM 桶状)以五角星形状蛋白质(图 3B 中的第 1 行和第 3 列)和立方体状蛋白质 (图 3B 中的第 2 行和第 2 列)。

e84ab2938e88df4c5dc1025d9c64b3b5.jpeg

图 3。

了解更多研究,请参考原论文。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

37513f9f503a8e3c0032b67dc7059323.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481234.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

神经网络中的偏置项b到底是什么?

前言很多人不明白为什么要在神经网络、逻辑回归中要在样本X的最前面加一个1,使得 X[x1,x2,…,xn] 变成 X[1,x1,x2,…,xn] 。因此可能会犯各种错误,比如漏了这个1,或者错误的将这个1加到WX的结果上,导致模型出各种bug甚至无法收敛。…

【重版】朴素贝叶斯与拣鱼的故事

重版公告由于小夕之后要讲的好几篇文章要基于这一篇的知识,但是以前写的的这篇文章对朴素贝叶斯的讨论不够深入,又不值得再额外写一篇朴素贝叶斯啦,因此本文重版了以前的文章《朴素贝叶斯》。与旧版相比,新版对基础知识的讲解进行…

2022,这些国之重器让人眼前一亮!

来源:新华社2022即将收官这一年我们有许多难忘的回忆回顾,是为了更好出发我们将这一年各领域走过的壮阔征程制作成了精美的系列海报第一期让我们来看看那些让人眼前一亮的国之重器它们——上天入海!乘风破浪!贯通聚能!…

逻辑回归与朴素贝叶斯的战争

0一起走过的首先,小夕带领大家回顾一下文章《逻辑回归》、《Sigmoid与Softmax》、《朴素贝叶斯》中的几点内容,这几点内容也是本文的前置知识:1. 逻辑回归模型的表达式(假设函数):,其中。2. 逻辑回归模型本质上是二类分…

OpenAI年底上新,单卡1分钟生成3D点云,text-to 3D告别高算力消耗时代

来源:大数据文摘授权转载自HyperAI超神经作者:三羊OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 PointE。text-to-3D:…

机器学习相关从业者如何兼顾理论与工程能力

理论与工程首先,小夕说一下自己目前对理论与工程的理解吧,这也是小夕当前研究理论和熟练工程时主要的出发点。(仅为个人思考,请勿当成真理理论注重的是学科中各个知识点的大一统,将各种散乱的算法、现象、技巧来归结到…

万字拆解!追溯ChatGPT各项能力的起源

导语一篇十分深度剖析GPT系列模型的文章,作者翻译成了中文,在这里分享给大家。来源:李rumor作者:符尧, yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学与 彭昊&#xff0…

用excel做数据分析

我们先来看看某公司全国产品销售的报表(截取了部分) 某公司全国产品销售的报表通过货品销售数据案例,需反映如下结果: 货品销售情况货品交货情况销售货品结构构成货品销售区域构成货品按时交货与合格品综合评价 我们使用 excel 进…

消失了一周的小夕在玩什么啦?

啊,你们的小夕回来啦~有没有被吓到( ̄∇ ̄)0小夕在玩什么小夕,终于,在今天,把,各种deadline,完成了(Д )首先,小夕要像大家深深的说一声谢谢啦。好多天没有打开订阅号的后台…

第四届泰迪杯数据挖掘大赛

<script src"//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script> <link rel"stylesheet" href"//at.alicdn.com/t/font_422887_vrqbpml6oos.css"><!--top-header begin-->云栖社区博客问答聚…

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源&#xff1a;机器之心作者&#xff1a;Ting Chen 等 编辑&#xff1a;赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型&#xff0c;一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务&#xff0c;该任务旨在为图像的每个像素指定语义标…

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客&#xff1b;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是&#xff1a;先从一组无标签数据中学习特征&#xff0c;然后用学习到的特征提取函数去提取有标签数据特征&#xff0c;然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源&#xff1a;生物通如果B细胞是免疫系统的兵工厂&#xff0c;制造抗体来中和有害的病原体&#xff0c;那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色)&#xff0c;点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中&#xff0c;小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python&#xff0c;辅C&#xff0c;备用matlab和java”疑问较大&#xff0c;小夕在此详细解释一下&#xff0c;也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池&#xff0c;我们今天所获取到的数据都是来源于这里。无论是C店还是B店&#xff0c;统统都有机会进来。这个平台最有价值的数据&#xff0c;就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力&#xff0c;正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而&#xff0c;mRNA 分子的全球分布受到其热稳定性的限制&#xff0c;这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …

线性代数应该这样讲(一)

前言小夕为什么要讲线性代数呢&#xff1f;因为有人已经做了机器学习一段时间了&#xff0c;竟然认为矩阵就是用来存储数据的。小夕表示非常震惊。而深刻透彻的理解核函数、PCA、LSI、谱聚类等以空间映射为理论核心的机器学习理论时&#xff0c;靠大学里教的那一套线性代数&…

震惊!丧心病狂的夕小瑶推出新一轮写作计划!

时至今日&#xff0c;距离小夕发布的第一篇正式文章已经过去整三个月啦。今天又回头看了一下自己写的第一篇文章&#xff0c;不禁有点感慨“文风”变了这么多&#xff0c;甚至有点受不了第一篇文章中的萌气了\(//∇//)\然后文章还写的不怎么样。。。虽然第一篇文章写的好差&…

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA...

来源&#xff1a;机器之心编辑&#xff1a;nhyilin人类似乎对不同的学习模式有着相似的认知&#xff0c;机器也应该如此&#xff01;>>>>自监督学习能在各种任务中学习到分层特征&#xff0c;并以现实生活中可使用的海量数据作为资源&#xff0c;因此是走向更通用人…