模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞。

在这里插入图片描述

能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。
继AlphaFold 3更新后,我们又看到了一个生命科学领域的大模型ESM3。

模型开发团队来自于名为Evolutionary Scale AI的初创公司,团队负责人Alex Rives在推特上官宣了模型发布的消息。

这个令人振奋的消息也得到了Yann LeCun的转发,他表示,你们这个公司有点「闷声发大财」的意思。

在这里插入图片描述

相比AlphaFold系列,ESM3有什么竞争优势?

首先就是Meta团队轻车熟路的——开源。

虽然模型API仍处于内测阶段,需要申请试用资格,但模型代码已经放到了GitHub上。而且公司还会与AWS和英伟达云计算平台合作,方便开发者使用和部署。

仓库地址:https://github.com/evolutionaryscale/esm

但比较遗憾的是,目前在HuggingFace仓库中还没有公开模型权重。英伟达官方博客显示,ESM3将在Nvidia BieNeMo平台提供一个小型开源版本的代码和权重,但仅限于非商业用途。

仓库地址:https://huggingface.co/EvolutionaryScale/esm3-sm-open-v1/tree/main

此外,ESM3与不同于模拟多种生物分子的AlphaFold 3,只专注于蛋白质,但可以同时推理其序列、结构和功能,这种多模态能力属于领域首创。

更让人耳目一新的是,ESM3在自然界中27.8亿个多样化蛋白质上进行训练,逐渐学习到了进化过程如何让蛋白质发生变化。

从这个角度来看,ESM的推理过程可以被视为「进化模拟器」,这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟5亿年进化」的标语。

或许你已经注意到了,ESM这个名字和Meta之前的蛋白质模型ESMFold非常类似。

这并不是有意擦边。事实上,Evolutionary Scale这家初创公司就是Meta-FAIR蛋白质小组的前成员创办的,公司的首席科学家Alex Rives正是这个已解散团队的前负责人。

去年8月,在Meta的「效率年」中,扎克伯格选择解散了只有十几名科学家的蛋白质小组,让公司专注于更有盈利前景的研究。

但Rives并没有被Meta的这种举动吓倒,而是决定自立门户,他们目前已经筹集了1.42亿美元的种子资金。

那么就来仔细看看,这次的ESM3具体有哪些新内容?

ESM3:生物学的前沿语言模型

生命科学并不像我们想象的那般神秘莫测、不可捉摸。

蛋白质分子虽然有难以置信的多样性和动态变化,但是它的合成遵循严密的算法与流程。如果把它看成一门技术,其先进程度远远超过任何人类创造的工程。

生物学,就是一个厚厚的密码本。

只不过,这个密码本是用我们尚未理解的语言写就的,即使是当今最强超算上运行的工具也不过触及皮毛。

如果人类能够阅读,甚至是书写「生命代码」,就能使生物学变得可编程。试错法将被逻辑取代,费力的实验将被模拟所取代。

ESM3就是朝这个宏伟愿景迈出的一步,是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。

过去五年中LLM的突飞猛进,也让ESM团队发现了Scaling Law的威力,他们发现,同样的模式也适用于生物学。

随着训练数据以及参数规模的扩大,模型会加深对生物学基本原理的理解,并能更好地预测、设计生物结构和功能。

因此,ESM3的开发思路也与Scaling Law一脉相承,其规模比上一代ESM大大扩展,数据量提高了60倍,训练计算量提高了25倍,并且是具有原生多模态的生成模型。

ESM3的训练过程囊括了地球自然环境的多样性——数十亿种蛋白质,从亚马逊雨林到海洋深处,小到土壤中的微生物,极端到深海热泉。

HuggingFace上的模型卡显示,训练集中天然蛋白质数量达到27.8亿,并通过合成数据增强到31.5亿个序列、2.36个结构以及5.39亿个带有功能注释的蛋白质,token总数达到7710B。

模型训练参数总量达到98B,使用了超过1024 FLOPS的算力。团队似乎与英伟达紧密合作,训练使用了Andromeda集群,是当今吞吐量最高的GPU集群之一,部署了最先进的H100 GPU和Quantum-2 InfiniBand网络。

在这里插入图片描述

网页来源:https://andromeda.ai/
他们表示「相信ESM3的计算总量是有史以来生物模型之最」。

推理蛋白质的序列、结构和功能
处理文本的语言模型一般以token作为基本单位,但多模态的蛋白质模型更加复杂,需要将序列、三维结构和功能都转换为离散的字母进行表示。

为了更好地扩展训练规模、释放模型的「涌现」生成潜力,ESM3使用的词汇在同一语言模型中能够很好地连接序列、结构和功能,进行联合推理。

不同于GPT等语言模型,ESM3的训练目标继承于掩码语言模型(masked language modeling objective)。

每个蛋白质的序列、结构、和功能的部分位置会被掩码,模型在训练过程中需要逐渐理解三者之间的深层联系,从而预测掩码位置。如果遮蔽所有位置的标记,就相当于执行生成任务。

由于在蛋白质的序列、结构和功能上联合训练,对这三种模态可以任意进行掩码和预测,因此ESM3实现了「全对全」预测或生成(all to all)。

也就是说,模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值,科学家们能以前所未有的灵活度和控制度设计全新的蛋白质。

比如,可以提示模型结合结构、序列和功能,提出PET酶活性位点的潜在支架结构。PET是一种常用的塑料,如果PET酶设计成功,就能用于高效分解塑料废物。

在这里插入图片描述

ESM3通过序列、结构和功能的多模态提示设计PET酶活性位点的支架

Evolutionary Scale的联合创始人兼兼工程副总裁Tom Sercu表示,在内部测试中,ESM在应对各种复杂提示时表现出了令人印象深刻的创造力。

「它能够解决一个极其困难的蛋白质设计问题,创造一种新型绿色荧光蛋白。ESM3能够帮助科学家加速工作,开辟新的可能性——我们期待看到它在未来对生命科学研究的贡献。」

当数十亿个蛋白质来自进化时间轴上的不同位置,具有丰富的多样性时,模型还能学到模拟进化的能力。

能力随规模涌现
正如LLM在规模扩展中「涌现」出了语言理解、推理等能力,在解决有挑战性的蛋白质设计任务时,ESM3也随规模增加逐渐显现能力,其中一个重要的能力就是原子级协调。

比如,提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近,但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。

这对于设计功能性蛋白质至关重要,而ESM3解决这类复杂生成任务的能力可以随着规模增加逐渐提高。

不仅如此,在训练完成后,ESM3的能力还有进一步提升的空间,其机制类似于LLM常用的RLHF方法。

但区别在于,ESM3并不是从人类那里接受反馈,而是可以评估自身的生成质量,进行自我改进,也可以结合已有的实验数据和湿实验结果,让ESM3的生成与生物学结果保持对齐。

在这里插入图片描述

模拟5亿年的进化

在发表的论文中,ESM3团队详细介绍了他们在模型上观察到的「模拟进化」功能。

论文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

绿色荧光蛋白(Green Fluorescent Protein,GFP)及其荧光蛋白家族是自然界中最美丽的蛋白质之一,但它们只存在于「生命之树」的几个分支中。

但GFP不仅仅是美丽而已,它包含一种荧光发色团(fluorescent chromophore)。这种分子可以吸收短波长的单色光子、捕获部分能量,再释放出波长较长的另一种单色光子。比如,自然界存在的GFP可以吸收蓝光并发出绿光。

由于这种特性,GFP能够作为标记,帮助科学家在细胞内观察蛋白质,成为了生物学中最广泛使用的工具之一,GFP的发现也因此获得了诺贝尔奖。

GFP的功能如此独特且有用,结构也是非常罕见:由十一条链组成的桶状结构,中间穿过一条螺旋。折叠后进行自发反应,在蛋白质中心的分子会重新排列,产生荧光发色团。

这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团,这表明即使在自然界中,产生荧光也是相当罕见且困难的。

为了能在实验室有更广泛的应用,科学家们尝试添加突变或改变颜色,进行人工合成。最新的机器学习技术能够搜索到序列差异高达20%的变体,但功能性GFP的主要来源依旧是自然界而非蛋白质工程。

想在自然界中找到更多的变体也并不简单,因为新荧光蛋白的进化需要漫长的时间——GFP所属家族的历史相当久远,它们从祖先序列中分化出来的时间点能追溯到数亿年前。

这个棘手的问题或许能在ESM3这里得到解决。

将天然GFP核心结构中几个位点的信息作为提示,并使用CoT技巧,ESM3成功生成了新型GFP的候选者。

这种生成绝不可能是随机撞大运或者是全局搜索,因为可能的序列和结构的组合起来会达到天文数字——20229 x 4096229 ,比可见宇宙中所有的原子数加起来还要多。

在首次实验中,团队测试了ESM3生成的96个候选蛋白,其中出现了成功的发光样本,而且存在一种十分独特的结构,与自然界中任何蛋白质都相差甚远。

在另一组96个候选样本中,发现了几种亮度与天然GFP相似的蛋白质,其中一种亮度最高的蛋白质被命名为esmGFP,与最接近的天然荧光蛋白相比有96个突变(在229个氨基酸组成的序列中,有58%的相似部分)。

与自然进化不同,蛋白质语言模型并不在进化约束内明确工作。

但为了让ESM3解决其预测下一个掩码token的训练任务,模型必须学习进化如何在潜在蛋白质空间中演变。

从这个意义上说,ESM3生成与天然蛋白十分相似的esmGFP的过程,可以被视为一种进化模拟器。

对esmGFP进行传统的进化分析是自相矛盾的,因为它是在自然过程之外创造的,但仍可以从进化生物学的工具中获得洞见,了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。

因此,研究团队使用进化生物学的方法,把esmGFP当成自然界新发现的蛋白质进行分析。他们估计,esmGFP等效于进化模拟器执行的超过 5 亿年的自然进化。

在这里插入图片描述

开放模型

自成立以来,ESM项目(ESM project)一直致力于通过发布代码和模型来实现开放科学。目前仍能在GitHub和HuggingFace上找到团队在几年前发布的代码和模型权重。

仓库地址:https://huggingface.co/facebook/esm2_t36_3B_UR50D/tree/main
看到ESM模型在研究和工业领域的创造性和有影响力的应用,可谓是令人惊叹:

  • Hie等人使用ESM-1v和ESM-1b来进化抗体,改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。
  • BioNTech和InstaDeep微调了一个ESM语言模型,用于检测COVID刺突蛋白中的变异,成功地在WHO指定之前标记了所有16种关注变异。
  • Brandes等人使用ESM-1b来预测突变的临床效果,目前这仍是完成该重要任务的最强方法。
  • Marsiglia等人使用ESM-1v来设计新的抗CRISPR蛋白变体,这些变体在保持目标编辑功能的同时,减少了对非目标副作用。
  • Shanker等人使用ESM-IF1引导多样蛋白的进化,包括实验室验证的对SARS-CoV-2高效抗体。
  • Yu等人微调了ESM-1b来预测酶的功能,包括稀有和研究不足的酶,并通过实验验证了预测结果。
  • Rosen等人使用ESM2嵌入来构建单细胞基础模型中的基因表示。
  • Høie等人微调了ESM-IF1在抗体结构上的表现,在CDR区域的序列恢复中达到了最先进的性能,设计出了高结合亲和力的抗体。
    而这些,只是建立在ESM平台上的惊人工作的一小部分!

如今,团队正式宣布,将发布一个ESM3 1.4B参数版本的权重和代码,以便科学家和开发人员能够基于ESM3的理念和架构进行构建。

参考资料:
https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/

https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

https://www.evolutionaryscale.ai/blog/esm3-release

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41044.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【动态规划】动态规划一

动态规划一 1.第 N 个泰波那契数2.面试题 08.01. 三步问题3.使用最小花费爬楼梯4.解码方法 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励,我们一起努力吧!😃😃 1.…

[k8s生产系列]:k8s集群故障恢复,etcd数据不一致,kubernetes集群异常

文章目录 摘要1 背景说明2 故障排查2.1 查询docker与kubelet状态2.2 查看kubelet服务日志2.3 重启docker与kubelet服务2.3.1 首先kubelet启动起来了,但是报错master节点找不到2.3.2 查询kubernetes集群服务,发现etcd与kube-apiserver均启动异常 2.4 etcd…

【Pyhton】读取寄存器数据到MySQL数据库

目录 步骤 modsim32软件配置 Navicat for MySQL 代码实现 步骤 安装必要的库:确保安装了pymodbus和pymysql。 配置Modbus连接:设置Modbus从站的IP地址、端口(对于TCP)或串行通信参数(对于RTU)。 连接M…

公用对象池

什么是对象池? 对象池顾名思义就是存放对象的池子,主要是为了重复利用对象。将不用的对象扔进池子里,需要用的时候再从池子中取出来。这样的一套机制我们称为对象池。 为什么用对象池? 其实从定义我们就可以看出来,…

算法金 | 我最常用的两个数据可视化软件,强烈推荐

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 抱个拳,送个礼 预警:今天文章的描述可能会让你有点别扭;如感到不适,请及时停止 在我行…

MacOS 安装 mtr 网络检测工具

Install sudo brew install mtr sudo chown root $(which mtr) sudo chmod us $(which mtr) sudo chown root $(which mtr-packet) sudo chmod us $(which mtr-packet) Test mtr google.com

C# WPF 3D 数据孪生 系列六

数字孪生应用开发 应用开发中的布局需求 Grid基本使用 WPF 3D绘图 点云 系列五-CSDN博客 WPF UI 3D 多轴 机械臂 stl 模型UI交互-CSDN博客 WPF UI 3D 基本概念 点线三角面 相机对象 材质对象与贴图 3D地球 光源 变形处理 动作交互 辅助交互插件 系列三-CSDN博客 数字孪生 介…

015-GeoGebra基础篇-定点旋转物体、动态显示数值并显示运动轨迹

这可能是我能想到的最大概率可以被你搜索到的标题了,容我先喘口气~ 目录 一、成品展示二、涉及内容三、做图步骤(1)绘制三角形t(2)建立定点D(3)制作角度滑动条(4)图形绕点…

嵌入式Linux系统编程 — 6.7 实时信号

目录 1 什么是实时信号 2 sigqueue函数 3 sigpending()函数 1 什么是实时信号 等待信号集只是一个掩码,它并不追踪信号的发生次数。这意味着,如果相同的信号在被阻塞的状态下多次产生,它只会在信号集中被记录一次,并且在信号集…

Windows 下用MSYS2 环境为RP2040 编译MicroPython 固件

就是想试试看MSYS2 能兼容到什么地步。自己做了个RP2040 板子,用了4MB 的Flash,默认的Micropython 固件是2MB 的,所以只能自己编译固件。 编译环境 MSYS2 的安装方法、基本配置什么的我就不管了,到处都有文章介绍这个。只提一点…

mac视频压缩简单办法,mac如何把视频压缩到指定大小内存

在数字时代,视频已成为我们日常生活和工作的重要交流工具。然而,视频文件体积庞大,给存储和分享带来了不少困扰。本文将为你揭秘视频压缩的秘密,让你轻松减小视频文件体积,提升分享效率! 方法一下载文件压缩…

Vue3实现过渡动画

认识动画 在开发中,我们想要给一个组件的显示和消失添加某种过渡动画,可以很好的增加用户体验: React框架本身并没有提供任何动画相关的API,所以在React中使用过渡动画我们需要使用一个第三方库 react-transition-group&#xf…

【高中数学/极值问题】一条长为L的绳子,一面靠墙,另外三边组成矩形,问此矩形最大面积能是多少?

【问题】 一条长为L的绳子,一面靠墙,另外三边组成矩形,问此矩形最大面积能是多少? 【示意图】 【解析式】 设垂直于墙的两边长为x,则墙对边长为L-2x,围成的矩形面积Sx(L-2x) 写成标准的解析式为yx(L-2…

本地Windows电脑 连接 Windows 服务器

Windows电脑 连接 Windows 服务器 方式1:直接搜索 在电脑的搜索栏,输入“远程桌面连接” 可以选择点击 “打开” 或者直接按 回车键 “Enter”,打开 远程桌面连接 方式2:运行框打开服务器连接 同时按:Windows徽标键…

java+springboot+Mysql“友书”综合书籍平台系统24489-计算机毕业设计项目选题推荐(附源码)

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,“友书”综合书籍平台当然也不能排除在外。“友书”综合书籍平台系统是以实际运用为开发背景,运用软件工程原…

搜维尔科技:详谈ART的工具追踪技术

您的生产流程中是否已经受益于刀具跟踪系统?您是否意识到它们的价值?因为它们可以优化您的装配顺序,从而节省您的时间和金钱。 目前我们提供两种工具跟踪解决方案: 1.ART与 VERPOSE的解决方案——易于使用的图像识别 安装在工…

UE5 05-利用 timeline 插值运动

理解成 unity Dotween DoMove 插值运动即可 AddTimeLine 节点 物体插值运动 物体插值缩放 一个timeline 可以K多个动画帧

基于STM32F103C8T6的同步电机驱动-CubeMX配置与IQmath调用

基于STM32F103C8T6的同步电机驱动-CubeMX配置与IQmath调用 一、功能描述: 上位机通过CAN总线实现对电机的运动控制,主要包含三种模式:位置模式、速度模式以及力矩模式。驱动器硬件核心为STM32F103C8T6,带相电压采集电路以及母线电压采集电路。其中供电电压12V。 PWM中心对…

DT浏览器很好用

DT浏览器是一款简单的浏览器,又是强大的浏览器,界面简洁大方,软件使用流畅。DT浏览器的网址收藏,人工智能写作,书法笔记等功能与众不同。DT浏览器的图文识别功能和笔记本搭配使用,可以对内容编辑修改和保存…

RestTemplate、MockMVC、Swagger

rest代码风格 硬编码的部分在实际开发中都是会替换成枚举对象 SpringMVC会自动把json格式的post请求转化为对应接收的 对象 响应请求时,也会自动把 对象转化为 json格式的 RestTemplate 浏览器的地址栏只能提供get请求访问后端,如果要使用post方式发送…