入选顶会ICML,清华AIR等联合发布蛋白质语言模型ESM-AA,超越传统SOTA

作为细胞内无数生化反应的驱动力,蛋白质在细胞微观世界中扮演着建筑师和工程师的角色,不仅催化着生命活动,更是构筑、维系生物体形态与功能的基础构件。正是蛋白质之间的互动、协同作用,支撑起了生命的宏伟蓝图。

然而,蛋白质的结构复杂多变,传统的实验方法在解析蛋白质结构时既耗时又费力——蛋白质语言模型 (PLMs) 应运而生,利用深度学习技术,通过分析大量的蛋白质序列数据,学习蛋白质的生物化学规律和共进化模式,在蛋白质结构预测、适应性预测和蛋白质设计等领域取得了显著成就,极大地推动了蛋白质工程的发展。

尽管 PLMs 在残基尺度上取得了巨大成功,但在提供原子级信息方面的能力却受到了限制。针对于此,清华大学智能产业研究院副研究员周浩联合北京大学、南京大学和水木分子团队,提出了一种多尺度的蛋白质语言模型 ESM-AA (ESM All Atom), 通过设计残基展开、多尺度位置编码等训练机制,拓展出了处理原子尺度信息的能力。

ESM-AA 在靶点-配体结合等任务的性能显著提升,超越目前 SOTA 蛋白语言模型,如 ESM-2,也超越了目前的 SOTA 分子表示学习模型 Uni-Mol 等。相关研究已经以「ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling」为题,发表于机器学习顶级会议 ICML 上。

在这里插入图片描述

论文地址:
https://icml.cc/virtual/2024/poster/35119
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:构建了蛋白质和分子数据的混合数据集

在预训练任务中,该研究使用了一个包含蛋白质和分子数据的组合数据集,其中包含原子坐标等结构信息。

对于蛋白质数据集,该研究使用了 AlphaFold DB ,其中包含了 800 万条高置信度的 AlphaFold2 预测的蛋白质序列和结构。

对于分子数据集,该研究使用了由 ETKDG 和 MMFF 分子力场生成的数据,包含 1,900 万个分子和 2.09 亿种构型。

在训练 ESM-AA 时,研究人员首先将一个蛋白质数据集 Dp 和一个分子数据集 Dm 混合在一起作为最终的数据集,即 D=Dp∪Dm 。对于来自 Dm 的分子而言,由于仅由原子组成,其代码转换序列 X̄ 就是所有原子 Ā 的有序集合,并且没有任何残基,即 R̄=∅。值得注意的是,因为在预训练中使用了分子数据,所以 ESM-AA 既可以接受蛋白质作为输入,也可以接受分子作为输入。

ESM-AA 模型构建:多尺度预训练与编码,实现统一分子建模

受多语言代码切换方法的启发,ESM-AA 在进行预测与蛋白质设计任务时,首先会随机解压缩部分残基,从而生成多尺度代码切换蛋白质序列,随后通过精心设计的多尺度位置编码对这些序列进行训练,并且已经在残基和原子尺度上证明了其有效性。

当处理蛋白质分子任务时,即涉及蛋白质和小分子的任务,ESM-AA 不需要任何额外模型辅助,可以充分发挥出预训练模型的能力。

在这里插入图片描述

多尺度预训练框架

该研究的多尺度预训练框架由多尺度掩码语言建模 (masked language model, MLM) 和成对距离恢复 (pairwise distance recovery) 组成。

具体而言,在残基尺度上,一个蛋白质 X 可以被看作是一个由 L 个残基组成的序列,即 X = (r1,…,ri,…,rL)。每个残基 ri 都是由 N 个原子 A 组成 Ai={a1i,…,aNi}。为了构建代码切换蛋白序列 X̅,该研究通过随机选择一组残基,并将其对应的原子插入到 X 中,从而实现了一个解压缩的过程。在这一过程中,研究人员将被解压的原子按照顺序排列,最后在将原子集合 Ai 插入到 X 中(即解压残基 ri)后,即可得到一个代码切换序列 X̄。

随后,研究人员对代码切换序列 X̄ 进行掩码语言建模。

首先,随机遮挡 X̄ 中的一部分原子或残基,让模型使用周围上下文预测原始原子或残基。然后,研究人员使用对偶距离恢复 (PDR) 作为另一个预训练任务。即通过在坐标中添加噪声来破坏原子尺度的结构信息,并使用被破坏的原子间距离信息作为模型输入,要求模型恢复这些原子之间的准确欧几里得距离。

考虑到跨越不同残基的长距离结构信息与单个残基内部的原子尺度结构信息的语义差异,研究只计算残基内的 PDR,这也可以使 ESM-AA 学习到不同残基内的各种结构知识。

在这里插入图片描述

多尺度位置编码框架

在多尺度位置编码 (Multi-scale Position Encoding) 方面,研究人员设计了一个多尺度位置编码 E 来对代码切换序列中的位置关系进行编码。E 包含一个残基尺度的位置编码 ER 和一个原子尺度的位置编码 EA。

对于 ER, 研究人员扩展了现有的编码方法,使其能够编码从残基到原子的关系,同时在处理纯残基序列时保持与原始编码的一致性。对于 EA, 为了捕捉原子之间的关系,该研究直接使用空间距离矩阵 (spatial distance matrix) 对其三维位置进行编码。

值得一提的是,多尺度编码方法可以确保,预训练不会受到模糊位置关系的影响,从而使 ESM-AA 在两个尺度上都能有效地发挥作用。

在将多尺度 PE 集成到 Transformer 时,该研究首先用残差尺度位置编码 ER 替换了 Transformer 中的正弦编码,将原子尺度的位置编码 EA,视为自注意力层的偏置值 (bias term)。

研究结果:融合分子知识,优化蛋白质理解

为了验证多尺度统一预训练模型的有效性,该研究在各种涉及蛋白质和小分子的任务中评估了 ESM-AA 的表现。

在这里插入图片描述

表1:在酶-底物亲和力回归任务 (ESAR) 和酶-底物对分类任务 (ESPC) 上的性能比较

在这里插入图片描述

表2:药物-靶点亲和力回归任务的性能比较

如上表所示,在酶-底物亲和力回归任务、酶-底物对分类任务和药物-靶点亲和力回归任务的性能比较中,大多数指标上,ESM-AA 都优于其他模型并达到了最先进的结果。 此外,微调策略(如 ProSmith 和 XGBoost)建立在 ESM-AA 上时,性能始终优于结合两个独立的分子预训练模型与蛋白预训练模型的版本(如表 1 和表 2 最后四行所示)。

值得注意的是,ESM-AA 甚至可以打败使用了具有更大参数规模的预训练模型的方法(如表 2 中第 5 行、第 7 行与最后一行的对比)。

在这里插入图片描述

消融实验结果

为了验证多尺度位置编码的有效性,该研究在两种情况下进行了消融实验:一种是不使用原子尺度位置编码 (ASPE) 的情况;另一种是不使用遗传尺度位置编码 (RSPE) 的情况下进行。

在删除分子或蛋白质数据时,模型性能出现显著下降。有趣的是,删除蛋白质数据导致的性能下降比删除分子数据更明显。这表明,当模型没有经过蛋白质数据训练时,会迅速丢失与蛋白质相关的知识,从而导致整体性能明显下降。然而,即使没有分子数据,模型仍然可以通过解压缩操作获得原子级别的信息。

在这里插入图片描述

二级结构预测任务的性能比较

由于 ESM-AA 基于现有的 PLMs 开发,该研究希望确定其是否仍然保留了对蛋白质的全面理解,从而通过使用二级结构预测 (secondary structure prediction) 和无监督接触预测 (unsupervised contact prediction) 任务,测试蛋白质预训练模型在蛋白质结构理解方面的能力。

结果表明,虽然 ESM-AA 在此类研究中可能无法实现最佳性能,但其在二级结构预测和接触预测方面与 ESM-2 的表现相似。

在这里插入图片描述

无监督接触预测任务的性能比较

在分子基准测试中,ESM-AA 在大多数任务中与 Uni-Mol 表现相当, 并在许多情况下优于几个特定于分子的模型,这表明其已成为一种处理分子任务的强大方法。

在这里插入图片描述

ESM-AA 和 ESM-2+Uni-Mol 学习表征的可视化

为了更直观地说明 ESM-AA 获得了更高质量的蛋白质和小分子表征,该研究在酶-底物对分类和药物靶点亲和力回归任务中,对 ESM-AA 和 ESM-2+Uni-Mol 提取的表征进行了可视化比较。结果显示,ESM-AA 模型能够创建包含蛋白质和分子数据的更具内聚性的语义表征,这使得 ESM-AA 优于两个单独的预训练模型。

蛋白质语言模型,大语言模型的下一段征程

大约从 1970 年代起,就有越来越多的科学家认为「二十一世纪是生物学的世纪。」去年 7 月,福布斯曾在一篇长文中畅想,LLM 令人们处于生物学领域新一轮变革的风口浪尖。生物学原来是一个可破译、可编程,在某些方面甚至是数字化的系统,LLM 凭借其对自然语言的惊人驾驭能力,为破解生物语言提供了潜在可能, 这也让蛋白质语言模型成为了这个时代最受关注的领域之一。

蛋白质语言模型代表了 AI 技术在生物学中的前沿应用。其通过学习蛋白质序列的模式和结构,能够预测蛋白质的功能和形态,对于新药开发、疾病治疗和基础生物学研究具有重大意义。

此前,蛋白质语言模型如 ESM-2 和 ESMFold 已经展现出与 AlphaFold 相媲美的准确性,并且具备更快的处理速度和对「孤儿蛋白质」更准确的预测能力。这不仅加速了蛋白质结构的预测,也为蛋白质工程提供了新的工具,使得研究人员能够设计出具有特定功能的全新蛋白质序列。

此外,蛋白质语言模型的发展受益于所谓的「缩放法则」,即模型的性能随着模型规模、数据集大小和计算量的增加而显著提高。 这意味着,随着模型参数的增加和训练数据的积累,蛋白质语言模型的能力将得到质的飞跃。

近两年,蛋白质语言模型在企业界也进入了快速发展时期。2023 年 7 月,百图生科与清华大学联合提出了一种名为 xTrimo Protein General Language Model (xTrimoPGLM) 的模型,参数量高达千亿 (100B),在多种蛋白质理解任务(15 项任务中的 13 项任务)中显著优于其他先进基线模型。在生成任务上,xTrimoPGLM 能够生成与自然蛋白质结构类似的新蛋白质序列。

2024 年 6 月,AI 蛋白质企业途深智合宣布,将其研发的国内首个自然语言蛋白质大模型 TourSynbio™ 面向所有科研人员和开发者开源。 该模型以对话的方式实现了对蛋白质文献的理解,包括蛋白质性质、功能预测和蛋白质设计等功能,在对比蛋白质评测数据集的测评指标上,超过 GPT4,成为行业第一。

此外,以 ESM-AA 为代表技术研究的突破,或许也意味着技术的发展即将度过「莱特兄弟时刻」,迎来飞跃。同时,蛋白质语言模型的应用也将不仅限于医疗和生物制药领域,还可能扩展到农业、工业、材料科学和环境修复等多个领域,推动这些领域的技术革新,为人类带来前所未有的变革。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/38865.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu DNS服务配置 深度解析

测试方法 resolvectl status dig alidns.com 修改实践 直接用接口配置,没用 /etc/resolv.conf,有效 /etc/netplan/01-network-manager-all.yaml,无效 /etc/systemd/resolved.conf,见link,为全局配置 [Resolve] DNS1.1.1.1 Fa…

Adobe Premiere 视频编辑软件下载安装,pr全系列分享 轻松编辑视频

Adobe Premiere,自其诞生之日起,便以其卓越的性能和出色的表现,稳坐视频编辑领域的王者宝座,赢得了无数专业编辑人员与广大爱好者的青睐。这款强大的视频编辑软件,凭借其丰富的功能和灵活的操作性,为用户提…

2024年道路运输安全员(企业管理人员)备考题库资料。

46.危险货物道路运输随车携带的单据,下列选项不属于的是()。 A.道路运输危险货物安全卡 B.运单或者电子运单 C.道路危险货物运输从业资格证 D.车辆检测报告 答案:D 47.危险货物运输驾驶人员在24小时内实际驾驶车辆时间累计不…

ROS2在rviz2中实时显示轨迹和点

本文是将《ROS在rviz中实时显示轨迹和点》博客中rviz轨迹显示转为ROS2环境中的rviz2显示。 ros2的工作空间创建这里就不展示了。 包的创建 ros2 pkg create --build-type ament_cmake showpath --dependencies rclcpp nav_msgs geometry_msgs tf2_geometry_msgsshowpath.cpp…

【漏洞复现】和丰多媒体信息发布系统 QH.aspx 任意文件上传漏洞

0x01 产品简介 和丰多媒体信息发布系统也称数字标牌(Digital Signage),是指通过大屏幕终端显示设备,发布商业、财经和娱乐信息的多媒体专业视听系统,常被称为除纸张媒体、电台、电视、互联网之外的“第五媒体”。该系…

1-4.时间序列数据建模流程范例

文章最前: 我是Octopus,这个名字来源于我的中文名–章鱼;我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ;这博客是记录我学习的点点滴滴,如果您对 Python、Java、AI、算法有兴趣,可以关注我的…

信息学奥赛初赛天天练-41-CSP-J2021基础题-n个数取最大、树的边数、递归、递推、深度优先搜索应用

PDF文档公众号回复关键字:20240701 2021 CSP-J 选择题 单项选择题(共15题,每题2分,共计30分:每题有且仅有一个正确选项) 4.以比较作为基本运算,在N个数中找出最大数,最坏情况下所需要的最少比…

我在中东做MCN,月赚10万美金

图片|Photo by Ben Koorengevel on Unsplash ©自象限原创 作者丨程心 在迪拜购物中心和世界最高建筑哈利法塔旁的主街上,徐晋已经“蹲”了三个小时,每当遇到穿着时髦的年轻男女,他都会上前询问,有没有意愿成为…

C语言部分复习笔记

1. 指针和数组 数组指针 和 指针数组 int* p1[10]; // 指针数组int (*p2)[10]; // 数组指针 因为 [] 的优先级比 * 高,p先和 [] 结合说明p是一个数组,p先和*结合说明p是一个指针 括号保证p先和*结合,说明p是一个指针变量,然后指…

Web2Code :网页理解和代码生成能力的评估框架

多模态大型语言模型(MLLMs)在过去几年中取得了爆炸性的增长。利用大型语言模型(LLMs)中丰富的常识知识,MLLMs在处理和推理各种模态(如图像、视频和音频)方面表现出色,涵盖了识别、推…

VuePress介绍

从本文开始,动手搭建自己的博客!希望读者能跟着一起动手,这样才能真正掌握。 ‍ VuePress 是什么 VuePress 是由 Vue 作者带领团队开发的,非常火,使用的人很多;Vue 框架官网也是用了 VuePress 搭建的。即…

4PCS点云配准算法实现

4PCS点云配准算法的C实现如下&#xff1a; #include <iostream> #include <pcl/io/pcd_io.h> #include <pcl/point_types.h> #include <pcl/common/common.h> #include <pcl/common/distances.h> #include <pcl/common/transforms.h> #in…

php 通过vendor文件 生成还原最新的composer.json

起因&#xff1a;因为历史原因&#xff0c;在本项目中composer.json基本算废了&#xff0c;没法直接使用composer管理扩展&#xff0c;今天尝试修复一下composer.json。 历史文件&#xff0c;可以看出来已经很久没有维护了&#xff0c;我们主要是恢复require的信息 {"na…

基于CNN的股票预测方法【卷积神经网络】

基于机器学习方法的股票预测系列文章目录 一、基于强化学习DQN的股票预测【股票交易】 二、基于CNN的股票预测方法【卷积神经网络】 文章目录 基于机器学习方法的股票预测系列文章目录一、CNN建模原理二、模型搭建三、模型参数的选择&#xff08;1&#xff09;探究window_size…

下代iPhone或回归可拆卸电池,苹果这操作把我看傻了

刚度过一个愉快的周末&#xff0c;苹果又双叒叕摊上事儿了。 iPhone13 系列被曝扎堆电池鼓包了。 早在去年&#xff0c;就有 iPhone13 和 iPhone14 用户反馈过类似的问题&#xff0c;表示在手机仅仅使用了一年多的时间就出现了电池鼓包的情况&#xff0c;而且还把屏幕给撑起来了…

舞会无领导:一种树形动态规划的视角

没有上司的舞会 Ural 大学有 &#x1d441; 名职员&#xff0c;编号为1∼&#x1d441;。 他们的关系就像一棵以校长为根的树&#xff0c;父节点就是子节点的直接上司。 每个职员有一个快乐指数&#xff0c;用整数 &#x1d43b;&#x1d456; 给出&#xff0c;其中1≤&…

校园卡手机卡怎么注销?

校园手机卡的注销流程可以根据不同的运营商和具体情况有所不同&#xff0c;但一般来说&#xff0c;以下是注销校园手机卡的几种常见方式&#xff0c;我将以分点的方式详细解释&#xff1a; 一、线上注销&#xff08;通过手机APP或官方网站&#xff09; 下载并打开对应运营商的…

当年很多跑到美加澳写代码的人现在又移回香港?什么原因?

当年很多跑到美加澳写代码的人现在又移回香港&#xff1f;什么原因&#xff1f; 近年来&#xff0c;确实有部分曾经移民到美国、加拿大、澳大利亚等地的香港居民选择移回香港。这一现象与多种因素相关&#xff0c;主要可以归结为以下几点&#xff1a; 疫情后的环境变化&#…

【STM32】温湿度采集与OLED显示

一、任务要求 1. 学习I2C总线通信协议&#xff0c;使用STM32F103完成基于I2C协议的AHT20温湿度传感器的数据采集&#xff0c;并将采集的温度-湿度值通过串口输出。 任务要求&#xff1a; 1&#xff09;解释什么是“软件I2C”和“硬件I2C”&#xff1f;&#xff08;阅读野火配…

2025第13届常州国际工业装备博览会招商全面启动

常州智造 装备中国|2025第13届常州国际工业装备博览会招商全面启动 2025第13届常州国际工业装备博览会将于2025年4月11-13日在常州西太湖国际博览中心盛大举行&#xff01;目前&#xff0c;各项筹备工作正稳步推进。 60000平米的超大规模、800多家国内外工业装备制造名企将云集…