20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP,有效优化蛋白质预训练模型

蛋白质,这些微小而强大的生物分子,是生命活动的基础,在生物体内扮演着多种角色。然而,要精确地调整和优化蛋白质功能,以适应特定的工业或医疗需求,却是一项极具挑战性的任务。传统上,科学家们依赖于湿实验方法来探索蛋白质的奥秘,但这种方法既耗时又昂贵。

幸运的是,随着人工智能的飞速发展,一种新的工具——预训练蛋白质语言模型 (PLMs),正在帮助我们以前所未有的方式理解和预测蛋白质的行为。PLMs 以无监督的方式学习数百万蛋白质中氨基酸序列的分布特征,在揭示蛋白质序列与其功能之间的隐含关系方面显示出了巨大的潜力,因此有助于高效地探索大量的设计空间。如今,预训练的 PLMs 在缺少实验数据的情况下已经取得了显著进展,但其准确性和可解释性仍有待提高。 此外,传统监督学习模型需要大量的标记训练样本,这也是实际应用难以克服的障碍。

为了解决上述问题,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀, 综合利用元迁移学习 (meta-transfer learning, MTL)、排序学习 (learning to rank, LTR) 和参数高效微调 (parameter-efficient fine-tuning, PEFT),开发了一种能在数据极度匮乏的情况下,有效优化蛋白质语言模型的训练策略 FSFP, 可用于蛋白质适配性的小样本学习,在使用极少湿实验数据的情况下,极大地提高传统蛋白质预训练大模型在突变-性质预测的效果,在实际应用中也显示出了巨大的潜力。

相关研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」为题,发表在 Nature 子刊 Nature Communications。

在这里插入图片描述

论文地址:
https://doi.org/10.1038/s41467-024-49798-6

ProteinGym 蛋白质突变数据集下载地址:

https://go.hyper.ai/6GvFD

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s

直击数据匮乏难题,FSFP 优化蛋白质语言模型

FSFP 方法包括三个阶段: 为元学习构建辅助任务(Build auxiliary tasks for meta-training)、在辅助任务上训练 PLMs 模型(Meta-train PLMs on the auxiliary tasks)、以及将 PLMs 模型转移到目标任务(Transfer PLMs to the target task via LTR)。

在这里插入图片描述

基于目标蛋白的野生型序列或结构检索

其中,元学习旨在通过从多个学习任务中积累经验,以训练一个仅需使用少量训练样例和迭代就能快速适应新任务的模型。因此,该研究首先用 PLMs 将目标蛋白(Target protein)的野生型序列或结构与数据库中的序列或结构编码到嵌入载体中。

在这里插入图片描述

MAML 算法对 PLMs 进行元训练

此外,该研究使用了一种基于梯度的元学习方法——模型无关元学习 (MAML), 在构建的任务上进行元训练 PLMs。MAML 能够找到最优初始模型参数,即使对它们进行小幅更改也会在目标任务上产生显著改善。在每个迭代周期中,元训练过程包含两个级别的优化,并最终将 PLMs 转换为初始化的元学习器。

在内部优化中,该研究使用当前的元学习器 (meta-learner) 初始化形成临时基础学习器,然后通过采样任务的训练数据将其更新为任务特定模型。在外部优化中,该研究使用特定任务模型 (task-speciic model) 在该任务上的测试损失来优化元学习器。

为了避免由于训练数据太少而导致灾难性过拟合,FSFP 使用低秩自适应 (LoRA) 将可训练的秩分解矩阵注入到 PLMs 中, 其中它们的原始预训练参数被冻结,所有模型更新都被限制为小数量的可训练参数。

在这里插入图片描述

将元训练模型迁移到目标少样本学习任务中

在元训练后,该研究可以得到基于 LoRA 参数的初始化,并最终将元训练好的 PLMs 转移至目标小样本学习任务,即用有限标记数据来学习预测目标蛋白质的突变效应。与传统监督学习蛋白质突变预测的方法不同,FSFP 将其视为排序问题,并利用了 LTR 技术。

具体而言,FSFP 学习通过计算 ListMLE 损失来对突变适应度进行排名。在每次迭代中,该研究都对模型进行训练,使其对一个或多个采样数据子集的预测趋向于基本真值排列。这些训练方案被同时应用于使用目标训练数据的迁移学习阶段和使用辅助任务训练数据的元训练阶段的内部优化。

基于 87 个高通量突变数据集 ProteinGym 的基准测试

为了构建元学习所需的训练任务, 该方法首先检索现有的标记突变数据集(labeled mutant datasets),从目前最大的 DMS 数据集公共集合 ProteinGym中检索出前两个与目标蛋白最接近的蛋白质的突变数据集,并使用基于MSA的 GEMME 打伪标签方法对目标蛋白质的突变信息进行评分,以构建第三个任务的数据集。这些数据集可能有助于预测对目标蛋白的变异效应,这些任务的标记数据随机分为训练数据和测试数据。

为了评估模型性能, 该研究选择蛋白质突变数据集 (ProteinGym) 作为基准测试数据集。数据集共包含来自 87 个 DMS 测序实验的大约 150 万个错义变体。由于 ESM-1v 的最大输入长度为 1,024 ,该研究将氨基酸数量超过 1,024 个的蛋白质截断,并确保它们在相应数据集中的大多数突变发生于生成区间内。

紧接着,该研究随机选择 20 个单点突变作为初始训练集,然后再添加 20 个单点突变将训练集大小扩大到 40,并以此类推构建了 60、80和 100 的训练集。经过 5 次随机的数据拆分过程,该研究即可在一定训练规模的不同划分上实现模型性能的平均化。

FSFP 成功应用于三大基础模型,在小样本学习任务中具有显著优势

理论上,FSFP 可以应用于任何基于梯度下降优化的蛋白质语言模型中。为了验证其通用性, 该研究选择了 3 个代表性的 PLMs——ESM-1v、ESM-2 和 SaPro-t 作为基础模型进行训练,且都选择 650M 版本进行评估。

在这里插入图片描述

单位点和多位点突变体的总体表现

在平均性能方面, 通过 FSFP 训练的 PLMs 在所有训练数据规模上始终优于其他基线。其中,SaProt (FSFP) 表现最佳,ESM-1v (FSFP) 和 ESM-2 (FSFP) 则表现相当。此外,在 ProteinGym 的大多数数据集上,FSFP 训练的 PLMs 取得了最佳的 Spearman 相关性。与零样本预测相比,FSFP 在仅使用 20 个训练示例的情况下,通过提高 PLMs 在单突变体上的 Spearman 相关性的性能,使单突变体的性能提高了近 0.1,当涉及到多突变体时,这种差距变得更大。随着训练数据集的增长,这些改进不断增加,这与该研究的消融实验结果一致。

在所有训练样本下,使用 FSFP 的模型相对于 GEMME 和其增强版的岭回归都取得了显著改善。这表明 FSFP 不仅将 GEMME 中的多序列比对知识传授给 PLM,还通过多任务学习,成功地将其与来自目标训练数据的监督信息相结合。这再次证实了 FSFP 在小样本学习任务中的优势。

外推性能评估,FSFP 训练 PLMs 的 Spearman 相关性评估更优

在这里插入图片描述

单位点和多位点突变体的外推性能

研究人员从每个原始测试集中选择所有单点突变体,其突变位点与训练示例不同,从而得到了一个与训练示例不同的单点突变体测试集。然后,研究人员选择个体突变与训练数据中的突变没有重叠的多点突变体,从而得到另一个具有挑战性的测试集。在这种设置下,研究发现基础模型的零样本性能明显地随着训练集大小的变化而变化。

对于不同位置的单点突变,即使有 100 个训练示例,通过岭回归增强的模型表现也不会比基础模型更好。对于多点突变,当训练规模小于 60 时,岭回归方法无法有效提高 GEMME 和 ESM-2 的性能。相比之下,使用 FSFP 训练的 PLMs 在各种训练规模下,与所有基础模型相比的 Spearman 相关性得分都更高。此外,在大多数数据集上表现最佳的模型都是经过 FSFP 训练的模型。

4 种蛋白质的综合比较,FSFP 在小数据集训练收益更大

在这里插入图片描述

4 种蛋白质的 Spearman 相关性比较

为了进一步证明 FSFP 的适用性和泛化性, 该研究还展示了 4 种蛋白质:the envelope protein Env from HIV, the human α-synuclein, protein G (GB1), the human TAR DNA-binding protein 43 (TDP-43),在不同方法之间的比较结果。在这几个案例中,一个或多个无监督模型表现不佳。

值得注意的是,对于 TDP-43 来说,所有零样本预测的 spearman 相关性都接近于零。除 GB1 外,大多数通过岭回归增强的模型,在更大的训练数据集上也没有显著的性能提高。相反,利用 FSFP 在小数据集上进行训练时,预训练模型可以获得相当大的收益。

使用 FSFP 设计 Phi29 DNA 聚合酶,阳性率提升 25%

在这里插入图片描述

使用 FSFP 的 Phi29 工程

该研究还在一个具体的蛋白质 Phi29 改造案例中,进行了湿实验验证。 基于一组有限的湿实验数据,该研究用 FSFP 对 ESM-1v 进行训练,用其寻找新的单位点突变体,并进行实验验证。对比 FSFP 训练前后 ESM-1v 的前 20 个预测结果,平均 Tm 值提高了 1 ℃ 以上,阳性率 (positive rate) 提高了 25%。

具体来说,ESM-1v (FSFP) 发现的最佳突变体 (即 Tm 值最高的突变体) 也被 ESM-1v (zero-shot) 推荐。然而,在 ESM-1v (FSFP) 预测的阳性突变体中,有 9 个并没有出现在训练数据中,这表明 FSFP 可以使 PLMs 识别出更多的蛋白质变异体。这些结果肯定了 FSFP 在加速蛋白质工程设计与测试迭代循环中的潜力, 从而有助于开发具有增强功能特征的蛋白质。

AI for Bioengineering 典型代表,强强联合屹立时代前沿

在 AI 与科学研究紧密结合的今天,我们正站在一个历史性的机遇面前。洪亮教授认为,尽管中国生物制药行业已具备强大实力,但在国际产业链中的利润比例仍有提升空间。通过 AI,我们有机会实现「换道超车」,直接利用人工智能的力量,推动行业发展。正是基于这一理念,洪亮教授携手谈攀研究员,在 AI for Bioengineering 领域展开了无尽探索。

谈攀博士主攻分子生物物理、人工智能功能蛋白质设计以及药物分子设计等方向, 在 Nature Communications、PRL、Journal of Cheminformatics、PCCP 等期刊上发表 15 篇 SCI 论文。开发了多种人工智能辅助蛋白质设计改造算法。融合洪亮教授的专业技术与谈攀博士的 AI 算法,双方的合作研究屡获战果。

多年来,双方专注于通用人工智能在蛋白质工程领域的创新研究,成功研发了 pro 系列蛋白质工程通用人工智能。与 ChatGPT 理解人类语言的方式类似,pro 系列通过大模型理解自然界蛋白质的氨基酸排列方式,设计出性能优越的蛋白质产品。其中, 在产业化应用方面也有了两大里程碑产品:

极端耐碱单域抗体: 与金赛药业联合开发的全球首个大模型设计的蛋白质产品,实现了 5,000 升工业化生产,为生物大分子纯化提供了全新的解决方案。

糖基转移酶: 与瀚海新酶合作,开发用于生产胰腺炎筛查核心物料 eps-g7 的酶,打破了国外长期垄断,大幅降低了成本。

这两个案例标志着全球第一款和第二款大模型设计并成功放大生产进入产业化阶段的蛋白质产品。基于在 AI 蛋白质设计领域的深厚积累,洪亮教授于 2021 年创立了上海天鹜科技有限公司。在短短三年内,该公司不仅完成了多个蛋白质设计项目,还获得了数千万元的 Pre-A 轮融资,投资方包括耀途资本、金沙江资本等知名机构。

目前,公司服务已覆盖创新药、体外诊断、合成生物学等多个领域,并积极寻求与更多科研院所和企业的合作,致力于在蛋白质工程领域树立全国乃至全球的标杆。

在蛋白质工程这条竞争激烈的赛道上,洪亮教授的愿景是明确的:不仅要成为国内领军者,更要成为世界范围内的领跑者。 在未来的科研征程中,洪亮教授及其团队正致力于拓展与全球科研机构和企业的深度合作,不断探索蛋白质设计的无限可能,力求在这一领域实现技术突破和应用创新,在国内树立标杆,在国际展现卓越。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/44152.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python入门综合篇—资源爬取与exe打包(图形界面)

了解我的人都知道,我是一个谨言慎行且兴趣爱好广泛的IT,作为一个合格的前端,没事捣鼓一下python很合理吧,再没事搞搞java和php也很合乎逻辑吧,实在没事,玩玩linux服务器也是合乎常理的吧。所以,…

LlamaFactory可视化微调大模型 - 参数详解

LlamaFactory 前言 LLaMA Factory 是一个用于微调大型语言模型的强大工具,特别是针对 LLaMA 系列模型。 可以适应不同的模型架构和大小。 支持多种微调技术,如全参数微调、LoRA( Low-Rank Adaptation )、QLoRA( Quantized LoRA )等。 还给我们提供了简单实用的命令行…

Odoo免费开源ERP如何处理汽车零部件企业的OE编码问题

业务背景 汽车零部件企业在每个汽配零件都有OE编号,即原厂编号,Original Equipment Number。一个配件,可能可以在多个车型上使用,对应的,就有多个可兼容的OE编号。 客户下单时候,直接报OE编号&#xff0c…

Python数据处理之高效校验各种空值技巧详解

概要 在编程中,处理空值是一个常见且重要的任务。空值可能会导致程序异常,因此在进行数据处理时,必须确保数据的有效性。Python 提供了多种方法来处理不同数据对象的空值校验。本文将详细介绍如何对Python中的各种数据对象进行空值校验,并包含相应的示例代码,帮助全面掌握…

高速电吹风方案介绍,多档温度风速调节,转速可达105000RPM

高速电吹风是这几年很火的一种电动小家电,能够在较短时间内完成头发干燥,减少对头发的热损伤。可以通过高速电机和风扇来产生高速风流,迅速将头发表面的水分吹干。高速电吹风通常配有多种档位风速和温度可以设置,用户可以根据需要…

大数据笔记--kafka工具AKHQ

目录 一、项目背景 二、项目目标 三、项目部署 1、前提条件 2、流程 2.1、准备工作 2.2、安装AKHQ 2.3、配置AKHQ 2.4、启动AKHQ 四、验证 一、项目背景 日常运维工作中,越来越多的团队成员,包括开发人员、数据分析师和业务运营团队&#xff0…

Linux——开发工具

1.yum yum是centos中的一个软件下载安装管理客户端,可以下载需要的软件或者解决依赖关系问题(如动态库)。程序都是来源于一段源代码,为了方便下载,源代码被提前在不同的环境下编译好生成对应的yum软件包,存…

运营商如何通过PCDN技术提高用户服务

随着网络技术的快速发展,用户对网络服务的要求也在不断提高。为了满足这些需求,运营商需要不断创新和优化自身的技术和服务。而 PCDN (Personal Content Delivery Network)技术作为一种新兴的内容分发网络解决方案,为运营商提高用户服务提供了…

Ubuntu20.04搭建嵌入式linux网络加载内核、设备树和根文件系统

文章目录 Ubuntu20.04搭建嵌入式linux网络加载内核、设备树和根文件系统TFTP服务搭建测试 NFS服务搭建测试 uboot配置TFTP服务搭建测试 NFS服务搭建测试 U-BOOT配置 Ubuntu20.04搭建嵌入式linux网络加载内核、设备树和根文件系统 TFTP服务搭建 sudo apt install tftpd-hpa su…

智能车载防窒息系统设计

摘要 随着汽车行业的快速发展,车辆安全问题越来越受到人们的关注。其中,车载防窒息系统是一项重要的安全设备。本论文基于STM32单片机,设计了一种智能车载防窒息系统。该系统主要包括氧气浓度检测模块、温湿度检测模块、声音检测模块、光线检…

『ComfyUI』从小白到入门全套教程,奶奶看了都会了!赶紧收藏!

本文简介 Stable Diffusion WebUI 应该是大多数人第一次接触 SD 绘画的工具,这款工具简单易上手,但操作流程相对固定。如果你想拥有更自由的工作流,可以试试 ComfyUI。而且很多新的模型和功能在刚出现时 ComfyUI 的支持度都比较高&#xff0…

拥抱应用创新,拒绝无谓的模型竞争

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

TikTok海外运营,云手机多种变现方法

从现阶段来看,TikTok 的用户基数不断增长,已然成为全球创业者和品牌的全新竞争舞台。其用户数量近乎 20 亿,年轻用户占据主导,市场渗透率也逐年提高。不管是大型企业、著名品牌,还是个体创业者,都绝不能小觑…

matlab 有倾斜的椭圆函数图像绘制

matlab 有倾斜的椭圆函数图像绘制 有倾斜的椭圆函数图像绘制xy交叉项引入斜线负向斜线成分正向斜线成分 x^2 y^2 xy 1 (负向)绘制结果 x^2 y^2 - xy 1 (正向)绘制结果 有倾斜的椭圆函数图像绘制 为了确定椭圆的长轴和短轴的…

最新Wireshark查看包中gzip内容

虽然是很简单的事情,但是网上查到的查看gzip内容的方法基本都是保存成zip文件,然后进行二进制处理。 其实现在最新版本的Wireshark已经支持获取gzip内容了。 选中HTTP协议,右键选择[追踪流]->[HTTP Stream] 在弹出窗口中,已…

为何Expo成为React Native官方推荐框架?

在React Conf上,我们更新了关于构建React Native应用的最佳工具指南:一个React Native框架——一个工具箱,包含所有必要的API,让你可以构建生产就绪的应用。 现在,使用React Native框架(如Expo&#xff09…

Xubuntu24.04之图形界面挂载硬盘(二百六十二)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

Unity入门之重要组件和API(4) : Input

前言 Input类主要处理用户输入设备相关操作;输入设备包括鼠标、键盘、触屏、手柄、陀螺仪(重力感应)。 1.鼠标 1.1鼠标在屏幕的位置 print(Input.mousePosition); 1.2检测鼠标输入 0-左键 1-右键 2-中键 if (Input.GetMouseButtonDown(0)) {print("鼠标…

Linux操作系统上用到的磁盘分区管理工具

parted磁盘分区工具 磁盘格式&#xff1a;MBR, GPT, 这两种名称分别是硬盘里面分区表两种格式的称呼&#xff0c; 第一种MBR格式的分区表最大支持2TB的容量&#xff0c; 磁盘的三种分区主分区&#xff0c;扩展分区&#xff0c;逻辑分区&#xff0c;主分区扩展分区<4 第…

NesT : 嵌套层次Transformer

探讨了在不重叠的图像块上嵌套基本局部变换的思想,并以分层的方式对它们进行聚合。发现块聚合功能在实现跨块非局部信息通信中起着至关重要的作用。 这个观察结果引导我们设计一个简化的体系结构,它需要在原始视觉转换器上进行少量的代码更改。所提出的明智选择的设计有三个好…