蛋白质,这些微小而强大的生物分子,是生命活动的基础,在生物体内扮演着多种角色。然而,要精确地调整和优化蛋白质功能,以适应特定的工业或医疗需求,却是一项极具挑战性的任务。传统上,科学家们依赖于湿实验方法来探索蛋白质的奥秘,但这种方法既耗时又昂贵。
幸运的是,随着人工智能的飞速发展,一种新的工具——预训练蛋白质语言模型 (PLMs),正在帮助我们以前所未有的方式理解和预测蛋白质的行为。PLMs 以无监督的方式学习数百万蛋白质中氨基酸序列的分布特征,在揭示蛋白质序列与其功能之间的隐含关系方面显示出了巨大的潜力,因此有助于高效地探索大量的设计空间。如今,预训练的 PLMs 在缺少实验数据的情况下已经取得了显著进展,但其准确性和可解释性仍有待提高。 此外,传统监督学习模型需要大量的标记训练样本,这也是实际应用难以克服的障碍。
为了解决上述问题,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀, 综合利用元迁移学习 (meta-transfer learning, MTL)、排序学习 (learning to rank, LTR) 和参数高效微调 (parameter-efficient fine-tuning, PEFT),开发了一种能在数据极度匮乏的情况下,有效优化蛋白质语言模型的训练策略 FSFP, 可用于蛋白质适配性的小样本学习,在使用极少湿实验数据的情况下,极大地提高传统蛋白质预训练大模型在突变-性质预测的效果,在实际应用中也显示出了巨大的潜力。
相关研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」为题,发表在 Nature 子刊 Nature Communications。
论文地址:
https://doi.org/10.1038/s41467-024-49798-6
ProteinGym 蛋白质突变数据集下载地址:
https://go.hyper.ai/6GvFD
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
直击数据匮乏难题,FSFP 优化蛋白质语言模型
FSFP 方法包括三个阶段: 为元学习构建辅助任务(Build auxiliary tasks for meta-training)、在辅助任务上训练 PLMs 模型(Meta-train PLMs on the auxiliary tasks)、以及将 PLMs 模型转移到目标任务(Transfer PLMs to the target task via LTR)。
基于目标蛋白的野生型序列或结构检索
其中,元学习旨在通过从多个学习任务中积累经验,以训练一个仅需使用少量训练样例和迭代就能快速适应新任务的模型。因此,该研究首先用 PLMs 将目标蛋白(Target protein)的野生型序列或结构与数据库中的序列或结构编码到嵌入载体中。
MAML 算法对 PLMs 进行元训练
此外,该研究使用了一种基于梯度的元学习方法——模型无关元学习 (MAML), 在构建的任务上进行元训练 PLMs。MAML 能够找到最优初始模型参数,即使对它们进行小幅更改也会在目标任务上产生显著改善。在每个迭代周期中,元训练过程包含两个级别的优化,并最终将 PLMs 转换为初始化的元学习器。
在内部优化中,该研究使用当前的元学习器 (meta-learner) 初始化形成临时基础学习器,然后通过采样任务的训练数据将其更新为任务特定模型。在外部优化中,该研究使用特定任务模型 (task-speciic model) 在该任务上的测试损失来优化元学习器。
为了避免由于训练数据太少而导致灾难性过拟合,FSFP 使用低秩自适应 (LoRA) 将可训练的秩分解矩阵注入到 PLMs 中, 其中它们的原始预训练参数被冻结,所有模型更新都被限制为小数量的可训练参数。
将元训练模型迁移到目标少样本学习任务中
在元训练后,该研究可以得到基于 LoRA 参数的初始化,并最终将元训练好的 PLMs 转移至目标小样本学习任务,即用有限标记数据来学习预测目标蛋白质的突变效应。与传统监督学习蛋白质突变预测的方法不同,FSFP 将其视为排序问题,并利用了 LTR 技术。
具体而言,FSFP 学习通过计算 ListMLE 损失来对突变适应度进行排名。在每次迭代中,该研究都对模型进行训练,使其对一个或多个采样数据子集的预测趋向于基本真值排列。这些训练方案被同时应用于使用目标训练数据的迁移学习阶段和使用辅助任务训练数据的元训练阶段的内部优化。
基于 87 个高通量突变数据集 ProteinGym 的基准测试
为了构建元学习所需的训练任务, 该方法首先检索现有的标记突变数据集(labeled mutant datasets),从目前最大的 DMS 数据集公共集合 ProteinGym中检索出前两个与目标蛋白最接近的蛋白质的突变数据集,并使用基于MSA的 GEMME 打伪标签方法对目标蛋白质的突变信息进行评分,以构建第三个任务的数据集。这些数据集可能有助于预测对目标蛋白的变异效应,这些任务的标记数据随机分为训练数据和测试数据。
为了评估模型性能, 该研究选择蛋白质突变数据集 (ProteinGym) 作为基准测试数据集。数据集共包含来自 87 个 DMS 测序实验的大约 150 万个错义变体。由于 ESM-1v 的最大输入长度为 1,024 ,该研究将氨基酸数量超过 1,024 个的蛋白质截断,并确保它们在相应数据集中的大多数突变发生于生成区间内。
紧接着,该研究随机选择 20 个单点突变作为初始训练集,然后再添加 20 个单点突变将训练集大小扩大到 40,并以此类推构建了 60、80和 100 的训练集。经过 5 次随机的数据拆分过程,该研究即可在一定训练规模的不同划分上实现模型性能的平均化。
FSFP 成功应用于三大基础模型,在小样本学习任务中具有显著优势
理论上,FSFP 可以应用于任何基于梯度下降优化的蛋白质语言模型中。为了验证其通用性, 该研究选择了 3 个代表性的 PLMs——ESM-1v、ESM-2 和 SaPro-t 作为基础模型进行训练,且都选择 650M 版本进行评估。
单位点和多位点突变体的总体表现
在平均性能方面, 通过 FSFP 训练的 PLMs 在所有训练数据规模上始终优于其他基线。其中,SaProt (FSFP) 表现最佳,ESM-1v (FSFP) 和 ESM-2 (FSFP) 则表现相当。此外,在 ProteinGym 的大多数数据集上,FSFP 训练的 PLMs 取得了最佳的 Spearman 相关性。与零样本预测相比,FSFP 在仅使用 20 个训练示例的情况下,通过提高 PLMs 在单突变体上的 Spearman 相关性的性能,使单突变体的性能提高了近 0.1,当涉及到多突变体时,这种差距变得更大。随着训练数据集的增长,这些改进不断增加,这与该研究的消融实验结果一致。
在所有训练样本下,使用 FSFP 的模型相对于 GEMME 和其增强版的岭回归都取得了显著改善。这表明 FSFP 不仅将 GEMME 中的多序列比对知识传授给 PLM,还通过多任务学习,成功地将其与来自目标训练数据的监督信息相结合。这再次证实了 FSFP 在小样本学习任务中的优势。
外推性能评估,FSFP 训练 PLMs 的 Spearman 相关性评估更优
单位点和多位点突变体的外推性能
研究人员从每个原始测试集中选择所有单点突变体,其突变位点与训练示例不同,从而得到了一个与训练示例不同的单点突变体测试集。然后,研究人员选择个体突变与训练数据中的突变没有重叠的多点突变体,从而得到另一个具有挑战性的测试集。在这种设置下,研究发现基础模型的零样本性能明显地随着训练集大小的变化而变化。
对于不同位置的单点突变,即使有 100 个训练示例,通过岭回归增强的模型表现也不会比基础模型更好。对于多点突变,当训练规模小于 60 时,岭回归方法无法有效提高 GEMME 和 ESM-2 的性能。相比之下,使用 FSFP 训练的 PLMs 在各种训练规模下,与所有基础模型相比的 Spearman 相关性得分都更高。此外,在大多数数据集上表现最佳的模型都是经过 FSFP 训练的模型。
4 种蛋白质的综合比较,FSFP 在小数据集训练收益更大
4 种蛋白质的 Spearman 相关性比较
为了进一步证明 FSFP 的适用性和泛化性, 该研究还展示了 4 种蛋白质:the envelope protein Env from HIV, the human α-synuclein, protein G (GB1), the human TAR DNA-binding protein 43 (TDP-43),在不同方法之间的比较结果。在这几个案例中,一个或多个无监督模型表现不佳。
值得注意的是,对于 TDP-43 来说,所有零样本预测的 spearman 相关性都接近于零。除 GB1 外,大多数通过岭回归增强的模型,在更大的训练数据集上也没有显著的性能提高。相反,利用 FSFP 在小数据集上进行训练时,预训练模型可以获得相当大的收益。
使用 FSFP 设计 Phi29 DNA 聚合酶,阳性率提升 25%
使用 FSFP 的 Phi29 工程
该研究还在一个具体的蛋白质 Phi29 改造案例中,进行了湿实验验证。 基于一组有限的湿实验数据,该研究用 FSFP 对 ESM-1v 进行训练,用其寻找新的单位点突变体,并进行实验验证。对比 FSFP 训练前后 ESM-1v 的前 20 个预测结果,平均 Tm 值提高了 1 ℃ 以上,阳性率 (positive rate) 提高了 25%。
具体来说,ESM-1v (FSFP) 发现的最佳突变体 (即 Tm 值最高的突变体) 也被 ESM-1v (zero-shot) 推荐。然而,在 ESM-1v (FSFP) 预测的阳性突变体中,有 9 个并没有出现在训练数据中,这表明 FSFP 可以使 PLMs 识别出更多的蛋白质变异体。这些结果肯定了 FSFP 在加速蛋白质工程设计与测试迭代循环中的潜力, 从而有助于开发具有增强功能特征的蛋白质。
AI for Bioengineering 典型代表,强强联合屹立时代前沿
在 AI 与科学研究紧密结合的今天,我们正站在一个历史性的机遇面前。洪亮教授认为,尽管中国生物制药行业已具备强大实力,但在国际产业链中的利润比例仍有提升空间。通过 AI,我们有机会实现「换道超车」,直接利用人工智能的力量,推动行业发展。正是基于这一理念,洪亮教授携手谈攀研究员,在 AI for Bioengineering 领域展开了无尽探索。
谈攀博士主攻分子生物物理、人工智能功能蛋白质设计以及药物分子设计等方向, 在 Nature Communications、PRL、Journal of Cheminformatics、PCCP 等期刊上发表 15 篇 SCI 论文。开发了多种人工智能辅助蛋白质设计改造算法。融合洪亮教授的专业技术与谈攀博士的 AI 算法,双方的合作研究屡获战果。
多年来,双方专注于通用人工智能在蛋白质工程领域的创新研究,成功研发了 pro 系列蛋白质工程通用人工智能。与 ChatGPT 理解人类语言的方式类似,pro 系列通过大模型理解自然界蛋白质的氨基酸排列方式,设计出性能优越的蛋白质产品。其中, 在产业化应用方面也有了两大里程碑产品:
极端耐碱单域抗体: 与金赛药业联合开发的全球首个大模型设计的蛋白质产品,实现了 5,000 升工业化生产,为生物大分子纯化提供了全新的解决方案。
糖基转移酶: 与瀚海新酶合作,开发用于生产胰腺炎筛查核心物料 eps-g7 的酶,打破了国外长期垄断,大幅降低了成本。
这两个案例标志着全球第一款和第二款大模型设计并成功放大生产进入产业化阶段的蛋白质产品。基于在 AI 蛋白质设计领域的深厚积累,洪亮教授于 2021 年创立了上海天鹜科技有限公司。在短短三年内,该公司不仅完成了多个蛋白质设计项目,还获得了数千万元的 Pre-A 轮融资,投资方包括耀途资本、金沙江资本等知名机构。
目前,公司服务已覆盖创新药、体外诊断、合成生物学等多个领域,并积极寻求与更多科研院所和企业的合作,致力于在蛋白质工程领域树立全国乃至全球的标杆。
在蛋白质工程这条竞争激烈的赛道上,洪亮教授的愿景是明确的:不仅要成为国内领军者,更要成为世界范围内的领跑者。 在未来的科研征程中,洪亮教授及其团队正致力于拓展与全球科研机构和企业的深度合作,不断探索蛋白质设计的无限可能,力求在这一领域实现技术突破和应用创新,在国内树立标杆,在国际展现卓越。