ESM(Evolutionary Scale Modeling)是 Meta AI Research 团队开发的一系列用于蛋白质的预训练语言模型。这些模型在蛋白质结构预测、功能预测和蛋白质设计等领域展现出了强大的能力。以下是对 ESM 的详细介绍:
核心特点
- 大规模预训练:基于大规模蛋白质序列数据进行无监督学习,学习到蛋白质序列中的进化信息和潜在模式。
- Transformer 架构:采用 Transformer 架构,能够捕捉蛋白质序列中的长程依赖关系,从而更好地理解蛋白质的结构和功能。
- 多任务应用:可以用于多种蛋白质相关任务,如结构预测、功能预测、突变效应预测和蛋白质设计等。
主要模型版本
- ESM - 1 和 ESM - 1b:这是 ESM 系列的早期模型,为后续模型的发展奠定了基础。在蛋白质结构和功能预测方面取得了一定的成果。
- ESM - 2:是 SOTA 通用蛋白质语言模型,可直接从单个序列预测蛋白质的结构、功能和其他属性。与之前的模型相比,ESM - 2 在多个结构预测任务中表现更优,超过了所有测试的单序列蛋白质语言模型。
- ESM - 1v:专门用于预测蛋白质变体效应的语言模型,能够进行零样本预测序列变异对蛋白质功能的影响。
- ESM - MSA - 1b:一种 MSA(多序列比对)Transformer 语言模型,可用于从 MSA 中提取嵌入信息,实现了最先进的结构推理。
- ESM - IF1