深度学习 MetDeeCINE 破译代谢调控机制
目录
- 使用 FEP/REMD 和 DFT 方法准确预测药物多靶点绝对结合自由能的新途径。
- Scorpio 框架利用对比学习优化核苷酸序列表示,提升基因组分析效率,尤其在未知序列的分类和泛化能力上表现出色。
- LPM 模型整合多模态扰动数据,预测转录组结果,加速药物发现和系统生物学研究。
- MetDeeCINE 利用深度学习和多组学数据,无需详细动力学参数即可预测酶活性对代谢物浓度的影响。
- MSNGO 利用结构信息和网络传播,显著提升了跨物种蛋白质功能注释的准确性。
1. 快速精准预测药物多靶点结合自由能
药物的毒性和副作用通常与脱靶结合密切相关。因此,准确预测药物与体内多个蛋白质的绝对结合自由能至关重要,它决定了药物对其分子靶点的亲和力及其选择性。
然而,ABFE 的实验测量具有挑战性,许多蛋白质与潜在药物和其他结合分子的 ABFE 值尚不清楚。因此,迫切需要开发准确的 ABFE 计算方法。
本研究计算了两种药物分别与多个蛋白质的 ABFE,以检验现有计算方法的准确性并探索改进途径。
研究者采用了两种主要方法:自由能微扰结合副本交换分子动力学 (FEP/REMD) 和基于簇方法和简化模型的密度泛函理论 (DFT)。
此外,研究者还利用能量分解分析 (EDA) 对 DFT 计算结果进行了补充分析。
通过比较不同方法的计算结果与已知的实验数据,作者评估了 FEP/REMD 和 DFT 方法在 ABFE 预测方面的准确性和适用性。结果表明,两种方法均能在一定程度上预测 ABFE,但精度受多种因素影响,例如蛋白质的结构复杂性和计算资源的限制。此外,EDA 分析揭示了药物与蛋白质之间相互作用的关键能量组分,为进一步优化计算方法和指导药物设计提供了 valuable insights。
📜Paper: https://doi.org/10.1021/acs.jcim.4c01555
2. 基于对比学习的 Scorpio 框架提升基因组序列分析效率
研究者开发了一种名为 Scorpio 的框架,该框架利用对比学习优化核苷酸序列表示,从而提升基因组分析效率。具体而言,Scorpio 通过优化嵌入向量来有效区分相似和不相似 DNA 序列,从而在分类任务中,例如分类单元和基因分类,取得了显著的改进。与传统的基于比对的方法相比,Scorpio 展现出更强的泛化能力,尤其体现在对先前未见 DNA 序列的处理上,使其成为宏基因组分析的理想工具。此外,Scorpio 还能处理不同长度的序列,甚至包括新的分类单元。
为了实现卓越的性能,Scorpio 结合了预训练基因组语言模型和 k-mer 频率嵌入。这种方法在抗菌素耐药性 (AMR) 检测和启动子区域识别等应用中表现出色。框架的多功能性使其能够适应不同的应用场景。
Scorpio 的一大优势在于能够在单个模型中同时处理基因水平和分类学数据。与需要针对不同分类任务构建单独模型的方法相比,这极大地提高了效率。Scorpio 采用三元组网络,通过比较序列的相似性进行学习,增强了其对基因和分类单元进行高精度分类的能力,尤其对于训练数据中未出现的新基因或分类单元。
此外,Scorpio 还包含一个置信度评分机制,可衡量预测的质量,从而提高其在下游应用中的可靠性。在实际的基因组分析中,不确定性是不可避免的,因此这项功能至关重要。Scorpio 的灵活性还体现在其分层学习结构上,该结构可以针对各种数据集和不同级别的生物信息进行定制,从而增强其在各种基因组任务中的泛化能力。
📜Paper: https://www.nature.com/articles/s42003-025-07902-6
💻Code: https://github.com/EESI/Scorpio
3. LPM:AI 驱动生物发现新引擎
大型扰动模型 (LPM) 是一项深度学习框架,它通过整合化学、基因、转录组和细胞活力等多模态扰动数据集,实现了计算机模拟的生物学发现。
LPM 使用扰动 §、读数 ® 和上下文 © 的解耦潜在表征,能够准确预测扰动后的转录组结果,其性能优于 CPA、GEARS、Geneformer 和 scGPT 等现有模型,尤其是在涉及未见扰动 - 上下文 - 读数组合的情况下。
LPM 采用仅解码器、PRC 解耦的架构,不同于基于编码器的模型。这种架构使其能够独立于嘈杂的实验环境学习扰动 - 响应规则,并无缝扩展以适应不同的数据格式。
值得注意的是,LPM 是第一个将基因和化学扰动整合到统一潜在空间的模型,从而能够识别共享的分子机制。例如,它可以将 CRISPR 敲除与靶向相同基因(例如,MTOR、HDAC2/3、HMGCR)的药物正确地聚类。
此外,LPM 学习的嵌入具有生物学意义,在基因功能预测方面优于 STRING 和 Gene2Vec 等人工筛选的嵌入,并且反映了已知的蛋白质复合物和分子通路。研究者利用 LPM 通过估算缺失的扰动结果来进行基因 - 基因相互作用网络的因果推断。结果表明,使用 LPM 预测的结果增强真实数据可以显著提高 Guanlab 等最先进网络推断算法在基准评估中的性能。
在一个概念验证应用中,研究者使用 LPM 预测上调 PKD1(一种与常染色体显性遗传性多囊肾病 (ADPKD) 相关的基因)表达的药物。他汀类药物(如辛伐他汀)是排名靠前的候选药物,回顾性临床数据显示,他汀类药物使用者中 ESRD 进展显著减少。
LPM 还展现了其扩展性:随着更多扰动类型或实验环境的添加,预测精度会提高,这表明它有潜力从不断增长的公共数据集中受益。虽然 LPM 缺乏对词汇表外上下文的零样本泛化能力,但其词汇表内插值和多任务处理能力使其对于利用合并的扰动实验非常有用。
这项研究表明,LPM 可以通过计算填补未观察到的实验结果并从高通量筛选中提取潜在的生物学结构,从而加速实验设计、治疗发现和系统生物学研究。
📜Paper: https://arxiv.org/abs/2503.23535
💻Code: https://github.com/GSK-AI/LPM (to be released)
4. 深度学习 MetDeeCINE 破译代谢调控机制
MetDeeCINE 是一种可扩展、可解释的深度学习框架,它直接从多组学数据中建模代谢调控,预测酶活性如何影响代谢物浓度,而无需详细的动力学参数或通量数据。其核心是采用了一种代谢信息图神经网络 (MiGNN),该网络整合了代谢物之间的化学计量关系。
该模型的性能优于标准机器学习方法,并能捕捉代谢网络中的远程调控效应。与传统的动力学模型不同,MetDeeCINE 仅需要蛋白质组学和代谢组学测量值以及已知的化学计量关系。它推断浓度控制系数 (CCC),量化酶 - 代谢物的影响,从而实现对代谢控制的网络规模理解。
在使用大肠杆菌代谢动力学模型进行的模拟中,MiGNN 即使在模型中没有明确的变构数据的情况下,也能准确地恢复 CCC 和调控结构,甚至捕捉到间接和变构效应。将 MetDeeCINE 应用于小鼠肝脏多组学数据,成功地将 Fbp1 鉴定为糖异生的限速酶,并揭示了果糖 -6-磷酸、葡萄糖 -6-磷酸和葡萄糖 -1-磷酸等代谢物之间的机制联系,这与已知的生物学知识一致。
MetDeeCINE 的一个关键创新在于,即使某些成分未被测量,它也能识别有意义的酶 - 代谢物联系,使其适用于未完全注释的生物体,并扩展其在系统生物学和代谢工程中的效用。与其他基于机器学习的组学整合模型相比,MetDeeCINE 的可解释性因其生物学指导的架构而得到增强。可以通过探测学习到的权重矩阵来揭示隐藏的调控机制和潜在的治疗靶点。MetDeeCINE 弥合了数据密集型动力学建模和黑盒机器学习之间的差距。它可以很好地推广到不同生物体和条件,并在疾病机制发现、药物靶点识别和合成生物学设计方面具有应用潜力。
📜Paper: https://www.biorxiv.org/content/10.1101/2025.03.24.645125v1
5. MSNGO:跨物种蛋白质功能预测新标杆
MSNGO 是一种新型的多物种蛋白质功能预测方法,它首次将 AlphaFold2 衍生的结构特征整合到异构网络传播框架中,显著提高了跨物种功能注释的准确性。
与以往仅依赖序列和蛋白质相互作用 (PPI) 数据的模型不同,MSNGO 使用在 3D 接触图上训练的图卷积池化网络提取蛋白质结构表征,从而更深入地理解结构与功能之间的关系。
该模型构建了一个包含 13 个物种的异构网络,结合了序列同源性和 PPI 数据,并使用图注意力机制传播蛋白质特征和功能标签,实现了跨物种功能转移。
在训练过程中,MSNGO 将蛋白质结构和序列特征连接起来,并在网络中传播。在预测阶段,标签传播补充了特征传播,尤其提升了注释稀疏蛋白质的预测准确性。
与 SPROF-GO、DeepGraphGO 和 PSPGO 等现有方法相比,MSNGO 在生物过程 (BPO)、分子功能 (MFO) 和细胞组分 (CCO) 三个 GO 分支上均表现更优,实现了更高的 Fmax 和 AUPR,以及更低的语义距离。尤其在 BPO 分支中,MSNGO 的性能比次优方法提升了 10% 以上,表明其在处理多标签预测中的大型复杂标签空间方面具有显著优势。
消融研究证实了结构特征的重要性:去除结构特征会显著降低性能,尤其是 Fmax 值。这验证了蛋白质结构能够捕获序列信息中无法体现的关键功能线索。
此外,MSNGO 对序列特征的变化具有鲁棒性,即使使用 Interproscan 和 ESM-2 等快速替代方案也能保持良好的性能,这证明了其在大规模、多物种注释任务中的可扩展性。MSNGO 也能很好地泛化到单物种数据。在人类和小鼠数据集上的评估结果表明,MSNGO 优于 Struct2GO 等单物种方法,这得益于其利用跨物种功能信号的能力。
凭借高效的传播、对多种数据模态的支持以及改进的泛化能力,MSNGO 为多物种蛋白质功能预测树立了新的标杆,为特征信息不足的生物体进行更快速的蛋白质功能注释铺平了道路。
📜Paper: https://arxiv.org/abs/2503.23014
💻Code: https://github.com/blingbell/MSNGO