Allo-PED: AI 精准预测蛋白质变构位点
目录
- Allo-PED 框架融合蛋白质语言模型与结构特征,显著提高了变构位点预测的准确性和泛化能力。
- EcoFoldDB 利用蛋白质结构信息,为宏基因组提供了精确且可扩展的生态功能注释新方法,显著提升了对未知微生物功能的认知。
- 上下文分子适配(ICMA)新方法,使大语言模型无需领域预训练即可通过上下文学习高效处理分子任务。
- OmniCellTOSG 是首个融合文本与组学信息的大规模细胞信号图谱数据集,旨在通过联合 LLM 与 GNN 模型深化细胞系统理解。
- UAE-3D,通过统一潜空间显著提升 3D 分子生成的速度与几何精度。
1. Allo-PED: AI 精准预测蛋白质变构位点
在药物发现领域,精确识别蛋白质变构位点对于靶向调控蛋白质功能至关重要。为此,研究者开发了一种名为 Allo-PED 的新型计算框架。该框架巧妙地结合了先进的蛋白质语言模型和机器学习技术,旨在提升变构位点预测的精度。
Allo-PED 包含两个核心模块。首先,AlloPED-pocket 模块运用集成学习方法,整合蛋白质的物理化学性质与结构特征来预测潜在的变构口袋。
该模块在基准数据集上取得了优异表现,其 MCC 达到 0.544,曲线下面积 (AUC) 高达 0.920,展示了其强大的口袋识别能力。
AlloPED-site 模块在此基础上进一步精炼预测结果。该模块利用强大的 ProtT5-XL 蛋白质语言模型提取序列深层信息,并结合带有注意力机制的深度卷积神经网络 (DCNN) 来精确识别变构位点。AlloPED-site 实现了 0.601 的精确率和 0.422 的召回率,有效提升了位点预测的准确性。
Allo-PED 通过整合集成学习和深度学习,其整体性能优于现有的 AllositePro 和 PARS 等方法,特别是在预测特异性和模型泛化能力方面表现突出。研究者还发现,残基聚类系数、疏水微环境以及范德华体积是决定变构位点的关键结构因素,这些发现为理解变构调控机制提供了新的视角。
该模型通过动态阈值调整、Focal Loss 损失函数以及 mRMR、RFECV 等特征选择方法,有效处理了数据类别不平衡问题,从而增强了预测的准确性和效率。Allo-PED 的创新之处在于同时整合了序列(通过 ProtT5 嵌入捕捉进化和功能模式)和结构特征,这对于理解变构位点的动态特性至关重要。
研究强调了疏水残基和静电微环境在变构