韩国版AlphaFold?深度学习模型AlphaPPIMd:用于蛋白质-蛋白质复合物构象集合探索

在生命的舞台上,蛋白质扮演着不可或缺的角色。它们是生物体中最为活跃的分子,参与细胞的构建、修复、能量转换、信号传递以及无数关键的生物学功能。同时,蛋白质的结构与其功能密切相关,而它们的功能又通过与蛋白质、多肽、核苷酸以及各种小分子的复杂相互作用来实现。这种蛋白质-蛋白质相互作用 (PPI) 是细胞内许多生物过程的核心,从细胞信号传导到免疫反应,再到细胞周期的调控,无不涉及 PPI。

然而,人们目前对蛋白质三维结构及其相互作用特性的了解仍不够全面。传统的实验技术,如 X 射线晶体学和冷冻电镜,虽然能够提供高分辨率的蛋白质结构信息,但耗时且成本高昂, 且在解析动态过程和低丰度蛋白质时面临挑战。这极大限制了人们对蛋白质功能和相互作用机制的深入理解,进而影响了药物设计和蛋白质工程的发展。

针对于此,延世大学王建民博士及其合作者通过将深度学习与生成式 AI 相结合,利用基于 Transformer 的生成神经网络学习探索蛋白质-蛋白质复合物的构象集合, 从多个分子动力学 (MD) 轨迹中学习了影响蛋白质-蛋白质复合物构象和动力学机制的关键残基,并为蛋白质-蛋白质结合提供了机理性见解。

论文地址:
https://doi.org/10.1101/2024.02.24.581708

AlphaPPIMd 模型:基于分子动力学模拟,以自注意力机制为核心

研究团队 barnase-barstar 复合物轨迹集作为数据集。 首先从蛋白质数据库 (Protein Data Bank, PDB) 中下载了 barnase-barstar 复合物的晶体结构,通过去除配体和结晶水,提取 A 链和 D 链作为初始复合物结构。然后,研究人员通过 AmberTools 中的 tleap 模块添加缺失的氢原子,并通过加入 Na+ 和 Cl- 离子进行中和,在 12Å 的 TIP3P 水分子周期边界盒中进行溶剂化。最后,利用 AmberTools 中的 tleap 模块和 AMBER ff14SB 力场编制了系统的拓扑和坐标文件。

随后,研究团队使用分子动力学模拟系统,通过 Langevin 积分器进行了 500 步典型的 NVT 模拟,使得能量最小化。然后,在 300K 下通过 10,000 步 NPT 模拟来进一步达到平衡状态,并使用粒子网络 Ewald 算法,计算远程静电的相互作用,将直接空间相互作用的截断值设为 1nm,仿真时间步长设置为 2fs,同时还设置了 SHAKE 算法来约束所有涉及氢原子的键的长度,随即进行了 6 次独立的 100ns 分子动力学模拟。所有模拟均采用 OpenMM 7.7 进行。

在完成分子动力学模拟后,研究团队基于 Transformer 构建了 AlphaPPIMd 模型,利用深度生成模型来捕捉传统分子动力学难以分析的蛋白质构象状态。 AlphaPPImd 框架的核心是自注意力机制,可以从 MD 轨迹中捕获影响蛋白-蛋白复合物构象的关键氨基酸残基对。

AlphaPPImd 体系结构

首先, AlphaPPImd 框架会对蛋白-蛋白复合物的 MD 轨迹进行预处理,得到两条链的序列长度、序列组成和氨基酸残基类型,并通过计算轨迹中选定残基的 Φ,Ψ 角度,以表示不同的构象状态。(如上图中粉色与绿色虚线框内所示)

其次, 研究人员通过向量模块 (embedding module) 将蛋白-蛋白复合物 MD 轨迹的每一帧输入 AlphaPPImd 的编码器模块,该模块包含多头自注意力机制 (multi-head self-attention mechanism)、注意力分数 (attention score) 和特征优化模块 ( feature optimization module)。AlphaPPImd 的解码器用于学习和捕获蛋白质复合物不同类型和位置的残基对构象的贡献。

最后, 预测模块迭代生成下一帧的基态,Modeller 可根据扩展的基态编码轨迹重构蛋白质-蛋白质复合物的构象模型。

AlphaPPImd 解码器模块中的多头自注意层学习了特定残基对之间的相互作用,可以将注意力函数视为查询 (Q) 与键值对 (K-V) 输出之间的映射。AlphaPPImd 采用蛋白质复合物残基嵌入作为 Q,将全局蛋白质复合物特征用作 K 和 V,并通过使用 Q 和 K 计算注意力权重。其计算公式如下:

与此同时,该研究将 barnase-barstar 复合物的 6 个独立的 100ns MD 轨迹分为 300 个基元,每个基元由 1,000 帧组成。MD 轨迹经过预处理,仅保留蛋白质原子。每个 MD 运行都提供了一组有限的蛋白质-蛋白质复合物物理快照。轨迹中的每一帧都表示为 Φ,Ψ 编码的基态。因此,蛋白质-蛋白质复合物的扭转状态被降维为一种文本表示形式, 保留了动力学的主要次要特征。

研究结论:平均训练精度高达 0.995,可推广向更多蛋白质复合物

barnase-barstar 复合物由两条不同的链组成,共有 197 个残基组成 (barnase 链:108 个残基,barstar 链:89 个残基)。该研究通过 KMeans 算法将点位划分为 4 个聚类,标记为 0(下图中的紫色)、1(下图中的深蓝色)、2(下图中的绿色)、3(下图中的黄色),然后记录并存储每个簇的质心,以便从基态编码的扭转状态重建 barnase-barstar 复合物的全原子模型。

barnase-barstar 复合物的 Ramachandran 图

该研究将每一帧的轨迹转换成一个字符向量,每个字符向量由对应于 4 个簇的 4 个符号组成。最后,该研究对 barnase-barstar 复合体的 MD 轨迹数据集中的所有 300 个基元,执行了类似的表示过程。

综上所述,barnase-barstar 复合物是一种异二聚体,两条链中编码的残基基态差异明显。 这意味着,barnase-barstar 复合物在生成新的基态编码框架,以及重建单个蛋白质的构象模型方面存在显著差异。

生成的 barnase-barstar 复合物(浅蓝色)构象与参考构象的重叠

研究表明,AlphaPPImd 模型的平均训练精度为 0.995,平均验证精度为 0.999。 虽然 AlphaPPImd 很快就获得了稳定的性能,但为了进一步完善 Transformer 模型并丰富模型学习到的 MD 构象分布,该研究使用了多个 MD 轨迹作为数据集。例如,该研究通过从测试集的轨迹中随机选取一帧作为输入,并利用训练后的 AlphaPPImd 框架生成 100 个基态编码帧。
结果表明,该模型能够成功地对构象进行采样和展开, 并且能够正确执行 Φ、Ψ 的二面体约束。

蛋白质-蛋白质复合物构象的 RMSD 分布

该研究还从 AlphaPPImd 模型生成的 1,000 个 barnase-barstar 复合物构象中,选择了 4 个 RMSD 接近 2Å 的代表性构象。研究结果表明,AlphaPPImd 生成的蛋白质复合物构象模型与参考晶体结构更接近, 准确度更高(均方根偏差 < 2Å)且可接受性更高(DockQ ≥ 0.23)。

可解释性分析

此外,AlphaPPImd 的注意力机制捕获了关键残基之间的注意力权重,并提供了关于蛋白质-蛋白质结合的机制见解。

研究表明,AlphaPPImd 模型捕获的关键残基主要位于蛋白质相互作用、环和螺旋的接口处,这意味着,深度生成模型从 barnase-barstar 复合物的 MD 轨迹中捕获了影响其动力学和构象的关键残基, 可用于补充 MD 结果。同时,AlphaPPImd 模型捕获的关键残基主要位于 Mdm2-p53 相互作用界面,这也证明该模型可以推广到其他蛋白质-蛋白质复合物。

AI 蛋白质预测:从 AlphaFold 到百家争鸣

早在 2016 年,AlphaGo 名声大噪之后,DeepMind 团队就开始了针对蛋白质折叠问题的研究。
在 2018 年底的第 13 届 CASP (Critical Assessment of protein Structure Prediction) 中,AlphaFold 在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。2020 年,AlphaFold 2 面世,实现了蛋白质单体结构的高准确度预测。2021 年 10 月,DeepMind 发布了一个名为 AlphaFold-Multimer 的更新,其基于 AlphaFold 2 进行了拓展,可以对多种蛋白质的复合物进行建模。2024 年 5 月 8 日,AlphaFold 3 再次惊艳世人,将预测范围从蛋白质带到广泛的生物分子。

早在 AlphaFold 2 推出之际,中科院院士施一公就曾对媒体表示:「依我之见,这是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一,是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。」

有了 AlphaFold 的珠玉在前,AI 在蛋白质设计领域引发的产业革命悄然而至。

2023 年,全球首个 AI 蛋白质生成大模型 NewOrigin(中文名「达尔文」)在世界制造业大会上正式亮相。 据介绍,NewOrigin 大模型基于条件生成机制,联合使用 AI、分子动力学、量子计算、湿实验等多维反馈机制,可高精度生成蛋白质序列、蛋白质功能、蛋白质知识表示等多种模态蛋白质内容,完成亲和力、稳定性、活性、表达量等多维度任务,满足真实的产业应用所需。

2022 年,华盛顿大学医学院的生物学家在 Science 上连发两篇论文,介绍了他们的重大发现。研究者表示,使用机器学习可以在几秒钟内创建出蛋白质分子。 而在以前,这个时间会长达几个月。创造出自然界中没有的蛋白质,有助于疫苗研发、加快治疗癌症的研究、碳捕获工具研发、可持续生物材料研发等。

毫无疑问,AI 蛋白结构预测能够让我们更好地认识和理解蛋白质,进而理解生命。但是,仅仅只是认识和理解是远远不够的,科学家们未来需要通过 AI 预测蛋白质来解决医疗领域的实际问题,例如按需求改造蛋白质、甚至从头设计自然界不存在的蛋白质。道阻且长,期待 AI 能够在生命科学探索中带来更多惊喜。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/851935.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【方法】Word文档如何添加“打开密码”?

Word文档是很常用的办公文档&#xff0c;对于重要的文档&#xff0c;不想被他人随意查看&#xff0c;或者只有指定的人可以查看&#xff0c;我们可以给Word文档设置密码保护&#xff0c;这样只有知道密码的人才可以打开文档。 下面分享两种Word文档添加“打开密码”的方法&…

uniapp上传头像并裁剪图片

第一步写上uniapp自带的选择图片button按钮 点击之后会弹出选择图片的方式 拍照或从相册选择图片后将会跳到图片裁剪 然后我们裁剪完之后点击确定在上传图片 这里是上传图片的接口 拿到本地图片 上传的话自己想以那种方式上传都可以

linux中HADOOP_HOME和JAVA_HOME删除后依然指向旧目录

在Linux系统中,当你删除了HADOOP_HOME和JAVA_HOME环境变量后,它们依然指向旧目录,可能是因为这些变量在其他地方被设置了。以下是一些常见的原因和解决方法: 系统级配置文件: 检查系统级的环境变量配置文件,如/etc/profile、/etc/bashrc、/etc/environment,以及/etc/pro…

【前端面试】动态表单篇

问题&#xff1a;什么是动态表单&#xff1f; 动态表单是一种可以根据用户的输入或者选择&#xff0c;动态改变其结构和元素的表单。比如&#xff0c;当用户在一个下拉列表中选择不同的选项时&#xff0c;表单中可能会出现不同的输入框、复选框、单选按钮等。 问题&#xff1a…

新人学习笔记之(初识C语言)

一、C语言的简介 1.C语言&#xff1a;1978年1月1日美国贝尔实验室推出的一门非常哇塞计算机语言 2.计算机语言&#xff1a;人与计算机之间进行信息交流沟通的一种特殊语言 二、C语言能做什么 1.操作系统 2.驱动开发 3.引擎开发 4.游戏开发 5.嵌入式开发 三、学习C语言的好处 …

5.0 Python 函数简介

1.函数 1.1 基本定义 定义: 将一组语句的集合通过函数进行封装, 简单来说是具有一定功能的代码容器, 想要执行这些语句, 只需要调用函数的名称即可. 特性: * 1. 可重复使用, 减少代码冗余. * 2. 组织结构清晰, 可读性增强. * 3. 可扩展性提高, 便于维护. 1.2 使用规则 函…

oracle块跟踪

1.查询块跟踪 select status,filename,bytes from v$block_change_tracking;2.打开块跟踪 ALTER DATABASE ENABLE BLOCK CHANGE TRACKING USING FILE /home/oracle/block_change_tracking.log;3.关闭块跟踪 ALTER DATABASE DISABLE BLOCK CHANGE TRACKING;4.解释 Oracle数据…

LabVIEW开发指针式压力仪表图像识别

系统利用LabVIEW编程实现对指针式压力仪表的读取&#xff0c;通过相机、光源、固定支架等硬件捕捉仪表图像&#xff0c;并通过图像识别技术解析压力值。系统分为两个阶段&#xff1a;第一阶段固定相机更换仪表&#xff0c;第二阶段移动相机识别多个固定仪表。本文介绍硬件选择、…

Java | Leetcode Java题解之第141题环形链表

题目&#xff1a; 题解&#xff1a; public class Solution {public boolean hasCycle(ListNode head) {if (head null || head.next null) {return false;}ListNode slow head;ListNode fast head.next;while (slow ! fast) {if (fast null || fast.next null) {return…

空气净化器是智商税吗?空气净化器哪款品牌效果最好?

随着科技的发展和人们生活水平的提高&#xff0c;空气净化器逐渐走进千家万户。然而&#xff0c;有人认为空气净化器的实际效用被夸大&#xff0c;只是商家营销的手段&#xff0c;成为了“智商税”。那么&#xff0c;空气净化器真的有用吗&#xff1f;在众多品牌中&#xff0c;…

Unity UGUI ScrollRect 滑动显示左右箭头

目录 一、前言 二、效果 三、代码解析 EnhancedScrollRect.cs 解析 Start 方法 HandleArrowVisibility 方法 EnhancedScrollRectEditor.cs 解析 OnEnable 方法 OnInspectorGUI 方法 四、完整代码 EnhancedScrollRect.cs EnhancedScrollRectEditor.cs 五、总结 De…

Mysql开启binlog

# server-id表示单个结点的id&#xff0c;这里由于只有一个结点&#xff0c;所以可以把id随机指定为一个数&#xff0c;这里将id设置成1。若集群中有多个结点&#xff0c;则id不能相同 server-id1 # log-bin日志文件的名字为mysql-bin&#xff0c;以及其存储路径 log-bin/usr/l…

pointnet

train_classification.py 把第91行修改为自己的路径&#xff0c;就可以运行了 test_cla.py&#xff0c;需要训练完才能运行测试&#xff0c;我没训练完&#xff0c;所以报错显示我没有best.pth文件 网盘里面是我运行的训练和测试的视频&#xff0c;以及源代码&#xff0c;数…

STM32CUBEIDE使用技巧

一、创建文件 二、菜单栏和工具栏说明 三、编译/下载/仿真调试 1、编译的两种模式 Debug模式和Release模式&#xff0c;Debug模式在调试阶段时使用&#xff0c;Release模式在项目完结发给客户时使用&#xff0c;Release模式不能使用单步调试功能。 2、下载方式 下载可以在ST…

构建数字孪生微电网,实现能源系统一体化管控

图扑利用自主研发引擎 HT for Web 将 Web 智慧“双碳”微电网场景进行数字孪生&#xff0c;有效实现源网荷储一体化管控。整体场景采用了轻量化建模的方式&#xff0c;重点围绕智慧园区电网联通中的源、网、荷、储四方面的设备和建筑进行建模还原&#xff0c;为用户带来“赛博朋…

Causal Effect Identification in Uncertain Causal Networks

我们采用以下六个分类标准为: 数据模态: 观察数据: 这类数据是在没有研究人员任何干预的情况下收集的。它通常很容易获得,但由于潜在的混杂变量而带来挑战。例如,在流行病学中,由于实验的伦理限制,观察性研究很常见。参考文献[6]讨论了观察性研究中因果效应的识别和估计…

17种JMeter 逻辑控制器

前言 JMeter提供了17种逻辑控制器&#xff0c;它们各个功能都不尽相同&#xff0c;其作用域只对其子节点的sampler有效&#xff0c;作用是控制采样器的执行顺序。 控制测试计划执行过程中节点的逻辑执行顺序&#xff0c;如&#xff1a;Loop Controller、If Controller等&…

LVS+Keepalived高可用负载均衡群集

目录 一.高可用群集相关概述 1.高可用&#xff08;HA&#xff09;群集与普通群集的比较 普通群集 高可用群集&#xff08;HA&#xff09; 两者比较 2.Keepalived高可用方案 3.Keepalived的体系模块及其作用 4.Keepalived实现原理 二.LVSKeepAlived高可用负载均衡集群的…

github 本地仓库上传及报错处理

一.本地文件上传 这里为上传部分&#xff0c;关于gitbash安装配置&#xff0c;读者可自行搜索&#xff0c;由于已经安装完成&#xff0c;未进行截图保存&#xff0c;这里便不做赘述。 1.登录git账号并创建一个仓库 点击仓库打开后会看到这个仓库的网址链接&#xff08;这个链…

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[1]-最新版快速实践并部署(检索增强生成RAG大模型)

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[1]-最新版快速实践并部署(检索增强生成RAG大模型) 基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。 1.介绍 一种利用 langchain思想实现的基于本地知…