Nat. Methods | RoseTTAFoldNA准确预测蛋白质-核酸复合体

今天为大家介绍的是来自Frank DiMaio团队的一篇论文。蛋白质-核糖核酸(RNA)和蛋白质-脱氧核糖核酸(DNA)复合体在生物学中扮演着至关重要的角色。尽管近年来在蛋白质结构预测方面取得了显著进展,但预测没有同源已知复合体的蛋白质-核酸复合体的结构仍是一个基本未解决的问题。在这里,作者将RoseTTAFold机器学习蛋白结构预测方法扩展应用,以预测核酸和蛋白质-核酸复合体。作者开发了一个网络系统,RoseTTAFoldNA,它能够快速生成带有可信度估计的蛋白质-DNA和蛋白质-RNA复合体的三维结构模型。

c1ca6df85bde844bbe03501c138236e0.png

当前预测蛋白质-核酸复合体结构的方法包括分别构建蛋白质和核酸的模型,然后使用对接计算来构建复合体。对于蛋白质部分的预测,像RoseTTAFold和AlphaFold这样的机器学习方法非常准确,而RNA结构预测则使用了蒙特卡洛抽样方法以及深度学习方法的组合。尽管在预测单个部分方面取得了进展,但蛋白质-核酸复合体结构的预测远远落后于单独预测蛋白质结构或RNA结构。作者在这份工作中着手将RoseTTAFold泛化,以模拟核酸以及蛋白质,并通过在PDB的结构上训练来学习蛋白质-核酸系统所需的许多新参数。作者新开发的RoseTTAFoldNA模型利用了与RoseTTAFold相同的数据,但额外增加了所有在PDB中的RNA、蛋白质-RNA和蛋白质-DNA复合物的数据。研究人员通过测试新近发布的核酸复合体结构,评估了RoseTTAFoldNA在预测蛋白质-核酸复合体结构方面的能力,并将其预测结果与AlphaFold和蛋白质-DNA对接计算方法的组合进行了比较。

模型结构

a67834beb2894823addcea71b0983432.png
图 1

图1是RoseTTAFoldNA(RFNA)的架构,这是一种生物分子系统的三重表示方法的计算模型。RFNA基于RoseTTAFold的三轨架构,能够同时优化生物分子系统的三种表示:序列(1D,一维),残基对间距离(2D,二维)以及笛卡尔坐标(3D,三维)。RFNA对原有模型进行了几项修改以提高性能,并扩展了所有三个轨道以支持核酸和蛋白质。在RoseTTAFold的1D轨道中,原有22个标记用于蛋白质设计。RFNA在此基础上增加了10个新标记,分别对应DNA的四种核苷酸、RNA的四种核苷酸、未知DNA和未知RNA。RoseTTAFold的2D轨道能够构建蛋白质或蛋白质组合中所有氨基酸对的相互作用表示。RFNA将2D轨道泛化,以模拟核酸碱基之间以及碱基和氨基酸之间的相互作用。RoseTTAFold的3D轨道表示每个氨基酸在由三个骨架原子(N、CA和C)定义的框架中的位置和方向,并可构建多达四个侧链角。对于RFNA,还包括了对每个核苷酸的表示,使用一个坐标框架描述磷酸基团的位置和方向,并利用10个扭转角来构建核苷酸中的所有原子。RFNA包含36个这样的三轨层,后面跟着四个额外的结构细化层,总共有6700万个参数。该模型通过训练,使用蛋白质单体、蛋白质复合物、RNA单体、RNA二聚体、蛋白质-RNA复合物和蛋白质-DNA复合物,以60/40的比例处理纯蛋白质和蛋白质核酸复合的结构。

训练过程中,模型使用了基于序列相似性搜索生成的多重序列比对(MSAs),以优化网络参数。优化过程包括最小化损失函数,该函数是对所有蛋白质和核酸原子的全原子框架对齐点误差(FAPE)损失的泛化,以及评估遮蔽序列片段恢复、残基间(包括氨基酸和核苷酸)相互作用几何形状和误差预测精度的额外贡献。为了补偿PDB中含有较少核酸结构的问题,RFNA还引入了物理信息,如Lennard-Jones和氢键能量,作为最后细化层的输入特征,并在微调过程中作为损失函数的一部分。

实验结果

7c4215f91b08acd5fc8dc35946a05f72.png
图 2

ff95f1c15b502f973675de999fd86a78.png
图 3

RoseTTAFoldNA在分析224个单体蛋白质-核酸(NA)复合物的表现被总结在图2中,并显示为116个簇。预测结果相当准确, Local Distance Difference Test(IDDT)得分为0.73,其中29%的lDDT得分超过0.8(19%的簇,见图2a),大约45%的结构包含超过一半的蛋白质和核酸之间的原生接触(native contacts,FNAT > 0.5,35%的簇,见图2c)。和RoseTTAFold及AlphaFold一样,RoseTTAFoldNA不仅输出预测结构,还输出模型的预测置信度。如预期,该方法能正确识别哪些结构模型是准确的。尽管只有38%的复合物(28%的簇)预测为高置信度,但在这些中,81%(78%的簇)正确地模拟了蛋白质-核酸界面(根据CAPRI标准为“可接受”或更好)。

在与训练中的蛋白质-核酸结构没有可检测序列相似性的33个簇中,准确度类似(平均lDDT = 0.68,24%的模型lDDT > 0.8,42%的FNAT > 0.5),模型仍能正确识别准确的预测——这一子集中24%的预测被预测为高置信度,其中所有8个都有根据CAPRI标准为可接受的界面。图2d-g展示了四个训练集中没有序列同源性的结构的预测,包括内切酶BpuJ1、肿瘤抗原p53、与tRNA样RNA结构域结合的SmpB,以及端粒酶逆转录酶的组分。这些预测中的不准确之处可在灵活的末端区域(图2e,g)、与界面相比DNA双螺旋的轻微倾斜(图2e)以及RNA三级结构的轻微偏差(图2f,g)中找到,但界面明显是正确的。

RoseTTAFoldNA的预测不仅限于只有一个蛋白质亚单位的复合物。图3总结了RoseTTAFoldNA在161个多亚单位蛋白质复合物上的性能,其中大部分是与核酸双链结合的同源二聚体蛋白。其性能与单体蛋白质-核酸复合物类似,平均lDDT = 0.72,30%的案例lDDT > 0.8,并且置信度与准确度之间有良好的一致性(图3a)。图3b-d展示了三个例子,展示了模型预测复杂结构的能力,以及蛋白质结合导致的DNA“弯曲”(图3e)。图3f,g展示了另一个例子,其中蛋白质域的相对位置只有通过共同预测这些复合物才能确定。通过首先生成独立组件的模型然后再将它们刚性地对接的方法将无法预测这种效果。

参考资料

Baek, M., McHugh, R., Anishchenko, I. et al. Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA. Nat Methods (2023). 

https://doi.org/10.1038/s41592-023-02086-5

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/230050.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Data JPA 提供的默认查询方法

1.依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-jpa</artifactId> </dependency> 2.查询 &#xff08;1&#xff09;基础查询前缀&#xff1a; findBy、findFirstBy、f…

海洋可视化大屏,Photoshop源文件

数据大屏通过实时的数据展示&#xff0c;可及时发现数据的变化和异常&#xff0c;以便及时采取措施。现分享海洋动力大数据监控、海洋数据监控系统、科技感海洋监控系统大屏模版的UI源文件&#xff0c;供UI设计师们快速获取PSD源文件完成工作 若需更多 大屏组件&#xff0c;请…

为什么MCU在ADC采样时IO口有毛刺?

大家在使用MCU内部ADC进行信号采样一个静态电压时&#xff0c;可能在IO口上看到这样的波形。这个时候大家一般会认识是信号源有问题&#xff0c;但仔细观察会发现这个毛刺的频率是和ADC触发频率一样的。 那么为什么MCU在ADC采样时IO口会出现毛刺呢&#xff1f;这个毛刺对结果有…

Qt图像处理-OpenCv中Mat与QImage互转

Qt图像处理时需要OpenCv中Mat与QImage互转,具体代码如下 创建EditPhoto,头文件,使用前需要配置好opencv #include <QObject> #include <QImage> #include <QDebug>#include<opencv2/core/core.hpp> #include<opencv2/highgui/highgui.hpp> …

AI分布式训练:DDP (数据并行)技术详解与实战

编者按&#xff1a; 如今传统的单机单卡模式已经无法满足超大模型进行训练的要求&#xff0c;如何更好地、更轻松地利用多个 GPU 资源进行模型训练成为了人工智能领域的热门话题。 我们今天为大家带来的这篇文章详细介绍了一种名为 DDP(Distributed Data Parallel)的并行训练技…

Java学习系列(一)

一、概念 1.Java 是由 Sun Microsystems 公司于 1995 年 5 月推出的高级程序设计语言。 2.Java 可运行于多个平台&#xff0c;如 Windows, Mac OS 及其他多种 UNIX 版本的系统。 3.移动操作系统 Android 大部分的代码采用 Java 编程语言编程。 4.Java分为三个体系&#xff1…

基于Tkinter和OpenCV的目标检测程序源码+权重文件,实现摄像头和视频文件的实时目标检测采用YOLOv8模型进行目标检测

基于Tkinter和OpenCV的目标检测程序源码权重文件&#xff0c;实现摄像头和视频文件的实时目标检测采用YOLOv8模型进行目标检测 项目描述 本项目是一个基于Tkinter和OpenCV的目标检测应用程序&#xff0c;实现了摄像头和视频文件的实时目标检测。通过YOLOv8模型进行目标检测&a…

vue3 使用 element-plus 侧边菜单栏多开收起时 出现 迟滞、卡顿的问题

遇到问题 vue3 使用 element-plus 侧边菜单栏多开收起时 出现 迟滞、卡顿的问题 这里多开二级&#xff0c;当点击上面的回收时&#xff0c;出现了卡顿现象&#xff0c;找了很久才发现是因为引入了icon图标 具体原因不详&#xff01;&#xff01;&#xff01;&#xff01;坑啊 …

神经精神与遗传湘江论坛在湘召开,院士、专家共谋精神医学发展

12月15-17日&#xff0c;由中国遗传学会行为遗传学分会、湖南省遗传学会、湖南省神经科学学会和儿科罕见病教育部重点实验室共同主办的“神经精神与遗传湘江论坛”在湖南长沙召开&#xff0c;400余名参会代表齐聚一堂&#xff0c;为推动世界神经精神科学理念交融和前沿精神医学…

Windows C++ VS2022 OpenVINO 实例分割 Demo

目录 效果 模型信息 项目 代码 下载 其他 Windows C VS2022 OpenVINO 实例分割 Demo 效果 模型信息 Model Properties ------------------------- date&#xff1a;2023-09-07T17:11:46.798385 description&#xff1a;Ultralytics YOLOv8n-seg model trained on coco.…

为开发者设计的幻灯片演示工具Slidev

什么是 Slidev &#xff1f; Slidev 是专为程序员打造的演示文稿工具。该项目是基于 Web 的幻灯片制作和演示工具&#xff0c;让用户可以使用 纯文本 Markdown 语法制作幻灯片&#xff0c;支持导出为 PDF 或 PNG 格式的文件&#xff0c;或以单页面展示幻灯片。对于大多数不擅长…

Linux 中的 waitqueue 机制详解

源码基于&#xff1a;Linux5.10 0. 前言 等待队列&#xff08;waitqueue&#xff09; 这个机制在Linux 内核中使用的频率很高&#xff0c;与进程调度机制紧密相关联&#xff0c;可以用来同步对系统资源的访问、异步事件通知、跨进程通信等。网上关于等待队列使用的优秀文章也很…

JavaScript中统计字符串中某种类型的数量

// 统计字符串中汉字数量function countChinese(str) {if (!str) {return 0;}var reg /[\u4e00-\u9fa5]/g; // 匹配中文字符的正则表达式var count str.match(reg); // 匹配字符串中所有的中文字符return count ? count.length : 0; // 返回中文字符的数量&#xff0c;如果未…

Nginx location+Nginx rewrite(重写)(新版)

Nginx locationNginx rewrite(重写) Nginx locationNginx rewrite(重写)一、location1、常用的Nginx 正则表达式2、location的类型3、location 的匹配规则4、location 优先级5、location 示例说明5.1只修改网页路径5.2修改nginx配置文件和网页路径5.3一般前缀5.4正则匹配5.5前缀…

百分比组件 - elementui改动

<el-slider v-model"value2" style"width: 87%;position: absolute;bottom: 9px;" disabled :show-tooltip"false"></el-slider>value2: 0,// 百分比条 ::v-deep .el-slider__runway.disabled .el-slider__bar {background-color: #…

JAVA基础知识:多线程编程

Java多线程编程是现代软件开发中的重要概念之一。通过充分利用多核处理器的并行能力&#xff0c;多线程编程可以提高程序的性能和响应能力。本文将详细介绍Java多线程编程的基础知识&#xff0c;包括线程的创建、同步、通信以及常见的多线程编程模式。同时&#xff0c;我们还将…

「NLP主题分析」LDA隐含狄利克雷分布(Latent Dirichlet Allocation)

是基于贝叶斯思想的无监督的聚类算法&#xff0c;广泛用于文本聚类&#xff0c;文本分析&#xff0c;文本关键词等场景。LDA主题模型主要用于推测文档的主题分布&#xff0c;可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。 LDA主题模型不…

Qt C++ 将qDebug打印输出到D盘的log.txt文件下

要将 qDebug 的输出重定向到 D 盘下的 log.txt 文件中&#xff0c;你可以使用 Qt 提供的消息处理机制来捕获和处理输出消息。 以下是一个示例的实现&#xff1a; #include <QCoreApplication> #include <QDebug> #include <QFile> #include <QTextStrea…

linux应急响应基础和常用命令

linux应急响应 linux应急响应基础和常用命令基于linux系统本身进行应急响应。 系统基础信息获取 获取linux服务器基本信息 命令&#xff1a; uname -a内存cpu信息 cat /proc/cpuinfo cat /proc/meminfo lscpu free -m lsmod #查看载入的模块信息进程查看 动态进程查看 …

7.实现任务的rebalance

1.设计 1.1 背景 系统启动后&#xff0c;所有任务都在被执行&#xff0c;如果这时某个节点宕机&#xff0c;那它负责的任务就不能执行了&#xff0c;这对有稳定性要求的任务是不能接受的&#xff0c;所以系统要实现rebalance的功能。 1.2 设计 下面是Job分配与执行的业务点…