蛋白结构预测模型评价指标

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入


前言

本文汇总了AlphaFold和AlphaFold-multimer等蛋白结构推理预测中,不同蛋白结构预测模型的评价指标。


一、蛋白结构预测模型评价指标

TM-score

TM-score是一种用于评价蛋白质结构拓扑相似性的度量。由张yang首先提出,该方法解决了传统度量方法如均方根偏差(RMSD)中存在的两个主要问题:(1)TM评分对较小距离误差的权重大于对较大距离误差的权重,使得评分值对全局折叠相似性的敏感性大于对局部结构变化的敏感性;(2)TM-score引入了长度相关的尺度对距离误差进行归一化,并使得TM-score的大小与随机结构对的长度无关。计算公式如下:
在这里插入图片描述
该作者实验室提供了计算TM-score的C++程序,可编译后使用,方法如下:

wget https://zhanggroup.org/TM-score/TMscore.cppg++ -static -O3 -ffast-math -lm -o TMscore TMscore.cpp 
## Run TM-score to compare 'model' and 'native':
TMscore model native
## Run TM-score to compare two complex structures with multiple chains
## Compare all chains with the same chain identifier
TMscore -c model native

将RCSB pdb结构与AlphaFold2预测结果对比,结果如下:

./TMscore ranked_0.pdb  8i55.pdb **************************************************************************                                 TM-SCORE                              ** A scoring function to assess the similarity of protein structures     ** Based on statistics:                                                  **       0.0 < TM-score < 0.17, random structural similarity             **       0.5 < TM-score < 1.00, in about the same fold                   ** Reference: Yang Zhang and Jeffrey Skolnick, Proteins 2004 57: 702-710 ** For comments, please email to: zhanglab@zhanggroup.org                **************************************************************************Structure1: ranked_0.pdb    Length=  143
Structure2: 8i55.pdb    Length=  120 (by which all scores are normalized)
Number of residues in common=  120
RMSD of  the common residues=    0.581TM-score    = 0.9811  (d0= 4.05)
MaxSub-score= 0.9753  (d0= 3.50)
GDT-TS-score= 0.9917 %(d<1)=0.9667 %(d<2)=1.0000 %(d<4)=1.0000 %(d<8)=1.0000
GDT-HA-score= 0.9271 %(d<0.5)=0.7417 %(d<1)=0.9667 %(d<2)=1.0000 %(d<4)=1.0000-------- rotation matrix to rotate Chain-1 to Chain-2 ------i          t(i)         u(i,1)         u(i,2)         u(i,3)1    -16.8570056544   0.9777658128  -0.0973231336   0.18574774052     17.8632659480  -0.0324689163   0.8048346382   0.59261030593     11.0145890770  -0.2071709074  -0.5854651253   0.7837798174Superposition in the TM-score: Length(d<5.0)= 120
(":" denotes the residue pairs of distance < 5.0 Angstrom)
MEALVLVGHGSRLPYSKELLVKLAEKVKERNLFPIVEIGLMEFSEPTIPQAVKKAIEQGAKRIIVVPVFLAHGIHTTRDIPRLLGLIEDNHEHHHEHSHHHHHHHHHEHEKLEIPEDVEIIYREPIGADDRIVDIIIDRAFGR
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::                       :::::::::::::::::::::::::::::::
MEALVLVGHGSRLPYSKELLVKLAEKVKERNLFPIVEIGLMEFSEPTIPQAVKKAIEQGAKRIIVVPVFLAHGIHTTRDIPRLLGLIED-----------------------EIPEDVEIIYREPIGADDRIVDIIIDRAFGR
12345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123

lDDT

局部距离差异测试(Local Distance Difference Test,lDDT)是一种无叠加的评分,用于评估模型中所有原子的局部距离差异,包括立体化学变换的验证。参考物可以是单个结构,也可以是结构的集合。
蛋白质结构预测技术的评估需要客观的标准来衡量计算模型和实验确定的参考结构之间的相似性。传统的基于碳α原子全局叠加的相似性度量受到结构域运动的强烈影响,并且不能评估模型中局部原子细节的准确性。lDDT是非常适合评估本地模型的质量,即使在存在的结构域运动,同时保持良好的相关性。

LDDT计算方法一:
在线计算:SWISS-MODEL lDDT

LDDT计算方法二:
python版本:感谢CSDN博主的贡献,python版本的lDDT score的计算可参考博文:蛋白结构评价-LDDT score

二、Alphafold中的评价指标

pLDDT

AlphaFold 预测结构所有残基Cα原子的lDDT被称为pLDDT score(per-residue lDDT-Cα),范围在0-100,分数越高,置信度越高。
Deepmind提供的算法如下: 在这里插入图片描述作为一种基于lDDT的置信度度量,pLDDT也反映了结构(structure)中的局部置信度,应该用来评估单个结构域内的置信度。基于语言模型的蛋白结构预测方法如ESMFold也使用基于plDDT的度量方法。

plDDT 存储于AlphaFold及ESMFold预测结构(mmCIF或PDB文件)B因子字段(B-factor fields)中,即文件中ATOM记录的第11列。

pLDDT≥90:残基具有非常高(very high)的模型置信度
90 > pLDDT ≥70:残基则被归为确信的(confident)
70 > pLDDT ≥50:残基置信度较低(low)
pLDDT < 50:残基置信度很低(very low)。

最近的研究表明,非常低的置信度pLDDT分数与蛋白结构固有无序(intrinsic disorder)的高倾向相关。
在这里插入图片描述采用不包含在训练集中新近报道的PDB数据集(该数据集仅限于报告分辨率<3.5Å的结构,包括的链条总数为10215条)。比较了数据基于解析区域的每个残基lDDT-Cα和每个残基pLDDT。二者有很好的相关性:lDDT-Cα = 0.997 × pLDDT − 1.17 (Pearson’s r = 0.76)
在这里插入图片描述
在这里插入图片描述

pTM

pLDDT头预测了lDDT-Cα值,这是一个成对操作的局部误差度量,但根据设计,它对使用单个全局旋转和平移可以对齐的残基部分不敏感。这对于模型是否准确预测长链整体结构域堆叠是不利的,为此,作者使用了全局叠加度量TM得分的预测器 TM-score。

特别地,我们可以预测可能通过实验解析的残基,并使用它们来产生预测的TM分数(pTM),其中每个残基的贡献通过其被解析的概率进行加权。

加权的目的是降低预测的非结构化部分的权重,从而产生更好地反映模型对确实存在的结构域的度量。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在最新的不再训练集中的PDB数据集上,pTM与实际TM-score相关性良好。
TM-score = 0.98 × pTM + 0.07 (Pearson’s r = 0.85)
在这里插入图片描述

PAE

预测对齐误差( Predicted Aligned Error,PAE )是AlphaFold系统的另一个输出结果。AlphaFold DB提供给结构PAE的图片和数据.json文件。
它表示如果预测结构和实际结构在残基y (使用Cα、N和C原子)上对齐,显示在残基x处的期望位置误差。PAEs以A 为单位测定,上限为31.75A。可以利用这些数值来评估模型(例如两个结构域)不同部分的相对位置和朝向(orientation)的置信度。注意,PAE是不对称的;因此,(x,y)和(y,x)的PAE值之间可能存在差异。
对于两个不同结构域中的残基x和y,如果PAE值( x , y)较低,则AlphaFold预测结构域具有明确的(well-defined)相对位置和取向。如果PAE值很高,那么这两个结构域的相对位置和方向是不可靠的

在这里插入图片描述

三、AlphaFold-multimer 蛋白结构的评价指标

2021年10 月4 日,DeepMind 团队推出了AlphaFold-Multimer,用于蛋白质复合物的预测,尤其是对同源或者异源复合物,AlphaFold-Multimer 对接预测评分均有提升,弥补了AlphaFold2的不足。
在这里插入图片描述

DockQ

DockQ是一种用于评估蛋白质-蛋白质分子对接模型的工具和指标。它被广泛用于评估蛋白质分子对接方法的性能和预测模型的准确性。范围0-1之间,越大准确性越好。
DockQ是三个指标的综合评分,即Fnat、LRMS和iRMS,

在这里插入图片描述Fnat: 预测复合体在交界面上的作用残基在真实复合体中的比例。
LRMS: 把预测的复合体和真实复合体的两条链中比较长的链比对,短链的RMSD。
iRMS: 度量界面上两个原子相距10Å内的原子的集合的RMSD。

DockQ的计算方法:
https://github.com/bjornwallner/DockQ/

度量复合体预测准确性的指标:

***********************************************************
*                       DockQ                             *
*   Scoring function for protein-protein docking models   *
*   Statistics on CAPRI data:                             *
*    0    <  DockQ <  0.23 - Incorrect                    *
*    0.23 <= DockQ <  0.49 - Acceptable quality           *
*    0.49 <= DockQ <  0.80 - Medium quality               *
*            DockQ >= 0.80 - High quality                 *
*   Reference: Sankar Basu and Bjorn Wallner, DockQ:...   *
*   For comments, please email: bjornw@ifm.liu.se         *
***********************************************************

AlphaFold-Multimer的表现:
在这里插入图片描述

ipTM

AlphaFold-Multimer 建立了不同链残基之间相互作用的评分系统——Inerface pTM(ipTM),计算类似于pTM,只是分别考虑了不同链(i和j)。
在这里插入图片描述

实际使用中,Deepmind采用 pTM 和 ipTM 的加权组合作为模型置信度度量,以便在模型排名中考虑一些链内置信度:
在这里插入图片描述在这里插入图片描述在这里插入图片描述DockQ本身是ipTM的函数,也说明这两个评价multimer的指标具有一定的置信度和准确性。

总结

以上就是今天的内容,本文汇总了AlphaFold和AlphaFold-multimer等蛋白结构推理预测中,不同蛋白结构预测模型的评价指标。供大家参考。

参考资料

  1. https://zhuanlan.zhihu.com/p/539157126?utm_id=0
  2. http://www.360doc.com/showweb/0/0/1113559986.aspx
  3. https://www.biorxiv.org/content/10.1101/2021.10.04.463034v2.full.pdf
  4. https://seq2fun.dcmb.med.umich.edu//TM-score/TM-score.pdf

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/704524.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

tigramite教程(二)生物地球科学案例研究

文章目录 数据生成与绘图因果发现分析平稳性假设、确定性、潜在混杂因素结构假设参数假设使用PCMCIplus的滑动窗口分析聚合因果图非参数因果效应估计假设的图形和调整集干预的真实情况假设的参数模型和因果效应的估计使用关于图的不同假设进行估计非因果估计项目地址 这个文件…

LeetCode_Java_动态规划(2)(题目+思路+代码)

131.分割回文串 给你一个字符串 s&#xff0c;请你将 s 分割成一些子串&#xff0c;使每个子串都是 回文串 。返回 s 所有可能的分割方案。 回文串 是正着读和反着读都一样的字符串。 示例 1&#xff1a; 输入&#xff1a;s "aab" 输出&#xff1a;[["a&qu…

ActiveMq PUT任意文件上传漏洞(CVE-2016-3088)漏洞复现

ActiveMQ ActiveMQ Web控制台分为三个应用程序&#xff1a;其中admin&#xff0c;api和fileserver&#xff0c;其中admin是管理员页面&#xff0c;api是界面&#xff0c;fileserver是用于存储文件的界面&#xff1b;admin和api需要先登录才能使用&#xff0c;fileserver不需要…

智慧餐饮系统架构的设计与实现

随着科技的不断发展&#xff0c;智慧餐饮系统在餐饮行业中扮演着越来越重要的角色。智慧餐饮系统整合了信息技术&#xff0c;以提高餐饮企业的管理效率、客户服务质量和市场竞争力。本文将探讨智慧餐饮系统架构的设计与实现&#xff0c;并探讨其在餐饮行业中的应用前景。 架构…

matlab采用不同数值方法求解微分方程

1、内容简介 略 60-可以交流、咨询、答疑 欧拉方法、改进欧拉、RK4、米尔斯坦方法求解微分方程 2、内容说明 略 lc; close all; clear all; % 参数赋值 global a global b global h a 1; b 2; Ni 1000; % 总步数 h 0.001; % 步长Xt1(1:Ni) 0; Xt2(…

【前端素材】推荐优质后台管理系统PORTAL平台模板(附源码)

一、需求分析 后台管理系统是一种具有多层次结构的软件系统&#xff0c;用于管理网站、应用程序或系统的后台操作和管理。下面是对后台管理系统的分层次、详细分析&#xff1a; 第一层&#xff1a;用户界面层 登录界面&#xff1a;提供用户登录验证&#xff0c;确保只有经过授…

MySQL 数据优化技巧:提升百万级数据聚合统计速度

MySQL 数据优化技巧&#xff1a;提升百万级数据聚合统计速度 MySQL 数据优化技巧&#xff1a;提升百万级数据聚合统计速度摘要引言索引优化1. 使用合适的索引类型2. 聚簇索引的应用 查询优化3. 减少数据检索范围4. 避免全表扫描 数据库设计优化5. 合理划分数据表6. 使用分区表 …

零基础学Python入门教程非常详细(从小白到高级),入门必看

目录&#xff1a;基础 第一章-第五章&#xff08;5.1-5.4&#xff09;&#xff1a;简介、配置与基础知识 第六章&#xff1a;判断语句 第一章&#xff1a;Python的概述 1.1&#xff1a;什么是Python? Python它是一种直译式&#xff0c;面向对象&#xff0c;解释式的脚本语…

NASA Earthdata wget批量下载

1 wegt下载 GNU Wget 1.21.4 for Windows (eternallybored.org) 2 创建your .urs_cookies and .dodsrc文件 只需要创建.urs_cookies文件 其实&#xff0c;通过txt可以直接创建 这个文件你想放到哪里&#xff0c;就放到哪里 Create .urs_cookies file: On Mac/Linux: cd ~ o…

绝对路径拼接漏洞 [NISACTF 2022]babyupload

打开题目 最开始以为是文件上传的漏洞 结果发现无论我们上传什么文件都会显示bad filename 去网上看了大佬的wp知道 我们直接去看源代码得到提示 /source 那我们去访问一下这个路径看看 得到一个下载文件 用记事本打开得到 源代码如下 from flask import Flask, request, r…

软考46-上午题-【数据库】-数据查询语言DQL1

一、SQL数据查询功能 SELECT语句的语法如下&#xff1a; 【注意】&#xff1a; 使用DISTINCT选项可以去重&#xff1b; form子句中出现多个基本表或视图时&#xff0c;系统首先执行笛卡尔积操作。 下面的查询示例均以这些表为基础 1-1、投影查询-SELECT 【回顾】&#xff1a;…

设计模式(七)装饰模式

相关文章设计模式系列 1.装饰模式简介 装饰模式介绍 装饰模式是结构型设计模式之一&#xff0c;不必改变类文件和使用继承的情况下&#xff0c;动态地扩展一个对象的功能&#xff0c;是继承的替代方案之一。它是通过创建一个包装对象&#xff0c;也就是装饰来包裹真实的对象…

【日常聊聊】Sora- 探索AI视频模型的无限可能

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a;日常聊聊 ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 方向一&#xff1a;技术解析 方向二&#xff1a;应用场景 方向三&#xff1a;未来展望 方向四&#xff1a;伦理与创意 方向…

[linux][异常检测] hung task, soft lockup, hard lockup, workqueue stall

hung task&#xff0c;soft lockup&#xff0c;hard lockup&#xff0c;workqueue stall 是 linux 内核中的异常检测机制&#xff0c;这 4 个检测均是通过时间维度上的检测来判断异常。 在时间维度上的检测机制&#xff0c;有两个核心的点&#xff1a; &#xff08;1&#xff…

web组态插件

插件演示地址&#xff1a;http://www.byzt.net 关于组态软件&#xff0c;首先要从组态的概念开始说起。 什么是组态 组态&#xff08;Configure&#xff09;的概念来自于20世纪70年代中期出现的第一代集散控制系统&#xff08;Distributed Control System&#xff09;&#xf…

紫外-可见吸收光谱法(UV-Vis)是最常用吸收光谱技术 市场持续扩大

紫外-可见吸收光谱法&#xff08;UV-Vis&#xff09;是最常用吸收光谱技术 市场持续扩大 紫外-可见吸收光谱法&#xff0c;也称为紫外-可见分光光度法&#xff0c;简称UV-Vis&#xff0c;利用样品分子在紫外和可见光激发下产生电子能级跃迁形成的吸收光谱&#xff0c;对元素进行…

基于Java SSM框架实现高校网课管理系统项目【项目源码+论文说明】

基于java的SSM框架实现高校网课管理系统演示 摘要 随着移动应用技术的发展&#xff0c;越来越多的学生借助于移动手机、电脑完成生活中的事务&#xff0c;许多的行业也更加重视与互联网的结合&#xff0c;以提高教学的教育水平和寻求更高的经济利益。针对高校网课管理系统&…

猫头虎分享已解决Bug || 解决SyntaxError: Unexpected token o in JSON at position 1

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

HashMap的put()方法执行流程

HashMap的数据结构在jdk1.8之前是数组链表&#xff0c;为了解决数据量过大、链表过长是查询效率会降低的问题变成了数组链表红黑树的结构&#xff0c;利用的是红黑树自平衡的特点。 链表的平均查找时间复杂度是O(n)&#xff0c;红黑树是O(log(n))。 HashMap中的put方法执行过…

mysql的增删改查(常用)

增(insert) 语法&#xff1a; insert into 表名&#xff08;字段&#xff09; values( 字段对应的值) 案例&#xff1a; 创建一个学生表 结构如下&#xff1a; create table student(id int ,name varchar(20),age int); 向表中插入2条数据 create table student(id int ,n…