PSP - 蛋白质真实长序列查找 PDB 结构短序列的算法

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/134599076

在蛋白质结构预测的过程中,输入一般是蛋白质序列(长序列),预测出 PDB 三维结构,再和 Ground Truth 的 PDB 进行比较,GT 的 PDB 是实验测出,比真实的蛋白质序列要短,需要使用算法进行查找。

满足约束:PDB 结构序列的长度 小于 蛋白质序列的长度,并且是子集关系。

  • 黄色是 PDB 官网的结构
  • 蓝色是预测的全长序列的结构
  • 粉色是通过算法,截取的子结构

即:
效果

源码:

def match_sub_seq(seq_long, seq_short):"""匹配序列子串,返回区间范围,一般用于长FASTA与短PDBSeq之间的预处理"""def get_seq_max_idx(seq_l, seq_s):"""序列匹配结果,返回连续最大索引"""np = len(seq_l)nf = len(seq_s)res = [0] * npi, j = 0, 0same = 0is_next, next_i = True, 0while i < np:rp = seq_l[i]  # pdb 的 残基rf = seq_s[j]  # fasta 的残基if is_next:next_i = i + 1is_next = Falseif rp == rf:same += 1j += 1else:j = 0same = 0if seq_l[i] == seq_s[j]:same += 1j += 1if i < np:res[i] = max(same, res[i])i += 1if j >= nf:j = 0same = 0# 避免 "AAABCDEFGAB" 与 "AABCDEFG" 情况if rp != rf:i = next_iis_next = Truereturn resnl, ns = len(seq_long), len(seq_short)size = 0gap_list = []  # 区间范围tmp_seq_short = seq_short# print(f"[Info] seq_long: {seq_long}")# print(f"[Info] seq_short: {seq_short}")prev_idx = 0while size < ns:# print(f"[Info] tmp_seq_short: {tmp_seq_short}")res = get_seq_max_idx(seq_long, tmp_seq_short)max_val = max(res)  # 最大索引值max_indices = [i for i, x in enumerate(res) if x == max_val]for j in sorted(max_indices):# print(j, prev_idx)if j <= prev_idx:continueelse:max_idx = jbreaks_idx, e_idx = max_idx-max_val+1, max_idx+1prev_idx = e_idxgap_list.append([s_idx, e_idx])tmp_sub_long = seq_long[s_idx:e_idx]tmp_short = tmp_seq_short[:max_val]assert tmp_sub_long == tmp_shorttmp_seq_short = tmp_seq_short[max_val:]size += max_val# 验证逻辑f_seq = ""for gap in gap_list:f_seq += seq_long[gap[0]:gap[1]]assert f_seq == seq_shortreturn gap_list

从索引中,提取 PDB:

def extract_pdb_from_gap(pdb_path, output_path, gap_list):"""从残基的 gap list 提取新的 PDB 文件"""d3to1 = {'CYS': 'C', 'ASP': 'D', 'SER': 'S', 'GLN': 'Q', 'LYS': 'K','ILE': 'I', 'PRO': 'P', 'THR': 'T', 'PHE': 'F', 'ASN': 'N','GLY': 'G', 'HIS': 'H', 'LEU': 'L', 'ARG': 'R', 'TRP': 'W','ALA': 'A', 'VAL': 'V', 'GLU': 'E', 'TYR': 'Y', 'MET': 'M'}d1to3 = invert_dict(d3to1)# chain_idx = 0atom_num_idx = 1res_seq_num_idx = 0pre_res_seq_num = ""   # 残基可能是52Achain_id_list = []out_lines = []line_idx = 0lines = read_file(pdb_path)res_ca_dict = dict()for idx, line in enumerate(lines):# 只处理核心行record_type = str(line[:6].strip())  # 1~6if record_type not in ["ATOM", "HETATM"]:continuerecord_type = "ATOM"line_idx += 1# 重新设置 atom_serial_num# atom_num = int(line[6:11].strip())  # 7~11atom_num = atom_num_idxatom_num_idx += 1# 替换为标准氨基酸residue_name = str(line[17:20].strip())  # 18~20if residue_name not in d3to1_ex:continueif residue_name in d3to1_ex and residue_name not in d3to1.keys():a = d3to1_ex[residue_name]residue_name = d1to3[a]# 不修改链名chain_id = str(line[21].strip())  # 22if chain_id not in chain_id_list:  # 更换链chain_id_list.append(chain_id)pre_res_seq_num = ""# chain_idx += 1# chain_id = chr(ord("A") + chain_idx - 1)# 重新设置 res_seq_numres_seq_num = line[22:27].strip()  # 23~26 \ 23~27if pre_res_seq_num != res_seq_num:  # 更换残基pre_res_seq_num = res_seq_numres_seq_num_idx += 1res_ca_dict[res_seq_num_idx] = Falseres_seq_num = res_seq_num_idx# 确保只有一个CAatom_name = str(line[12:16].strip())  # 13~16if atom_name == "CA":if res_ca_dict[res_seq_num]:print(f"[Warning] PDB res {res_seq_num} has more than one CA! ")continueelse:res_ca_dict[res_seq_num] = Truecoordinates_x = str(line[30:38].strip())  # 31~38coordinates_y = str(line[38:46].strip())  # 39~46coordinates_z = str(line[46:54].strip())  # 47~54occupancy = str(line[54:60].strip())  # 55~60temperature_factor = str(line[60:66].strip())  # 61~66element_symbol = str(line[76:78])  # 77~78# 判断残基索引是否在 gap_list 中,其余保持不变is_skip = Truefor gap in gap_list:if gap[0] <= res_seq_num-1 < gap[1]:is_skip = Falseif is_skip:continueout_line = "{:<6}{:>5} {:^4} {:<3} {:<1}{:>4}    {:>8}{:>8}{:>8}{:>6}{:>6}          {:>2}".format(str(record_type), str(atom_num), str(atom_name), str(residue_name),str(chain_id), str(res_seq_num),str(coordinates_x), str(coordinates_y), str(coordinates_z),str(occupancy), str(temperature_factor),str(element_symbol))out_lines.append(out_line)create_empty_file(output_path)write_list_to_file(output_path, out_lines)def truncate_pdb_by_sub_seq(pdb_path, sub_seq, output_path):"""根据子序列提取新的 PDB 文件"""seq_str, n_chains, chain_dict = get_seq_from_pdb(pdb_path)pdb_seq = list(chain_dict.values())[0]try:gap_list = match_sub_seq(pdb_seq, sub_seq)except Exception as e:print(f"[Warning] input sub_seq is not pdb sub seq! {pdb_path}")return output_pathextract_pdb_from_gap(pdb_path, output_path, gap_list)# 验证逻辑seq_str, n_chains, chain_dict = get_seq_from_pdb(output_path)new_seq = list(chain_dict.values())[0]assert new_seq == sub_seq, print(f"[Error] new_seq: {new_seq}, sub_seq: {sub_seq}")return output_path

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/166936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024深圳电子展,加快粤港澳电子信息发展,重点打造“湾区经济”

在“十四五”期间&#xff0c;中国电子信息产业面临着新形势和新特点。随着国家对5G、人工智能、工业互联网、物联网等“新基建”的加速推进&#xff0c;以及形成“双循环”新格局的形势&#xff0c;新型显示、集成电路等产业正在加速向国内转移。这一过程不仅带来了新的应用前…

2023年亚太地区数学建模大赛 C 题

我国新能源电动汽车的发展趋势 新能源汽车是指以先进技术原理、新技术、新结构的非常规汽车燃料为动力来源&#xff08;非常规汽车燃料指汽油、柴油以外的燃料&#xff09;&#xff0c;将先进技术进行汽车动力控制和驱动相结合的汽车。新能源汽车主要包括四种类型&#xff1a;…

MobaXterm连接节点一段时间后超时Session stopped

1、MobaXterm &#xff08;1&#xff09;设置ssh 超时时间 &#xff08;2&#xff09;设置保持连接 如果服务器端设置了超时时间&#xff0c;会以服务器为准&#xff0c;具体设置&#xff1a; 2、服务端 cat /etc/ssh/sshd_config | grep "ClientAlive" 可以把设置…

一穿一戴一世界 | 紫光展锐2023智能穿戴沙龙成功举办

11月23日&#xff0c;紫光展锐在深圳成功举办了以“一穿一戴一世界”为主题的2023智能穿戴沙龙。展锐智能穿戴沙龙已举办四届&#xff0c;旨在为行业提供启发性的观点和前瞻性的创新理念。本届沙龙吸引了终端厂商、行业翘楚、生态伙伴等行业各领域超过500人汇聚一堂&#xff0c…

HCIA-RS基础-静态路由协议

摘要&#xff1a;静态路由是一种在网络中广泛应用的路由选择方案&#xff0c;它以其简单的配置和低开销而备受青睐。本文将介绍静态路由的配置方法、默认路由的设置、路由的负载分担和备份策略。通过学习本文&#xff0c;希望可以你能够掌握静态路由的基本概念和在华为模拟器中…

U-Boot 之九 详解 Pinctrl 子系统、命令、初始化流程、使用方法

嵌入式芯片中,引脚复用是一个非常常见的功能,U-Boot 提供一个类似 Linux Kernel 的 Pinctrl 子系统来处理引脚复用功能。正好最近用到了这部分功能,需要移植 Pinctrl 驱动,特此记录一下学习过程。 架构 U-Boot 提供一个类似 Linux Kernel 的 Pinctrl 子系统,用来统一各芯…

视频服务网关的三大部署(三)

视频网关是软硬一体的一款产品&#xff0c;可提供多协议&#xff08;RTSP/ONVIF/GB28181/海康ISUP/EHOME/大华、海康SDK等&#xff09;的设备视频接入、采集、处理、存储和分发等服务&#xff0c; 配合视频网关云管理平台&#xff0c;可广泛应用于安防监控、智能检测、智慧园区…

RK WiFi部分信道在部分地区无法使用的原因

不同国家支持的WiFi信道不一样&#xff0c;需要正确设置wificountrycode 修改路径&#xff1a; device\rockchip\common\BoardConfig.mk 修改内容&#xff1a;androidboot.wificountrycodeXX 该属性会被解析为 ro.boot.wificountrycode framework层会在&#xff1a; framewor…

用好语言模型:temperature、top-p等核心参数解析

编者按&#xff1a;我们如何才能更好地控制大模型的输出? 本文将介绍几个关键参数&#xff0c;帮助读者更好地理解和运用 temperature、top-p、top-k、frequency penalty 和 presence penalty 等常见参数&#xff0c;以优化语言模型的生成效果。 文章详细解释了这些参数的作用…

leetcode 343.整数拆分 198.打家劫舍(动态规划)

OJ链接 &#xff1a;leetcode 343.整数拆分 代码&#xff1a; class Solution {public int integerBreak(int n) {int[] dp new int[n1];//每个n&#xff0c;拆分多个整数乘积的最大值dp [0] 0;dp [1] 1; for(int i 2 ; i<n; i){for(int j 0 ; j < i; j){dp[i] Ma…

小程序中的大道理--综述

前言 以下将用一个小程序来探讨一些大道理, 这些大道理包括可扩展性, 抽象与封装, 可维护性, 健壮性, 团队合作, 工具的利用, 可测试性, 自顶向下, 分而治之, 分层, 可读性, 模块化, 松耦合, MVC, 领域模型, 甚至对称性, 香农的信息论等等. 为什么不用大程序来说大道理呢? …

CMS指纹识别方式

一、手工识别 1.robots.txt文件 robots.txt文件我们写过爬虫的就知道,这个文件是告诉我们哪些目录是禁止爬取的。但是大部分的时候我们都能通过robots.txt文件来判断出cms的类型 如: 从wp路径可以看出这个是WordPress的cms 这个就比较明显了直接告诉我们是PageAdmin cms 也…

Python大语言模型实战-记录一次用ChatDev框架实现爬虫任务的完整过程

1、模型选择&#xff1a;GPT4 2、需求&#xff1a;在win10操作系统环境下&#xff0c;基于python3.10解释器&#xff0c;爬取豆瓣电影Top250的相关信息&#xff0c;包括电影详情链接&#xff0c;图片链接&#xff0c;影片中文名&#xff0c;影片外国名&#xff0c;评分&#x…

kali一键部署各种环境和渗透工具

相信各位初入渗透领域的小伙们接触了kali,但是苦于要配置各种环境,安装kali没有的工具,费时费力,博主有时候需要重新部署kali也很苦恼,所以编写一键部署安装kali脚本,下载地址在这里:https://download.csdn.net/download/weixin_59679023/88565320 配置流程: 1、找一…

Linux加强篇002-部署Linux系统

目录 前言 1. shell语言 2. 执行命令的必备知识 3. 常用系统工作命令 4. 系统状态检测命令 5. 查找定位文件命令 6. 文本文件编辑命令 7. 文件目录管理命令 前言 悟已往之不谏&#xff0c;知来者之可追。实迷途其未远&#xff0c;觉今是而昨非。舟遥遥以轻飏&#xff…

Debian12试用报告

环境: win11vbox 虚拟机 网络: host-only访问局域网 nat 访问外网, 配置为dhcp动态获取ip 遇到的问题: 偶尔卡死: nat每次开机都不生效, 外网无法访问; 开机后 重启网络可解决 sudo /etc/init.d/networking restart host-only倒是没问题, 内网正常访问 vim9还是用不习…

生产实践:Redis与Mysql的数据强一致性方案

公众号「架构成长指南」&#xff0c;专注于生产实践、云原生、分布式系统、大数据技术分享。 数据库和Redis如何保存强一致性&#xff0c;这篇文章告诉你 目的 Redis和Msql来保持数据同步&#xff0c;并且强一致&#xff0c;以此来提高对应接口的响应速度&#xff0c;刚开始考…

探索移动端可能性:Capacitor5.5.1和vue2在Android studio中精细融合

介绍&#xff1a; 移动应用开发是日益复杂的任务&#xff0c;本文将带领您深入探索如何无缝集成Capacitor5.5.1、Vue2和Android Studio&#xff0c;以加速您的开发流程Capacitor 是一个用于构建跨平台移动应用程序的开源框架。Vue 是一个流行的 JavaScript 框架&#xff0c;用…

多线程Thread(初阶三:线程的状态及线程安全)

目录 一、线程的状态 二、线程安全 一、线程的状态 1.NEW Thread&#xff1a;对象创建好了&#xff0c;但是还没有调用 start 方法在系统中创建线程。 2.TERMINATED&#xff1a; Thread 对象仍然存在,但是系统内部的线程已经执行完毕了。 3.RUNNABLE&#xff1a; 就绪状态&…