python解决序列重叠问题

tblastn比对出来候选HSP区段,我们需要根据一定的基因长度范围来进行区域延伸去重叠,然后进行下一步操作。对HSP区域的延伸要考虑基因的长度以及目标基因组scafflod or chromosome长度,不是一件容易的事情。

这里采用了dataclass以及改写slots存储数据方式,减少内存占用以及加快读取速度,attrgetter对列表字典结构排序,biopython里的SeqIO.parse感觉挺慢的,不过懒得重写了,用了据说更快的SimpleFastaParser来解析,实际测试下来速度确实更快,主要是用来存储scaffold或chromosome长度,以防延伸超出边界。

去重叠的原理在于先排序,然后判断前一区间的末尾是否小于后一区间开始,若为假则重叠,根据长度/得分来判断删除前一区间还是后一区间。
以下运行得到的结果仍然是blast的tabular格式(之后可以经过一些简单的shell命令处理,可转成bed格式,结合bedtools批量提取序列)。

注:如果你需要去重的格式不为blast tabular,简单的利用一些工具如awk/sed/perl/python/shell各种改变格式就好,只需要第二列的id,第九列的序列起始,第十列的序列结束,第十二列的得分有意义,作为排序用到的字段,其余字段都可缺省

from dataclasses import dataclass, replace
from operator import attrgetter
from Bio.SeqIO.FastaIO import SimpleFastaParser
import getopt
import sys"""
用法:
#根据基因组文件,延伸上下游区域
example 1. region_tools.py -u <int> -d <int> -i <blast_tabular> -o extend.txt [-g <genome_file>]
#去除重叠区域,保留最长,并用-t指定筛去小于某长度的结果
example 2. region_tools.py -f -i extend.txt -t <region_length> -o filter.txt
#延伸+去重+根据得分保留
example 3. region_tools.py -u <int> -d <int> -f -s -i <blast_tabular> [-g <genome_file>] -o output.txt
"""@dataclass
class Rec:__slots__ = ("q_id", "s_id", "identity", "alignment_length", "mismatches","gap_openings", "q_start", "q_end", "s_start", "s_end","e_value", "bit_score")q_id: strs_id: stridentity: stralignment_length: strmismatches: strgap_openings: strq_start: strq_end: strs_start: ints_end: inte_value: strbit_score: floatdef filter_overlap(sort_data, score=False):i = 0if sort_data:if sort_data[0].s_start <= sort_data[0].s_end:start = "s_start"end = "s_end"else:start = "s_end"end = "s_start"while i <= len(sort_data) - 2:if getattr(sort_data[i+1], start) < getattr(sort_data[i], end) and \sort_data[i+1].s_id == sort_data[i].s_id:if not score:if abs(sort_data[i+1].s_start - sort_data[i+1].s_end) > \abs(sort_data[i].s_start - sort_data[i].s_end):del sort_data[i]else:del sort_data[i+1]else:if sort_data[i+1].bit_score > sort_data[i].bit_score:del sort_data[i]else:del sort_data[i+1]else:i += 1class RegionIO:def __init__(self, file_path):self.file_path = file_pathself.sort_rf = []self.sort_rv = []self.recs_forward = []self.recs_reverse = []with open(self.file_path, "r") as f:for rec in f:rec = rec.strip().split("\t")bit_score = float(rec[11])rec_dict = Rec(*rec[0:8],int(rec[8]),int(rec[9]),rec[10],int(bit_score) if bit_score == int(bit_score) else bit_score)if rec_dict.s_start <= rec_dict.s_end:self.recs_forward.append(rec_dict)else:self.recs_reverse.append(rec_dict)def extend_region(self, up=0, down=0, genome_path=""):if genome_path == "":for n in range(len(self.recs_forward)):start = self.recs_forward[n].s_start - upend = self.recs_forward[n].s_end + downself.recs_forward[n] = \replace(self.recs_forward[n], s_start=start) \if start >= 1 \else replace(self.recs_forward[n], s_start=1)self.recs_forward[n] = \replace(self.recs_forward[n], s_end=end) \if start >= 1 \else replace(self.recs_forward[n],s_end=abs(start)+end+1)for n in range(len(self.recs_reverse)):start = self.recs_reverse[n].s_end - upend = self.recs_reverse[n].s_start + downself.recs_reverse[n] = \replace(self.recs_reverse[n], s_end=start) \if start >= 1 \else replace(self.recs_reverse[n], s_end=1)self.recs_reverse[n] = \replace(self.recs_reverse[n], s_start=end) \if start >= 1 \else replace(self.recs_reverse[n],s_start=abs(start)+end+1)else:id_len = {}with open(genome_path,"r") as in_handle:for title, seq in SimpleFastaParser(in_handle):id_len[title.split(" ")[0]] = len(seq)for n in range(len(self.recs_forward)):start = self.recs_forward[n].s_start - upend = self.recs_forward[n].s_end + downself.recs_forward[n] = \replace(self.recs_forward[n], s_start=start) \if start >= 1 \else replace(self.recs_forward[n], s_start=1)if end <= id_len[self.recs_forward[n].s_id]:self.recs_forward[n] = \replace(self.recs_forward[n], s_end=end) \if start >= 1 \else replace(self.recs_forward[n],s_end=abs(start) + end + 1 ifabs(start) + end + 1 <=id_len[self.recs_forward[n].s_id] elseid_len[self.recs_forward[n].s_id])else:self.recs_forward[n] = \replace(self.recs_forward[n],s_end=id_len[self.recs_forward[n].s_id])self.recs_forward[n] = \replace(self.recs_forward[n],s_start=self.recs_forward[n].s_start-(end-id_len[self.recs_forward[n].s_id])if self.recs_forward[n].s_start-(end-id_len[self.recs_forward[n].s_id]) >= 1 else 1)for n in range(len(self.recs_reverse)):start = self.recs_reverse[n].s_end - upend = self.recs_reverse[n].s_start + downself.recs_reverse[n] = \replace(self.recs_reverse[n], s_end=start) \if start >= 1 \else replace(self.recs_reverse[n], s_end=1)if end <= id_len[self.recs_reverse[n].s_id]:self.recs_reverse[n] = \replace(self.recs_reverse[n], s_start=end) \if start >= 1 \else replace(self.recs_reverse[n],s_start=abs(start) + end + 1 ifabs(start) + end + 1 <=id_len[self.recs_forward[n].s_id] elseid_len[self.recs_forward[n].s_id])else:self.recs_reverse[n] = \replace(self.recs_reverse[n],s_start=id_len[self.recs_reverse[n].s_id])self.recs_reverse[n] = \replace(self.recs_reverse[n],s_end=self.recs_reverse[n].s_end-(end - id_len[self.recs_reverse[n].s_id])if (self.recs_reverse[n].s_end-(end - id_len[self.recs_reverse[n].s_id])) >= 1 else 1)def region_sort(self):self.sort_rf = sorted(self.recs_forward,key=attrgetter("s_id", "s_start", "s_end"))self.sort_rv = sorted(self.recs_reverse,key=attrgetter("s_id", "s_end", "s_start"))def filter_threshold(self, threshold):if int(threshold) > 0:self.sort_rf = [record for record in self.sort_rfif abs(record.s_start-record.s_end)+1 >= threshold]self.sort_rv = [record for record in self.sort_rvif abs(record.s_start-record.s_end)+1 >= threshold]def write(self, output_path):with open(output_path, "w") as o:for rec in self.sort_rf+self.sort_rv:o.write(f"{rec.q_id}\t{rec.s_id}"f"\t{rec.identity}\t{rec.alignment_length}"f"\t{rec.mismatches}\t{rec.gap_openings}"f"\t{rec.q_start}\t{rec.q_end}"f"\t{rec.s_start}\t{rec.s_end}"f"\t{rec.e_value}\t{rec.bit_score}\n")class StepError(Exception):def __init__(self, error):self.error = errorif __name__ == "__main__":path, up, down, filt, genome, output, threshold, score = "", 0, 0, False, "", "", 0, Falsetry:opts, args = getopt.getopt(sys.argv[1:], "-i:-g:-o:-u:-d:-f-t:-s")for opt_name, opt_value in opts:if opt_name == "-i":path = opt_valueif opt_name == "-u":up = int(opt_value)if opt_name == "-d":down = int(opt_value)if opt_name == "-f":filt = Trueif opt_name == "-t":threshold = int(opt_value)if opt_name == "-g":genome = opt_valueif opt_name == "-o":output = opt_valueif opt_name == "-s":score = Trueexcept getopt.GetoptError as e:for error in e.args:print("".join(error))results = RegionIO(path)if up or down:if genome:results.extend_region(up=up, down=down, genome_path=genome)else:results.extend_region(up=up, down=down)results.region_sort()if filt:filter_overlap(results.sort_rf, score)filter_overlap(results.sort_rv, score)if threshold > 0:results.filter_threshold(threshold)if output:results.write(output)else:results.write(path+"_region_tools")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/776643.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安全上网,防止上网被记录(v2ray实现加密通信)

近期听一位亲威说&#xff0c;她在公司休闲的时候上了哪个网站&#xff0c;浏览了过的网站IT部门的人都会知道&#xff0c;这是因为现在大多数网络设备&#xff0c;像路由与交换机都有记录访问网站地址记录功能&#xff0c;涉及还可以设置成记录到交互的内容。要想保密&#xf…

【QT学习笔记】目录 (不定时更新)

解析 Qt消息机制和事件 Qt消息机制和事件--2 qt::WA_QuitOnClose 类库及用法 QString::number用法_qstring::number表示整数 emit用法 QString用法 QFile 用法 QPair用法 | 如何定义一个函数返回两个值 QFileDialog用法&#xff08;选择文件弹出框&#xff09; QFileI…

js 分割号查找内容

如果您想要在JavaScript中使用分隔符查找字符串中的内容&#xff0c;您可以使用String.prototype.split方法来分割字符串&#xff0c;然后使用数组的相关方法来查找特定内容。 以下是一个简单的例子&#xff0c;它使用逗号作为分隔符&#xff0c;查找字符串数组中的特定内容&a…

java openCV4-专栏目录

专栏简介 &#x1f492;个人主页 &#x1f4d6;说明&#x1f4d6;本专栏为java openCV的入门专栏 openCV4.x 目录 &#x1f4e2;前言&#x1f4e2;场景&#x1f43c;附言&#x1f4d6;目录 &#x1f4e2;前言 本专栏所有示例采用openCV4.8.0版本&#xff0c;你也可以采用其它…

MySQL面试汇总(一)

MySQL 如何定位慢查询 如何优化慢查询 索引及其底层实现 索引是一个数据结构&#xff0c;可以帮助MySQL高效获取数据。 聚簇索引和非聚簇索引 覆盖索引 索引创建原则 联合索引

AcWing 92. 递归实现指数型枚举

Problem: AcWing 92. 递归实现指数型枚举 文章目录 思路解题方法复杂度Code 思路 这是一个经典的递归问题&#xff0c;我们需要实现指数型枚举。这意味着我们需要找出所有可能的组合。在这个问题中&#xff0c;我们需要找出1到n的所有可能的组合。 解题方法 我们使用一个递归函…

Linux系统-----------MySQL 数据类型

目录 MySQL 数据类型 一、数值类型 二、日期和时间类型 三、字符串类型 &#xff08;1&#xff09;CHAR类型 &#xff08;2&#xff09;VARCHAR类型 &#xff08;3&#xff09;CHAR和VARACHAR的比较及其应用场景 MySQL 数据类型 MySQL 中定义数据字段的类型对你数据库的…

代码随想录 Day-25

力扣题目 509.斐波那契数 思路 很理所当然的&#xff0c;可以使用递归的方式其次是用动态规划的方式&#xff0c;动态规划的核心就是递推公式。 那么递推和递归一字之差&#xff0c;有什么区别呢&#xff1f;&#xff08;递推和递归的区别&#xff09; 1、递归 class Solutio…

Karmada 管理有状态应用 Xline 的早期探索与实践

背景与动机 目前随着云原生技术和云市场的不断成熟&#xff0c;越来越多的 IT 厂商开始投入到跨云多集群的怀抱当中。以下是 flexera 在 2023 年中关于云原生市场对多云多集群管理的接受程度的调查报告&#xff08;http://info.flexera.com&#xff09; 从 flexera 的报告中可…

软件杯 深度学习 机器视觉 人脸识别系统 - opencv python

文章目录 0 前言1 机器学习-人脸识别过程人脸检测人脸对其人脸特征向量化人脸识别 2 深度学习-人脸识别过程人脸检测人脸识别Metric Larning 3 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习 机器视觉 人脸识别系统 该项目…

算法训练day51Leetcode139.单词拆分 多重背包了解 背包问题总结

139.单词拆分 . - 力扣&#xff08;LeetCode&#xff09; 题目分析 初始化&#xff1a;初始化一个布尔型向量dp&#xff0c;大小为s.size() 1&#xff0c;所有值初始化为false&#xff0c;除了dp[0]被设置为true。这个布尔数组代表字符串s[0..i]能否通过拼接字典中的单词来形…

CMT(Cross Modal Transformer)实验环境搭建

项目地址&#xff1a;https://github.com/junjie18/CMT 论文地址&#xff1a;https://arxiv.org/pdf/2301.01283.pdf 环境&#xff1a;Ubuntu 20.04、cuda 11.1、python 3.8 1.创建虚拟环境CMT conda create -n CMT python3.8 -y conda activate CMT2.安装pytorch的GPU版本&am…

U盘惊变:文件夹竟成应用程序?数据恢复全攻略!

一、U盘突发异状&#xff1a;文件夹秒变应用程序 在数字化时代&#xff0c;U盘作为便携存储设备&#xff0c;在日常生活和工作中扮演着重要角色。然而&#xff0c;近期不少用户反映&#xff0c;他们的U盘突然出现了诡异的现象&#xff1a;原本整齐划一的文件夹图标&#xff0c…

STM32G473之flash存储结构汇总

STM32G4系列单片机&#xff0c;为32位的微控制器&#xff0c;理论上其内部寄存器地址最多支持4GB的命名及查找&#xff08;2的32次方&#xff0c;地址命名为0x00000000至0xFFFFFFFF&#xff09;。STM32官方对4GB的地址存储进行编号时&#xff0c;又分割成了8个block区域&#x…

vulnhub靶场之driftingblues-3

一.环境搭建 1.靶场描述 get flags difficulty: easy about vm: tested and exported from virtualbox. dhcp and nested vtx/amdv enabled. you can contact me by email for troubleshooting or questions. This works better with VirtualBox rather than VMware 2.靶场…

Markdown 编辑器使用

CSDN 在博客开头加上 [TOC](你的目录标题)就可以根据博客内容自动生成如下所示的目录&#xff1a; 你的目录标题 Markdown 编辑器功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表无序列表…

代码设计原则

目录 软件设计的本质设计模式的六大原则设计模式的三种模式框架设计 软件设计的本质 开闭原则&#xff0c;核心是高内聚&#xff0c;低耦合 设计模式的六大原则 单一职责原则&#xff1a;就一个类而言&#xff0c;应该仅有一个引起它变化的原因开闭原则&#xff1a;对扩展开…

如何压缩视频到最小?教会你压缩原理~

在网上上传视频时&#xff0c;经常会遇到因为视频体积过大上传失败等情况发生&#xff0c;怎么降低视频体积呢&#xff1f;科普一个小知识&#xff1a;视频体积和视频的时长、编码格式、分辨率和比特率&#xff08;又称码率&#xff09;有关。视频文件大小计算公式&#xff1a;…

如何优化财务管理?中小型外贸企业实用指南

在当今全球化的商业环境中&#xff0c;越来越多的中小企业涉足外贸领域&#xff0c;以寻求更广阔的市场和发展空间。在这一过程中&#xff0c;财务管理的重要性尤为凸显&#xff0c;需关注外汇风险、税务合规性、现金流等多个方面的问题。 一、中小企业外贸财务管理难题 币种核…