生信分析进阶4 - 比对结果的FLAG和CIGAR信息含义与BAM文件指定区域提取

BAM文件时存储比对数据的常用格式,可用于短reads和长reads数据。BAM是二进制压缩格式,SAM文件为其纯文本格式,CRAM为BAM的高压缩格式,IO效率相比于BAM略差,但是占用存储空间更小。

1. BAM文件的比对信息

BAM的核心信息-record(也叫alignment section,比对信息), 记录序列比对内容,每一行都是一条read比对信息,各部分内容如下图所示:

record比对信息各部分内容含义:
record各部分内容含义

2. 比对信息关键内容 FLAG和CIGAR

2.1 FLAG

FLAG记录了read的比对情况,FLAG信息使用数字来表示比对结果,比如77,163等,其中77 = 1 + 4 + 8 + 64, 163 = 1 + 2 + 32 + 128, 其中相加使用的数据含义如下表所示:

比如163数据可以理解为:

PE测序reads + 正常比对上参考序列 + 另一条配对reads反向互补后比对到参考序列 + 该序列是read2
在这里插入图片描述

2.2 CIGAR

CIGAR全称Compact Idiosyncratic Gapped Alignment Report, 称为“雪茄”字符串。CIAGR相比对FLAG更容易理解,使用数字+字母组合表示reads的比对情况,比如,一条150bp长的read比对到基因组之后,假如CIGAR字符串内容为:33S117M,其意思是说在比对的时候这条read开头的33bp在被跳过了(S),紧接其后的117bp则比对上了参考序列(M), 其中S代表软跳过(Soft clip),M代表匹配(Match)

CIGAR标记字符共有10个: “MIDNSHP=XB”,具体分别代表read比对时的情况如下图所示:

特别注意M标记字符,其并非100%全部匹配,单碱基的错配也会标记为M。
CIGAR

3. samtools view查看指定BAM文件指定区域

对于BAM文件的查看可使用samtools。

# 生成索引文件
samtools index sample.sorted.bam# 跳转到chr22染色体
samtools view sample.sorted.bam chr22 # 跳转到chr22:16050000位置
samtools view sample.sorted.bam chr22:16050000# 跳转到chr22:16050000-16060000位置
samtools view sample.sorted.bam chr22:16050000-16060000

4. samtools view提取BAM文件指定染色体区域

对于bam文件过大,可以提取指定区域并生成小的bam文件,导出后再IGV进行查看。

# 提起chr22区域,并输出为bam格式
# —h 表示包含header信息
samtools view -h sample.sorted.bam chr22:16050000-16060000|\
samtools view -Sb - > chr22.region.bam# 查看bam
samtools view chr22.region.bam|less -S

bam查看截图

生信分析进阶文章推荐

生信分析进阶1 - HLA分析的HLA区域reads提取及bam转换fastq

生信分析进阶2 - 利用GC含量的Loess回归矫正reads数量

生信分析进阶3 - pysam操作bam文件统计unique reads和mapped reads高级技巧合辑

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/845721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用c语言实现通讯录

目录 静态简易通讯录 代码: 功能模块展示: 设计思路: 动态简易通讯录(本质顺序表) 代码: 扩容模块展示: 设计思路: 文件版本通讯录 代码: 文件模块展示&#x…

pas编程语言:深度剖析与实用技巧

pas编程语言:深度剖析与实用技巧 在编程的浩瀚海洋中,pas编程语言以其独特的魅力和深厚的内涵吸引着众多编程爱好者。然而,其复杂性和深度也常常让人望而生畏。本文将从四个方面、五个方面、六个方面和七个方面对pas编程语言进行深入剖析&am…

SJ705C安全帽高温预处理箱

一、仪器用途 安全帽高温预处理箱是我公司根据安全帽新国家标准检测试验要求而自主设计研发制造。是安全帽检测前做高温预处理的专用设备。 二、仪器特征 1、有PID自整定温度控制仪,控制准确。 2、数显计时、计温器。 3、石英灯管加热系统;。 …

【数据结构】单链表-->详细讲解,后赋源码

欢迎来到我的Blog,点击关注哦💕 前面已经介绍顺序表,顺序表存在一定的局限性,空间管理上存在一定的缺陷,今天介绍新的存储结构单链表。 前言: 单链表是一种基本的数据结构,它由一系列节点组成&a…

HTML网页滚动条使用整理_网页滚动条使用详解

一、HTML 网页滚动条 HTML Document 滚动条,自动出现; 当网页内容超出浏览器可视宽度或者高度,滚动条自动出现; 不同浏览器滚动条样式效果不同。 二、Css 修改滚动条样式 Css 伪元素控制进度条_Css控制滚动条_Css ::-webkit-scrollbar整理 三、Js监听滚动条,触底加载事…

Android 调试桥_ADB命令

Android 调试桥 ADB全称 【Android Debug Bridge】 是Android SDK中的一个命令行工具,adb命令可以直接操作管理Android模拟器或真实的Android设备(手机) ADB的工作原理 启动一个 adb 客户端时,此客户端首先检查是否有已运行的 …

python zip()函数(将多个可迭代对象的元素配对,创建一个元组的迭代器)zip_longest()

文章目录 Python zip() 函数深入解析基本用法函数原型基础示例 处理不同长度的迭代器高级用法多个迭代器使用 zip() 与 dict()解压序列 注意事项内存效率:zip() 返回的是一个迭代器,这意味着直到迭代发生前,元素不会被消耗。这使得 zip() 特别…

自然语言处理基础知识入门(六) GPT模型详解

GPT 前言一、GPT模型1.1 为什么采用Decoder模块?1.2 为什么不使用Encoder模块? 二、 模型训练2.1 预训练阶段2.2 半监督微调 总结 前言 在之前的章节中,深入探究了预训练ELMo模型的架构与实现原理。通过采用双向LSTM架构在大规模文本数据上进…

[数据集][目标检测][数据集][目标检测]智能手机检测数据集VOC格式5447张

数据集格式:Pascal VOC格式(不包含分割的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):5447 标注数量(xml文件个数):5447 标注类别数:1 标注类别名称:["phone"] 每个类别标注的框数&#xff…

2024年华为OD机试真题-执行时长-Python-OD统一考试(C卷D卷)

2024年OD统一考试(D卷)完整题库:华为OD机试2024年最新题库(Python、JAVA、C++合集) 题目描述: 为了充分发挥GPU算力,需要尽可能多的将任务交给GPU执行,现在有一个任务数组,数组元素表示在这1秒内新增的任务个数且每秒都有新增任务,假设GPU最多一次执行n个任务,一次执…

Qt程序错误“QObject::connect: Cannot queue arguments of type ‘QTextCursor’”的解决方法

背景: 在Qt的线程中调用QTexiEdit控件的append(QString)或insertPlainText(QString),线程首次执行会报错 “QObject::connect: Cannot queue arguments of type ‘QTextCursor”,销毁该线程&a…

Pytorch中Tensor的类型对应表

Data typedtypeCPU tensorGPU tensor32位浮点数torch.float32 or torch.floattorch.FloatTensortorch.cuda.FloatTensor64位浮点数torch.float64 or torch.doubletorch.DoubleTensortorch.cuda.DoubleTensor16位浮点数torch.float16 or torch.halftorch.HalfTensortorch.cuda.H…

Flutter 中的 SliverWithKeepAliveWidget 小部件:全面指南

Flutter 中的 SliverWithKeepAliveWidget 小部件:全面指南 Flutter 是一个由 Google 开发的跨平台 UI 框架,它允许开发者使用 Dart 语言构建高性能、美观的移动、Web 和桌面应用。在 Flutter 的丰富组件库中,SliverWithKeepAliveWidget 是一…

宝塔Linux面板-Docker管理(2024详解)

上一篇文章《宝塔Linux可视化运维面板-详细教程2024》,详细介绍了宝塔Linux面板的详细安装和配置方法。本文详细介绍使用Linux面板管理服务器Docker环境。 目录 1、安装Docker 1.1 在线安装 ​编辑 1.2 手动安装 1.3 运行状态 1.4 镜像加速 2 应用商店 3 总览 4 容器 …

高德地图 JS API用于绘画船舶轨迹

文章目录 引言I 2.0升级指南1.1 修改 JSAPI 引用中的版本号到 2.01.2 相应修改II 1.4.15 文档引言 地图 JS API 2.0 是高德开放平台免费提供的第四代 Web 地图渲染引擎, 以 WebGL 为主要绘图手段,本着“更轻、更快、更易用”的服务原则,广泛采用了各种前沿技术,交互体验、…

从CSV到数据库(简易)

需求:客户上传CSV文档,要求CSV文档内容查重/插入/更新相关数据。 框架:jdbcTemplate、commons-io、 DB:oracle 相关依赖: 这里本来打算用的2.11.0,无奈正式项目那边用老版本1.3.1,新版本对类型…

人脸识别系统代码--照片识别

1.导包 Tkinter用于创建GUI,PIL用于图像处理,cv2用于OpenCV库,subprocess用于运行其他Python脚本。 import tkinter as tk from tkinter import filedialog from PIL import Image, ImageTk from PIL.Image import Resampling import cv2 i…

常见攻击类型整理

文章目录 网络攻击web攻击XSS攻击存储型XSS反射型XSSDOM型XSS CSRF攻击SQL注入攻击文件上传漏洞业务逻辑漏洞越权访问水平越权垂直越权 密码找回验证码漏洞 信息泄露暴力破解远程命令执行(RCE)xxe注入反序列化文件包含本地文件包含(LFI&#…

iperf3带宽压测工具使用

iperf3带宽压测工具使用 安装下载地址:[下载入口](https://iperf.fr/iperf-download.php)测试结果:时长测试(压测使用):并行测试反向测试UDP 带宽测试 iPerf3 是用于主动测试 IP 网络上最大可用带宽的工具 安装 下载地址&#x…

大话C语言:第21篇 数组

1 数组概述 数组是若干个相同类型的变量在内存中有序存储的集合。 数组是 C 语言中的一种数据结构,用于存储一组具有相同数据类型的数据。 数组在内存中会开辟一块连续的空间 数组中的每个元素可以通过一个索引(下标)来访问,索…