fastq质量值_fastq 数据格式解析

概念介绍

Read 读段

Read 中文翻译: 读段,来自测序仪的raw data

一个Read 可能由多个片段组成, Read的索引是测序时的顺序

Sequencing quality 测序质量

测序仪在测序的时候,每次测出来的结果可能都不一样(仪器误差 序列长度等各方面因素), 所以往往需要多测几次,最后开决定是哪一个碱基。

592532f00b22?from=message&isappinstalled=0

Phred_Figure_1.jpg

Sequencing quality 是度量测序仪测序质量的指标。

测序质量指标有很多种 , 最常用的的是Phred quality score。

Sequencing quality metrics can provide important information

about the accuracy of each step in this process, including library

preparation, base calling, read alignment, and variant calling. Base

calling accuracy, measured by the Phred quality score (Q score), is the

most common metric used to assess the accuracy of a sequencing

platform. It indicates the probability that a given base is called

incorrectly by the sequencer.

Phred quanlity score 测序质量分数

概念

Q scores are used to measure base calling accuracy, one of the most

common metrics for assessing sequencing data quality. Low Q scores

can lead to increased false-positive variant calls, resulting in inaccurate

conclusions and higher costs for validation experiments.

测序质量分数

Q Phred quality scores

P base-calling-error probabilities

简单来说 Q越大 就说明测序质量越好

592532f00b22?from=message&isappinstalled=0

Paste_Image.png

592532f00b22?from=message&isappinstalled=0

Paste_Image.png

格式

不同的测序仪采用不同的测序标准, 取值范围不同

在存入Fastq格式的时候往往需要将数值转换为单个字符,要将数值范围映射到ASCII码上

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:

Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。

Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;

Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;

Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina

Illumina 1.8+

测序仪产生的数据格式

不同测序仪,不同版本号,产出的数据格式不一定相同

测序平台

文件格式

说明

454测序

FASTA / FASTAQ

Illumina/Solexa

FASTQ

SOLiD

CSFASTA / QV.qual质量文件

测序结果包含峰值

下面的这四行就是一行Read(这里我们以FASTQ格式为例)

fastq 格式说明

@HWI-ST507:4:75:4291:2239#0/1

AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG

+HWI-ST507:4:75:4291:2239#0/1

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

第一行: @文件识别标志 + Read ID

HWI-ST507:4:75:4291:2239#0/1

说明

数据

含义

说明

HWI-ST507

测序仪的唯一编号

-

4

测序通道

说明这批数据是在测序仪的第四通道测出来的

75

Read读长

代表每个Read的长度都是75bp

4291:2239

测序仪中的坐标数

#0

多样本测序时候的索引

#0 代表单样本测序

/1

每对paired-end 或者mate-pair的reads中的第一个

第二行:序列

第三行: + 文件标识标识 + Read ID

第三行的+后面的跟第一行相同, 可以省略, 但是+不可省略

第四行:质量分数

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

对应到到该仪器版本所采用过的phred标准,对应的ascall码范围求得整数质量分数值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/269736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

画像分析(3-3)标签建模-模型管理-新建关系

1、关系是什么 关系,是实体与实体之间所发生的连接,通常表示某一种行为/一个事实,如成交、搜索、出行。从数据表的角度来看,这样的表通常被称为”事实表“,往往是有多个联合主键(或是说都是外键&#xff09…

二进制、八进制、十进制、十六进制之间的转换

在计算机语言中常用的进制有二进制、八进制、十进制和十六进制,十进制是最主要的表达形式。 对于进制,有两个基本的概念:基数和运算规则。 基数:基数是指一种进制中组成的基本数字,也就是不能再进行拆分的数字。二进…

【BZOJ 2753】 2753: [SCOI2012]滑雪与时间胶囊 (分层最小树形图,MST)

2753: [SCOI2012]滑雪与时间胶囊 Time Limit: 50 Sec Memory Limit: 128 MBSubmit: 2457 Solved: 859Description a180285非常喜欢滑雪。他来到一座雪山,这里分布着M条供滑行的轨道和N个轨道之间的交点(同时也是景点),而且每个景…

SortedMap接口实现排序

SortedMap接口主要提供有序的Map实现。SortedMap接口是排序接口,只要是实现了此接口的子类,都属于排序的子类,TreeMap也是此接口的一个子类 Map的主要实现有HashMap,TreeMap,HashTable,LinkedHashMap。 TreeMap实现了SortedMap接口&#xf…

mysql漏洞包_MySQL npm包中的本地文件泄露漏洞

“A pure node.js javascript Client implementing the MySQL protocol.”漏洞在某次安全评估中,Synacktiv专家无意中发现某个应用可以从另一台MySQL服务器中读取敏感数据,而该应用程序正是使用了mysql的npm软件包。该npm软件包所支持的LOAD DATA LOCAL命…

java实现MD5加密

MD5加密是一种常见的加密方式,我们经常用在保存用户密码和关键信息上。那么它到底有什么,又什么好处呢,会被这么广泛的运用在应用开发中。 信息-摘要算法(Message-digest Algorithm 5,MD5)于90年代初由MIT …

jspwiki mysql_Wiki.js初体验

利用JSPWiki搭建简易企业wiki平台。今天介绍一下基于NodeJS技术的开源项目Wiki.js,其界面简洁美观,支持多种编辑器、多种用户验证方式、多种备份存储方式,支持国际化、自定义主题(Theme)、流量分析等。更多正在开发中的功能,界面也…

java中Map有哪些实现类

Java中的map是一个很重要的集合,他是一个接口,下面继承它实现了多个实现类,这些类各有千秋,各自有个各自的优点和缺点 如下图 map的主要特点是键值对的形式,一一对应,且一个key只对应1个value。其常用的map…

设备的分配与调度简单方案_连铸生产调度与动态重调度的优化与研究-3,炼钢技术(3)原创...

基于生产扰动分类的二阶段遗传算法求解动态重调度问题4.1引言电炉炼钢-连铸生产对整个生产的节奏要求较高,各个工序各个工位间配合要比较紧密,但实际的生产过程中总会存在许多不可避免的扰动因素,必须根据实时现场的监控数据来进行动态调度以…

敏捷开发总结(1)软件研发过程

敏捷开发总结(1)软件研发过程 转载于:https://www.cnblogs.com/lexiaofei/p/6644326.html

java for循环 嵌套for循环-标签使用

continue和break可以改变循环的执行流程,但在多重循环中,这两条语句无法直接从内层循环跳转到外层循环。在C语言中,可以通过goto语句实现多重循环的跳转,但在非循环结构中使用goto语句会使程序的结构紊乱,可读性变差。…

WPF 窗体边框处理

一般做wpf窗口时都不会使用默认的标题栏等,会把他隐藏掉 此时设置以下属性 WindowStyle、AllowsTransparency、ResizeMode 中的两个或三个都能达到目的。 有一种场景,针对.Net 4.0及以下版本,4.5 直接就支持操作 1. 隐藏边框 2.保留鼠标移动到…

mysql 查询时间转换_数据库查询时日期的转换

首先简单说明一下,laravel框架中查询并打印sql语句的办法,不管任何时候由于sql语句报错时,都可以先打印一下,分析一下是什么原因造成的错误①引入laravel框架DB类useIlluminate\Support\Facades\DB;②开启框架日志记录DB::connect…

浅谈Spring之@Nullable、@NonNull注解

NonNull 可以标注在方法、字段、参数之上,表示对应的值不可以为空 Nullable 注解可以标注在方法、字段、参数之上,表示对应的值可以为空

事务概念和事务四大特性和隔离级别

什么是事务 事务四大特性 原生的JDBC事务处理 事务的隔离级别

squid mysql认证_Squid 3.1.7通过mysql_auth方式认证

Squid 3.1.7通过mysql_auth方式认证(FreeBSD平台)一、下载相应软件及补丁#fetch http://people.arxnet.hu/airween/mysql_auth/mysql_auth-0.8.tar.gz#tar xvzf mysql_auth-0.8.tar.gz#cd mysql_auth-0.8#patch -p1 < ../additionalselect.patchpatching file src/confparse…

Spring事务传播属性和隔离级别

Spring事务传播属性和隔离级别 一、Spring事务传播属性&#xff08;Propagation&#xff09;&#xff1a; 1) REQUIRED&#xff08;默认属性&#xff09; 如果存在一个事务&#xff0c;则支持当前事务。如果没有事务则开启一个新的事务。 被设置成这个级别时&#xff0c;会为…

ClickHouse之简单性能测试

前面的文章ClickHouse之初步认识已经简单的介绍了ClickHouse&#xff0c;接下来进行简单的性能测试。测试数据来源于美国民用航班的数据&#xff0c;从1987年到2017年&#xff0c;有1.7亿条。 环境&#xff1a; centos 6.3&#xff0c;32G内存&#xff0c;24核 下载脚本&#x…