fastq质量值_fastq 数据格式解析

概念介绍

Read 读段

Read 中文翻译: 读段,来自测序仪的raw data

一个Read 可能由多个片段组成, Read的索引是测序时的顺序

Sequencing quality 测序质量

测序仪在测序的时候,每次测出来的结果可能都不一样(仪器误差 序列长度等各方面因素), 所以往往需要多测几次,最后开决定是哪一个碱基。

592532f00b22?from=message&isappinstalled=0

Phred_Figure_1.jpg

Sequencing quality 是度量测序仪测序质量的指标。

测序质量指标有很多种 , 最常用的的是Phred quality score。

Sequencing quality metrics can provide important information

about the accuracy of each step in this process, including library

preparation, base calling, read alignment, and variant calling. Base

calling accuracy, measured by the Phred quality score (Q score), is the

most common metric used to assess the accuracy of a sequencing

platform. It indicates the probability that a given base is called

incorrectly by the sequencer.

Phred quanlity score 测序质量分数

概念

Q scores are used to measure base calling accuracy, one of the most

common metrics for assessing sequencing data quality. Low Q scores

can lead to increased false-positive variant calls, resulting in inaccurate

conclusions and higher costs for validation experiments.

测序质量分数

Q Phred quality scores

P base-calling-error probabilities

简单来说 Q越大 就说明测序质量越好

592532f00b22?from=message&isappinstalled=0

Paste_Image.png

592532f00b22?from=message&isappinstalled=0

Paste_Image.png

格式

不同的测序仪采用不同的测序标准, 取值范围不同

在存入Fastq格式的时候往往需要将数值转换为单个字符,要将数值范围映射到ASCII码上

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:

Sanger,Phred quality score,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。

Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;

Illumina 1.3+,Phred quality score,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;

Illumina 1.5+,Phred quality score,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina

Illumina 1.8+

测序仪产生的数据格式

不同测序仪,不同版本号,产出的数据格式不一定相同

测序平台

文件格式

说明

454测序

FASTA / FASTAQ

Illumina/Solexa

FASTQ

SOLiD

CSFASTA / QV.qual质量文件

测序结果包含峰值

下面的这四行就是一行Read(这里我们以FASTQ格式为例)

fastq 格式说明

@HWI-ST507:4:75:4291:2239#0/1

AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG

+HWI-ST507:4:75:4291:2239#0/1

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

第一行: @文件识别标志 + Read ID

HWI-ST507:4:75:4291:2239#0/1

说明

数据

含义

说明

HWI-ST507

测序仪的唯一编号

-

4

测序通道

说明这批数据是在测序仪的第四通道测出来的

75

Read读长

代表每个Read的长度都是75bp

4291:2239

测序仪中的坐标数

#0

多样本测序时候的索引

#0 代表单样本测序

/1

每对paired-end 或者mate-pair的reads中的第一个

第二行:序列

第三行: + 文件标识标识 + Read ID

第三行的+后面的跟第一行相同, 可以省略, 但是+不可省略

第四行:质量分数

ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]

对应到到该仪器版本所采用过的phred标准,对应的ascall码范围求得整数质量分数值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/269736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

画像分析(3-3)标签建模-模型管理-新建关系

1、关系是什么 关系,是实体与实体之间所发生的连接,通常表示某一种行为/一个事实,如成交、搜索、出行。从数据表的角度来看,这样的表通常被称为”事实表“,往往是有多个联合主键(或是说都是外键&#xff09…

二进制、八进制、十进制、十六进制之间的转换

在计算机语言中常用的进制有二进制、八进制、十进制和十六进制,十进制是最主要的表达形式。 对于进制,有两个基本的概念:基数和运算规则。 基数:基数是指一种进制中组成的基本数字,也就是不能再进行拆分的数字。二进…

myeclipse mysql 乱码_MyEclipse与mysql增改查现乱码解决方案绝对有效

设置MyEclipse文件编码。且跟mysql的连接编码一致set names gbk; SET character_set_clientutf8;SET character_set_connectionutf8;SET character_set_resultsutf8;show variables like %char%;SET character_set_clientutf8;SET character_set_connection utf8;SET character…

poj3723Conscription

题目链接&#xff1a;http://poj.org/problem?id3723 建图时将女生编号都加n&#xff08;男生数目&#xff09;&#xff0c;求最大生成树。 1 #include <cstdio>2 #include <cstring>3 #include <algorithm>4 using namespace std;5 const int maxn100001;6…

JAVA基础知识之字节和字符

一、字节的概念 1、计算机中的数据都是以二进制的形式进行存储和交换的&#xff0c;字节本质就是二进制&#xff0c;因此字节是最基本的储存单位 2、一个字节本质就是8位二进制&#xff0c;因此1个字节最小的值是0&#xff0c;最大的值是11111111&#xff0c;转换十进制…

mysql 8小时问题_Mysql经典的“8小时问题”

假设你的数据库是mysql&#xff0c;如果数据源配置不当&#xff0c;将可能发生经典的“8小时问题”。原因是mysql在默认情况下&#xff0c;如果发现一个连接的空闲时间超过8小时&#xff0c;将会在数据库端自动关闭这个连接。而数据源并不知道这个连接已经关闭了&#xff0c;当…

【BZOJ 2753】 2753: [SCOI2012]滑雪与时间胶囊 (分层最小树形图,MST)

2753: [SCOI2012]滑雪与时间胶囊 Time Limit: 50 Sec Memory Limit: 128 MBSubmit: 2457 Solved: 859Description a180285非常喜欢滑雪。他来到一座雪山&#xff0c;这里分布着M条供滑行的轨道和N个轨道之间的交点&#xff08;同时也是景点&#xff09;&#xff0c;而且每个景…

SortedMap接口实现排序

SortedMap接口主要提供有序的Map实现。SortedMap接口是排序接口&#xff0c;只要是实现了此接口的子类&#xff0c;都属于排序的子类&#xff0c;TreeMap也是此接口的一个子类 Map的主要实现有HashMap,TreeMap,HashTable,LinkedHashMap。 TreeMap实现了SortedMap接口&#xf…

mysql漏洞包_MySQL npm包中的本地文件泄露漏洞

“A pure node.js javascript Client implementing the MySQL protocol.”漏洞在某次安全评估中&#xff0c;Synacktiv专家无意中发现某个应用可以从另一台MySQL服务器中读取敏感数据&#xff0c;而该应用程序正是使用了mysql的npm软件包。该npm软件包所支持的LOAD DATA LOCAL命…

C# 对象与JSON串互相转换

DoNet2.0 需要借助于Newtonsoft.Json.dll 1 代码2 3 using System;4 using System.IO;5 using System.Text;6 using Newtonsoft.Json;7 8 namespace OfflineAcceptControl.UCTools9 { 10 public class JsonTools 11 { 12 // 从一个对象信息生成Json串 13 …

mysql 日期查询今天_Mysql 日期查询今天、昨天、近7天、近30天、本月、上一月、本季...

今天select * from 表名 where to_days(时间字段名) to_days(now());昨天SELECT * FROM 表名 WHERE TO_DAYS( NOW( ) ) - TO_DAYS( 时间字段名) < 1近7天SELECT * FROM 表名 where DATE_SUB(CURDATE(), INTERVAL 7 DAY) < date(时间字段名)近30天SELECT * FROM 表名 whe…

java实现MD5加密

MD5加密是一种常见的加密方式&#xff0c;我们经常用在保存用户密码和关键信息上。那么它到底有什么&#xff0c;又什么好处呢&#xff0c;会被这么广泛的运用在应用开发中。 信息-摘要算法&#xff08;Message-digest Algorithm 5&#xff0c;MD5&#xff09;于90年代初由MIT …

THINKPHP5判断当前浏览器请求方式

作用代码是否为 GET 请求if (Request::instance()->isGet())是否为 POST 请求if (Request::instance()->isPost())是否为 PUT 请求if (Request::instance()->isPut())是否为 DELETE 请求if (Request::instance()->isDelete())是否为 Ajax 请求if (Request::instanc…

jspwiki mysql_Wiki.js初体验

利用JSPWiki搭建简易企业wiki平台。今天介绍一下基于NodeJS技术的开源项目Wiki.js&#xff0c;其界面简洁美观&#xff0c;支持多种编辑器、多种用户验证方式、多种备份存储方式&#xff0c;支持国际化、自定义主题(Theme)、流量分析等。更多正在开发中的功能&#xff0c;界面也…

java中Map有哪些实现类

Java中的map是一个很重要的集合&#xff0c;他是一个接口&#xff0c;下面继承它实现了多个实现类&#xff0c;这些类各有千秋&#xff0c;各自有个各自的优点和缺点 如下图 map的主要特点是键值对的形式&#xff0c;一一对应&#xff0c;且一个key只对应1个value。其常用的map…

h2 mysql 兼容_H2内存数据库对sql语句的支持问题 sql放到mysql数据库中能跑

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼### The error may involve com.yrs.modules.classes.stu.teacher.mapper.ClassesStuTeacherMapper.queryStudentInfoByclasses### The error occurred while executing a query### SQL: SELECT ysi.stu_id, ysi.stu_name, ysi.stu…

poj1743 Musical Theme

神题&#xff01;&#xff01; 2333&#xff0c;要求可以给区间加减同一个数&#xff0c;然后我就懵逼了&#xff0c;&#xff0c;%%题解&#xff0c;可以用差分嘛2333 所以原来的区间长度差分之后就要减一了&#xff0c; 然后现在用sa搞出height数组&#xff0c;然后对于>l…

设备的分配与调度简单方案_连铸生产调度与动态重调度的优化与研究-3,炼钢技术(3)原创...

基于生产扰动分类的二阶段遗传算法求解动态重调度问题4.1引言电炉炼钢-连铸生产对整个生产的节奏要求较高&#xff0c;各个工序各个工位间配合要比较紧密&#xff0c;但实际的生产过程中总会存在许多不可避免的扰动因素&#xff0c;必须根据实时现场的监控数据来进行动态调度以…