转录组学习第四弹-数据质控

数据质控

将SRR转为fastq之后,我们需要对fastq进行质量检查,排除质量不好的数据
1.质量检查,生成报告文件

ls *fastq.gz|while read id;do fastqc $id;done

并行处理

ls *fastq.gz|xargs fastqc -t 10

在这里插入图片描述
2.生成 html 报告文件和对应的 zip 压缩文件,并通过 scp 命令传输到本地后用浏览器打开查看。

#传文件
scp -i username@server-ip:~/my_project/airway/QC_results /Users/yangshengyu/qc#传文件夹
scp -r username@server-ip:~/my_project/airway/QC_results /Users/yangshengyu/qc
#如果默认端口22关闭,使用-P指定端口

多个报告文件合成一个总的报告文件方便查看,不用一个个打开检查

mkdir QC_results 
mv *zip *html QC_results 
cd QC_results
multiqc ./

3.结果说明
FastQC 结果由11个模块组成,对于结果报告各个模块的说明参考FastQC 文档
1)综合统计(General Statistics)
重复reads的比例(%Dups)、GC含量占总碱基的比例、总测序量(M Seqs,单位:millions)
在这里插入图片描述
2)序列的计数(sequence counts)
可以看到reads的数量和重复reads的百分比
在这里插入图片描述
3)每个read各位置碱基的平均测序质量
横坐标——碱基的位置
纵坐标——质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。
绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。
由此可知,32个样本在60个碱基前的测序质量平均线都在绿色区域内,质量很好。

在这里插入图片描述
4)具有平均质量分数的reads的数量
绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。由此可知,32个样本大部分都在绿色区域内,质量很好。
在这里插入图片描述
5)每个read各位置碱基ATCG的比列
reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。由下图可知32个样本的ATCG的含量比例是比较均匀的,测序质量是可以的。

在这里插入图片描述
6)reads的平均GC含量
正常的样本的GC含量曲线会趋近于正态分布曲线。由下图可知GC含量曲线符合正态分布曲线,测序质量可以。
在这里插入图片描述
7)每条reads各位置N碱基含量比例
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。正常情况下,N值非常小。由下图可知有样本出现N碱基,其中SRR1039511_2出现的最多。
在这里插入图片描述
8)序列长度的分布

所有样本的序列都是单一长度(63bp)
在这里插入图片描述
9)每个序列的相对重复水平
横坐标:每个序列的相对重复水平
纵坐标:在文库中的比例
由下图可知每个样本序列的相对重复水平都较高,测序质量不好。
在这里插入图片描述
10)文库中过表达序列的比例
横坐标——过表达序列的比例
一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。
在这里插入图片描述
11)接头含量
32个样本的接头含量基本都低于1%
在这里插入图片描述

4.原始数据修剪
使用trim_galore对原始数据进行去接头和质控


nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --fastqc -o ../clean $fq &##批量处理
for fq in `ls |grep fastq$`; do nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --fastqc -o ../clean $fq ; done &

参数说明:

-q 25 # 设定Phred quality score阈值是25

-phred33 # 指定使用phred33碱基质量值体系

–length 35 # 输出reads长度阈值,小于35bp的reads会被抛弃

–stringency 3 # 可以忍受的前后adapter重叠的碱基数为3

–fastqc # 修剪完数据之后运行fastqc

长腿猴子请来的救兵
写于2023年11月21日 上英语课摸鱼写的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/156251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在网页中添加水印的实现方法

在网页设计中,为了保护内容的版权以及增加一些特殊效果,经常需要在页面上添加水印。本文将介绍一种通过Canvas和JavaScript实现在网页上添加水印的方法。 功能: 允许自定义水印内容、字体颜色可以防止用户删除水印元素、修改样式等其他手段…

JNPF开发平台凭什么火?

一、关于低代码 JNPF平台在提供无代码(可视化建模)和低代码(高度可扩展的集成工具以支持跨功能团队协同工作)开发工具上是独一无二的。支持简单、快速地构建及不断改进Web端应用程序,可为整个应用程序的生命周期提供全…

Ubuntu18 Opencv3.4.12 viz 3D显示安装、编译、移植

Opencv3.*主模块默认包括两个3D库 calib3d用于相机校准和三维重建 ,viz用于三维图像显示,其中viz是cmake选配。 参考: https://docs.opencv.org/3.4.12/index.html 下载linux版本的源码 sources。 查看cmake apt list --installed | grep cmake 查看vtk apt list --ins…

《白帽子讲web安全》

第十四章 PHP安全 文件包含漏洞是“代码注入”的一种。“代码注入”这种攻击,其原理就是注入一段用户能控制的脚本或代码,并让服务器端执行。“代码注入”的典型代表就是文件包含(File Inclusion)。文件包含可能会出现在JSP、PHP…

DeepStream--测试TrafficCamNet检测模型

模型地址:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/models/trafficcamnet/version 目前模型是nvidia的加密格式etlt。 nvinfer的配置 [property] gpu-id0 net-scale-factor0.0039215697906911373 tlt-model-keytlt_encode tlt-encoded-modeltraffic…

react等效memo的方法

视频教程 前端技术|Dan博客|在你写memo()之前_哔哩哔哩_bilibili 把与ExpensiveTree的无关的dom做成一个组件 第二种情况,color在ExpensiveTree组件的父级dom 创建一个组件,将state的color和input写上,而ExpensiveTr…

hook io异常注入

文中code https://gitee.com/bbjg001/darcy_common/tree/master/io_hook 需求引入 最近工作需要,需要验证一下我们的服务在硬盘故障下的鲁棒性。 从同事大佬哪里了解到hook技术,可以通过LD_PRELOAD这个环境变量拦截依赖库的调用链,将对标准…

微信小程序记住密码,让登录解放双手

密码是用户最重要的数据,也是系统最需要保护的数据,我们在登录的时候需要用账号密码请求登录接口,如果用户勾选记住密码,那么下一次登录时,我们需要将账号密码回填到输入框,用户可以直接登录系统。我们分别…

OpenCV入门9——目标识别(车辆统计)

文章目录 图像轮廓查找轮廓绘制轮廓轮廓的面积与周长多边形逼近与凸包外接矩形项目总览【车辆统计】视频加载【车辆统计】去背景【车辆统计】形态学处理【车辆统计】逻辑处理【车辆统计】显示信息【车辆统计】 图像轮廓 查找轮廓 # -*- coding: utf-8 -*- import cv2 import n…

Threejs_09 gltf模型的引入(效果初现)

本节使用到的图片、素材、gltf文件,都是老陈打码的原素材 支持!!!!!!!!!!!!!!!&#x…

SQL DELETE 语句:删除表中记录的语法和示例,以及 SQL SELECT TOP、LIMIT、FETCH FIRST 或 ROWNUM 子句的使用

SQL DELETE 语句 SQL DELETE 语句用于删除表中的现有记录。 DELETE 语法 DELETE FROM 表名 WHERE 条件;注意:在删除表中的记录时要小心!请注意DELETE语句中的WHERE子句。WHERE子句指定应删除哪些记录。如果省略WHERE子句,将会删除表中的所…

ANSYS中如何手动为装配体添加接触约束教程

接触的类型: 在接触类型(Type)选项中,软件共提供了绑定接触(Bonded)、不分离接触(No Separation)、无摩擦接触(Frictionless)、粗糙接触(Rough&a…

深入Ansible

1.什么是ansible ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。 ansible是基于 paramiko 开发的…

Linux操作系统使用及C高级编程-D11-D13结构体

由一批数据组合而成的结构型数据。组成结构型数据的每个数据称为结构型数据的“成员”,其描述了一块内存空间的大小及解释意义。 语法: struct 结构体名 { 结构体成员列表 }; 下图是struct的定义和使用方法,其中20行这种赋值方式错误&#xf…

向pycdc项目提的一个pr

向pycdc项目提的一个pr 前言 pycdc这个项目,我之前一直有在关注,之前使用他反编译python3.10项目,之前使用的 uncompyle6无法反编译pyhton3.10生成的pyc文件,但是pycdc可以,但是反编译效果感觉不如uncompyle6。但是版…

BGP笔记

自治系统----AS AS划分的原因:如果网络太大,路由数量进一步增加,路由表规模变得太大,会导致路由收敛速度变慢,设备性能消耗加大,且全网设备对于路由信息的认知不同,造成流量通讯障碍 AS号&…

Django批量插入数据及分页器

文章目录 一、批量插入数据二、分页1.分页器的思路2.用一个案例试试3.自定义分页器 一、批量插入数据 当我们需要大批量创建数据的时候,如果一条一条的去创建或许需要猴年马月 我们可以先试一试for循环试试 我们首先建立一个模型类来创建一个表 models.py&#xff…

腾讯云代金券怎么领取(腾讯云代金券在哪领取)

腾讯云代金券是可抵扣费用的优惠券,领券之后新购、续费、升级腾讯云相关云产品可以直接抵扣订单金额,节省购买腾讯云的费用,本文将详细介绍腾讯云代金券的领取方法和使用教程。 一、腾讯云代金券领取 1、新用户代金券【点此领取】 2、老用户…