转录组学习第四弹-数据质控

数据质控

将SRR转为fastq之后,我们需要对fastq进行质量检查,排除质量不好的数据
1.质量检查,生成报告文件

ls *fastq.gz|while read id;do fastqc $id;done

并行处理

ls *fastq.gz|xargs fastqc -t 10

在这里插入图片描述
2.生成 html 报告文件和对应的 zip 压缩文件,并通过 scp 命令传输到本地后用浏览器打开查看。

#传文件
scp -i username@server-ip:~/my_project/airway/QC_results /Users/yangshengyu/qc#传文件夹
scp -r username@server-ip:~/my_project/airway/QC_results /Users/yangshengyu/qc
#如果默认端口22关闭,使用-P指定端口

多个报告文件合成一个总的报告文件方便查看,不用一个个打开检查

mkdir QC_results 
mv *zip *html QC_results 
cd QC_results
multiqc ./

3.结果说明
FastQC 结果由11个模块组成,对于结果报告各个模块的说明参考FastQC 文档
1)综合统计(General Statistics)
重复reads的比例(%Dups)、GC含量占总碱基的比例、总测序量(M Seqs,单位:millions)
在这里插入图片描述
2)序列的计数(sequence counts)
可以看到reads的数量和重复reads的百分比
在这里插入图片描述
3)每个read各位置碱基的平均测序质量
横坐标——碱基的位置
纵坐标——质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。
绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。
由此可知,32个样本在60个碱基前的测序质量平均线都在绿色区域内,质量很好。

在这里插入图片描述
4)具有平均质量分数的reads的数量
绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。由此可知,32个样本大部分都在绿色区域内,质量很好。
在这里插入图片描述
5)每个read各位置碱基ATCG的比列
reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。由下图可知32个样本的ATCG的含量比例是比较均匀的,测序质量是可以的。

在这里插入图片描述
6)reads的平均GC含量
正常的样本的GC含量曲线会趋近于正态分布曲线。由下图可知GC含量曲线符合正态分布曲线,测序质量可以。
在这里插入图片描述
7)每条reads各位置N碱基含量比例
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。正常情况下,N值非常小。由下图可知有样本出现N碱基,其中SRR1039511_2出现的最多。
在这里插入图片描述
8)序列长度的分布

所有样本的序列都是单一长度(63bp)
在这里插入图片描述
9)每个序列的相对重复水平
横坐标:每个序列的相对重复水平
纵坐标:在文库中的比例
由下图可知每个样本序列的相对重复水平都较高,测序质量不好。
在这里插入图片描述
10)文库中过表达序列的比例
横坐标——过表达序列的比例
一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。
在这里插入图片描述
11)接头含量
32个样本的接头含量基本都低于1%
在这里插入图片描述

4.原始数据修剪
使用trim_galore对原始数据进行去接头和质控


nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --fastqc -o ../clean $fq &##批量处理
for fq in `ls |grep fastq$`; do nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --fastqc -o ../clean $fq ; done &

参数说明:

-q 25 # 设定Phred quality score阈值是25

-phred33 # 指定使用phred33碱基质量值体系

–length 35 # 输出reads长度阈值,小于35bp的reads会被抛弃

–stringency 3 # 可以忍受的前后adapter重叠的碱基数为3

–fastqc # 修剪完数据之后运行fastqc

长腿猴子请来的救兵
写于2023年11月21日 上英语课摸鱼写的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/156251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在网页中添加水印的实现方法

在网页设计中,为了保护内容的版权以及增加一些特殊效果,经常需要在页面上添加水印。本文将介绍一种通过Canvas和JavaScript实现在网页上添加水印的方法。 功能: 允许自定义水印内容、字体颜色可以防止用户删除水印元素、修改样式等其他手段…

前端工程化-什么是构建工具

了解构建工具之前,我们首先要知道的是浏览器只认识html、css、js,而我们开发时用的vue,react框架都只是为了方便我们开发而使用的工具 使用构建工具的原因 vue或react的企业级项目里都会具备这些功能: 1.使用typescript语言&…

JNPF开发平台凭什么火?

一、关于低代码 JNPF平台在提供无代码(可视化建模)和低代码(高度可扩展的集成工具以支持跨功能团队协同工作)开发工具上是独一无二的。支持简单、快速地构建及不断改进Web端应用程序,可为整个应用程序的生命周期提供全…

科锐学习笔记-DEBUG命令使用解析及范例大全

启动 Debug,它是可用于测试和调试 MS-DOS 可执行文件的程序。 Debug [[drive:][path] filename [parameters]] 参数 [drive:][path] filename 指定要测试的可执行文件的位置和名称。 parameters 指定要测试的可执行文件所需要的任何命令行信息。 说明 使用 D…

Ubuntu18 Opencv3.4.12 viz 3D显示安装、编译、移植

Opencv3.*主模块默认包括两个3D库 calib3d用于相机校准和三维重建 ,viz用于三维图像显示,其中viz是cmake选配。 参考: https://docs.opencv.org/3.4.12/index.html 下载linux版本的源码 sources。 查看cmake apt list --installed | grep cmake 查看vtk apt list --ins…

车载以太网-传输层-UDP

文章目录 UDP协议UDP报文格式UDP报文示例UDP协议测试UDP协议 UDP(User Datagram Protocol)是一种无连接的传输层协议,它不保证数据传输的可靠性,但是具有传输速度快的优点。UDP协议主要用于那些对数据传输速度要求较高,但对数据传输的可靠性要求不高的应用场景,如音视频…

《白帽子讲web安全》

第十四章 PHP安全 文件包含漏洞是“代码注入”的一种。“代码注入”这种攻击,其原理就是注入一段用户能控制的脚本或代码,并让服务器端执行。“代码注入”的典型代表就是文件包含(File Inclusion)。文件包含可能会出现在JSP、PHP…

DeepStream--测试TrafficCamNet检测模型

模型地址:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/models/trafficcamnet/version 目前模型是nvidia的加密格式etlt。 nvinfer的配置 [property] gpu-id0 net-scale-factor0.0039215697906911373 tlt-model-keytlt_encode tlt-encoded-modeltraffic…

oracle重新安装集群软件后挂盘启动数据库

现有情况是恢复灾备环境的oracle集群备库,灾备端一直和主端做的数据同步,但是之前主端的三块OCR磁盘出现过故障,更换过磁盘,但是灾备端虽然一直做数据同步,但是只同步了DATA和FRA两个磁盘组。 如今需要使用灾备端来做测…

react等效memo的方法

视频教程 前端技术|Dan博客|在你写memo()之前_哔哩哔哩_bilibili 把与ExpensiveTree的无关的dom做成一个组件 第二种情况,color在ExpensiveTree组件的父级dom 创建一个组件,将state的color和input写上,而ExpensiveTr…

hook io异常注入

文中code https://gitee.com/bbjg001/darcy_common/tree/master/io_hook 需求引入 最近工作需要,需要验证一下我们的服务在硬盘故障下的鲁棒性。 从同事大佬哪里了解到hook技术,可以通过LD_PRELOAD这个环境变量拦截依赖库的调用链,将对标准…

微信小程序记住密码,让登录解放双手

密码是用户最重要的数据,也是系统最需要保护的数据,我们在登录的时候需要用账号密码请求登录接口,如果用户勾选记住密码,那么下一次登录时,我们需要将账号密码回填到输入框,用户可以直接登录系统。我们分别…

Thinkphp5报错:htmlentities() expects parameter 1 to be string, array given

注意注意: 本文对应 ThinkPHP5.1 版本。前言 - 出现问题的原因 为避免出现 XSS 安全问题,Thinkphp5.1 默认变量输出都会使用 htmlentities 方法进行转义输出。 如果不想被转义输出,模板渲染时,需要在变量后面加上 raw方法&#xf…

综述--知识蒸馏

知识蒸馏(Knowledge Distillation)作为一种类似迁移学习的方法,最早是由Hinton等人在2015年提出[1],在近年来得到了广泛的关注和研究。它通过将一个复杂的模型的知识转移到一个简化的模型中,以实现在模型大小和计算资源…

每天一道算法题(九)——寻找字符串中所有字母异位词的子串

文章目录 前言1、问题2、示例3、解决方法(1)方法1——双指针 总结 前言 提示: 1、问题 给定两个字符串 s 和 p,找到 s 中所有 p 的 异位词 的子串,返回这些子串的起始索引。不考虑答案输出的顺序。 异位词 指由相同字…

推荐一个windows上传linux服务器/linux服务器的docker镜像的工具,摆脱docker cp,以及解决常见问题。

Lrzsz,又称为lrz和lsz,是一个用于在Unix、Linux、macOS等操作系统上进行串行文件传输的工具。它支持基于X/Y/ZModem协议的文件传输,能够通过串口或者Telnet/SSH等网络连接进行文件传输。Lrzsz具有传输速度快、可靠性高、易于使用等特点&#…

详解ES6的Promise

ES6(ECMAScript 6)是JavaScript的一种标准,也被称为ES2015。它是在2015年发布的第六个ECMAScript标准版本,引入了许多新的语法和特性来增强JavaScript的功能和可读性。 文章目录 一、创建promise 二、处理Promise 三.Promise链…

OpenCV入门9——目标识别(车辆统计)

文章目录 图像轮廓查找轮廓绘制轮廓轮廓的面积与周长多边形逼近与凸包外接矩形项目总览【车辆统计】视频加载【车辆统计】去背景【车辆统计】形态学处理【车辆统计】逻辑处理【车辆统计】显示信息【车辆统计】 图像轮廓 查找轮廓 # -*- coding: utf-8 -*- import cv2 import n…