MultiQC使用指导

MultiQC使用指导

官网资料
文献:MultiQC --- summarize analysis results for multiple tools and samples in a single report
参考资料一: 整合 fastq 质控结果的工具

简介

MultiQC 是一个基于Python的模块, 用于整合其它软件的报告结果, 目前支持以下软件的结果整合:

Pre-alignment tools
这里写图片描述

Alignment tools
这里写图片描述

Post-alignment tools
这里写图片描述
这里写图片描述

参数说明及example


#如对fastqc生成的结果进行统计
cd fastqc_out
multiqc ./
ll ./
# -rw-r--r-- 1 1-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R2_paired_fastqc.zip
# drwxr-xr-x 2  multiqc_data
# -rw-r--r-- 1  multiqc_report.htmlll -h multiqc_data/
# total 36K
# -rw-r--r-- 1 multiqc_fastqc.txt
# -rw-r--r-- 1 multiqc_general_stats.txt
# -rw-r--r-- 1 multiqc.log
# -rw-r--r-- 1 multiqc_sources.txt
#也可以对多个文件夹下fastqc生成的结果进行统计
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results#或者对指定文件夹下fastqc生成的结果进行统计
multiqc data/*_fastqc.zip
multiqc data/sample_1*# -x/--ignore 指定的文件夹/文件不进行统计处理
multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip#MultiQC忽略指定文件
multiqc . --ignore-samples sample_3*#MultiQC only search the listed files which contain a list of file paths, one per row. 
#文件每行对应一个文件
multiqc --file-list my_file_list.txt# -n/--name  更改输出文件的名称
#默认输出文件名:
# multiqc_data
# multiqc_report.html# -o/-outdir 指定输出目录# -f 覆盖同名目录
#-f, --force Overwrite any existing reports# -v/--verbose 当存在两个同名的文件时,增加此参数可以区别两者,避免前者的数据被后者所覆盖#默认情况下,记录的格式是:绝对路径和文件名
#By default, --dirs will prepend the entire path to each sample name.
#-dd/--dirs-depth num 指定记录num层路径;当num为负整数时,则从路径的起始处取#记录绝对路径
multiqc -d .
# analysis_1 | results | type | sample_1 | file.log
# analysis_2 | results | type | sample_2 | file.log
# analysis_3 | results | type | sample_3 | file.log
#num   4          3        2        1
#num   -1         -2       -3       -4#记录一层路径
multiqc -d -dd 1 .
# sample_1 | file.log
# sample_2 | file.log
# sample_3 | file.logmultiqc -d -dd -1 .
# analysis_1 | file.log
# analysis_2 | file.log
# analysis_3 | file.log# -t, --template [default|default_dev|geo|sections|simple],Report template to use.
#指定输出报告的模板,模板有:default|default_dev|geo|sections|simple# --pdf     指定输出文件是PDF文件,默认输出是HTML文件
#指的注意的是,此参数需搭配参数-t simple, 且pandoc模块必须存在,否则无法生成pdf
multiqc -t simple --pdf -n test ./#-k/--data-format  解析数据目录,默认格式是:tsv; 此参数主要针对有大量样本需要处理
#-k, --data-format [tsv|json|yaml] Output parsed data in a different format.Default: tsv# --data-dir    指定生成数据目录,默认
# --no-data-dir     指定不生成数据目录                              #-z/--zip-data-dir 压缩data directory
multiqc -n test00 -z ./
#test00.html
#test00_data.zip# -m/--modules [module name]   运行指定模块
# -e/--exclude [module name]   除指定模块,其他模块均运行                           



Fastqc 报告说明

Per base sequence quality,每个read各位置碱基的测序质量。横轴碱基的位置,纵轴 是质量分数, Quality score=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001,质量算高了。红色线代表中位数,蓝色代表平均数,黄色是25%-75%区间,触须是10%-90%区间(黄色和触须我不是特别明白)。若任一位置的下四分位数低于10或者中位数低于25,出现“警告”;若任一位置的下四分位数低于5或者中位数低于20,出现“失败,Fail”。

Per tile sequence quality,检查reads中每一个碱基位置在不同的测序小孔之间的偏离度,蓝色代表偏离度小,质量好,越红代表偏离度越大,质量越差。

Per sequence quality scores, reads质量的分布, 当峰值小于27时,警告; 当峰值小 于20时,fail。

Per base sequence content,对所有reads的每一个位置,统计ATCG四种碱基的分布,横轴为位置,纵轴为碱基含量,正常情况下每个位置每种碱基出现的概率是相近的,四条线应该平行且相近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。本结果前10个位置,每种碱基频率有明显的差别,说明有污染。当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任 一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。

Per base N content,当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。

Sequence Length Distribution,reads长度分布,当reads长度不一致时报"WARN";当有长度为0的read时报“FAIL”。

Sequence Duplication Levels,统计不同拷贝数的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。

Overrepresented sequences,一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。这个模块列出来大于全部转录组1%的reads序列,但是因为用的是前200,000条,所以其实参考意义不大,完全可以忽略。

Adapter content,接头含量

转载于:https://www.cnblogs.com/adawong/articles/7412764.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/540721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WorkerMan 入门学习之(二)基础教程-Connection类的使用

一、TcpConnection类 的使用 1、简单的TCP测试 Server.php <?php require_once __DIR__./Workerman/Autoloader.php; use Workerman\Worker; $worker new Worker(websocket://0.0.0.0:80);// 连接回调 $worker->onConnect function ($connection){echo "connecti…

71文件类型

1.kit类型 标准的SeaJs模块文件类型&#xff0c;直接对外暴露方法。 2.units类型 依赖pageJob&#xff0c;对外暴露一个名字&#xff0c;pageJob依赖暴露的名字对模块进行初始化&#xff0c;在pageJob内部逻辑自动执行init方法&#xff1b; 由于没有对外暴露方法&#xff0c;只…

七牛大数据平台的演进与大数据分析实践--转

原文地址&#xff1a;http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_sourceinfoq&utm_mediumpopular_widget&utm_campaignpopular_content_list&utm_contenthomepage 七牛大数据平台的演进与大数据分析实践 (点击放大图像…

最大化切割段

Description: 描述&#xff1a; In this article we are going to review classic dynamic programing problem which has been featured in interview rounds of amazon. 在本文中&#xff0c;我们将回顾在亚马逊的采访轮次中已经介绍的经典动态编程问题。 Problem statemen…

响应数据传出(springMVC)

1. SpringMVC 输出模型数据概述 提供了以下几种途径输出模型数据&#xff1a; ModelAndView: 处理方法返回值类型为 ModelAndView 时, 方法体即可通过该对象添加模型数据 Map 及 Model: 入参为 org.springframework.ui.Model、 org.springframework.ui.ModelMap 或 java.uti…

微信网页扫码登录的实现

为了让用户登录网站的门槛更低&#xff0c;微信扫一扫登录变得越来越广泛&#xff0c;所以最近加紧赶制的项目中有用到这个功能&#xff0c;此篇文字的出发点基于微信开放平台已经配置好域名&#xff08;80端口&#xff09;并且认证成功获得app_id和secret并有权限调用微信的接…

希尔密码_希尔密码| 网络安全

希尔密码Now, Hill Cipher is a very basic cryptographic technique which is used to convert a string into ciphertext. This technique was invented by an American Mathematician "Lester Sanders Hill". This is a polygraphic substitution cipher because …

Android 那些年,处理getActivity()为null的日子

在日常开发中的时候&#xff0c;我们经常会使用ViewPagerFragment进行视图滑动&#xff0c;在某些部分逻辑也许我们需要利用上下文Context&#xff08;例如基本的Toast&#xff09;&#xff0c;但是由于Fragment只是衣服在Activity容器的一个试图&#xff0c;如果需要拿到当前的…

设计模式状态模式uml_UML的完整形式是什么?

设计模式状态模式umlUML&#xff1a;统一建模语言 (UML: Unified Modeling Language) UML is an abbreviation of Unified Modeling Language. In the field of software engineering, it is a visual modeling language that is standard in quality. It makes it available t…

vqa mcb_MCB的完整形式是什么?

vqa mcbMCB&#xff1a;微型断路器 (MCB: Miniature Circuit Breaker) MCB is an abbreviation of "Miniature Circuit Breaker". MCB是“微型断路器”的缩写 。 It is an automatically operated electronics switch. It is designed to detect the fault in the e…

CentOS忘记普通用户密码解决办法

普通用户忘记密码 1.使用root用户登录系统&#xff0c;找到/etc/shadow文件。 2.找到用户名开头的那一行&#xff0c;例如我的用户名为pds,&#xff0c;以冒号为分割符&#xff0c;红色部分是密码加密部分 pds:$1$CivopRgF$ajWQ54W1XJbifFjm05Jk/1:15353:0:99999:7::: 3.pds是我…

esp32的GPIO操作

对于任何一款芯片&#xff0c;GPIO接口是其最基本的组成部分&#xff0c;也是一款芯片入门的最基本操作&#xff0c;下面论述下 关于esp32开发版的GPIO操作&#xff0c;本文中重点讲解下 关于如何创建eclipse工程&#xff0c;并通过eclipse下载到esp32中去&#xff08;本文的工…

聚焦数据的力量——全球领先安全技术分享会在京召开

ZD至顶网安全频道 04月21日 综合消息&#xff1a; 由中国网络安全与信息化产业联盟、360共同主办的“数据的力量——全球领先安全技术分享会“今日在北京成功召开。来自政府、企业、教育、投资机构和产业联盟的300多位嘉宾参加了本次技术分享会&#xff0c;共同就安全产业发展趋…

如何设置Fedora默认从命令行启动?

2019独角兽企业重金招聘Python工程师标准>>> Sumary:因为在Fedora中没有/etc/initab文件我们不方便从这里设置它的runlevel target&#xff0c;但是Linux又给我们提供了一个强悍的工具systemd,我们可以用system来链接默认的启动级别&#xff0c;所以开始吧&#xff…

工控领域的网络攻击 食尸鬼行动深入解读Operation Ghoul

卡巴斯基于2016年6月监测到了Operation Ghoul&#xff08;食尸鬼行动&#xff09;网络攻击&#xff0c;Operation Ghoul针对30多个国家的工业、制造业和工程管理机构发起了定向渗透入侵。目前&#xff0c;卡巴斯基发现&#xff0c;有130多个机构已被确认为这类攻击的受害者。 该…

tomcat:sessionId生成机制导致tomcat启动过慢问题

为什么80%的码农都做不了架构师&#xff1f;>>> http://blog.csdn.net/u013939884/article/details/72860358 转载于:https://my.oschina.net/wii01/blog/1527731

Codeforces Round #431 (Div. 2)

A. Odds and Endstime limit per test1 secondmemory limit per test256 megabytesinputstandard inputoutputstandard outputWhere do odds begin, and where do they end? Where does hope emerge, and will they ever break? Given an integer sequence a1, a2, ..., a…

ping/pong模式_PING的完整形式是什么?

ping/pong模式PING&#xff1a;数据包InterNet Groper (PING: Packet InterNet Groper) In the sector of networking of computers, PING is an abbreviation of Packet InterNet Groper. It is utility software or system software of administration of computer network u…

Gartner: 2017年11大信息安全技术(解读版)

在2017年6月份举办的第23届Gartner安全与风险管理峰会上&#xff0c;Gartner的Fellow——Neil McDonald发布了2017年度的11个最新最酷的信息安全技术&#xff0c;比往年的10大技术多了一项。以往都是通过互联网了解Gartner的各种信息和报告。这次&#xff0c;本人有幸亲临现场&…

博客url什么形式_URL的完整形式是什么?

博客url什么形式URL&#xff1a;统一资源定位符 (URL: Uniform Resource Locator) URL is an abbreviation of Uniform Resource Locator. Uniform Resource Locator which is informally or casually known as a web address is addressed as a resource of the web, which ca…