MultiQC使用指导

官网资料
文献：MultiQC --- summarize analysis results for multiple tools and samples in a single report
参考资料一：整合 fastq 质控结果的工具

简介

MultiQC 是一个基于Python的模块, 用于整合其它软件的报告结果, 目前支持以下软件的结果整合:

Pre-alignment tools
这里写图片描述

Alignment tools
这里写图片描述

Post-alignment tools
这里写图片描述

参数说明及example


#如对fastqc生成的结果进行统计
cd fastqc_out
multiqc ./
ll ./
# -rw-r--r-- 1 1-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R2_paired_fastqc.zip
# drwxr-xr-x 2  multiqc_data
# -rw-r--r-- 1  multiqc_report.htmlll -h multiqc_data/
# total 36K
# -rw-r--r-- 1 multiqc_fastqc.txt
# -rw-r--r-- 1 multiqc_general_stats.txt
# -rw-r--r-- 1 multiqc.log
# -rw-r--r-- 1 multiqc_sources.txt

#也可以对多个文件夹下fastqc生成的结果进行统计
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results#或者对指定文件夹下fastqc生成的结果进行统计
multiqc data/*_fastqc.zip
multiqc data/sample_1*# -x/--ignore 指定的文件夹/文件不进行统计处理
multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip#MultiQC忽略指定文件
multiqc . --ignore-samples sample_3*#MultiQC only search the listed files which contain a list of file paths, one per row. 
#文件每行对应一个文件
multiqc --file-list my_file_list.txt# -n/--name  更改输出文件的名称
#默认输出文件名：
# multiqc_data
# multiqc_report.html# -o/-outdir 指定输出目录# -f 覆盖同名目录
#-f, --force Overwrite any existing reports# -v/--verbose 当存在两个同名的文件时，增加此参数可以区别两者，避免前者的数据被后者所覆盖#默认情况下，记录的格式是：绝对路径和文件名
#By default, --dirs will prepend the entire path to each sample name.
#-dd/--dirs-depth num 指定记录num层路径；当num为负整数时，则从路径的起始处取#记录绝对路径
multiqc -d .
# analysis_1 | results | type | sample_1 | file.log
# analysis_2 | results | type | sample_2 | file.log
# analysis_3 | results | type | sample_3 | file.log
#num   4          3        2        1
#num   -1         -2       -3       -4#记录一层路径
multiqc -d -dd 1 .
# sample_1 | file.log
# sample_2 | file.log
# sample_3 | file.logmultiqc -d -dd -1 .
# analysis_1 | file.log
# analysis_2 | file.log
# analysis_3 | file.log# -t, --template [default|default_dev|geo|sections|simple],Report template to use.
#指定输出报告的模板，模板有：default|default_dev|geo|sections|simple# --pdf     指定输出文件是PDF文件，默认输出是HTML文件
#指的注意的是，此参数需搭配参数-t simple, 且pandoc模块必须存在，否则无法生成pdf
multiqc -t simple --pdf -n test ./#-k/--data-format  解析数据目录，默认格式是：tsv; 此参数主要针对有大量样本需要处理
#-k, --data-format [tsv|json|yaml] Output parsed data in a different format.Default: tsv# --data-dir    指定生成数据目录，默认
# --no-data-dir     指定不生成数据目录                              #-z/--zip-data-dir 压缩data directory
multiqc -n test00 -z ./
#test00.html
#test00_data.zip# -m/--modules [module name]   运行指定模块
# -e/--exclude [module name]   除指定模块，其他模块均运行

Fastqc 报告说明

Per base sequence quality，每个read各位置碱基的测序质量。横轴碱基的位置，纵轴是质量分数， Quality score=-10log10p（p代表错误率），所以当质量分数为40的时候，p就是0.0001，质量算高了。红色线代表中位数，蓝色代表平均数，黄色是25%-75%区间，触须是10%-90%区间（黄色和触须我不是特别明白）。若任一位置的下四分位数低于10或者中位数低于25，出现“警告”；若任一位置的下四分位数低于5或者中位数低于20，出现“失败，Fail”。

Per tile sequence quality，检查reads中每一个碱基位置在不同的测序小孔之间的偏离度，蓝色代表偏离度小，质量好，越红代表偏离度越大，质量越差。

Per sequence quality scores, reads质量的分布, 当峰值小于27时，警告；当峰值小于20时，fail。

Per base sequence content，对所有reads的每一个位置，统计ATCG四种碱基的分布，横轴为位置，纵轴为碱基含量，正常情况下每个位置每种碱基出现的概率是相近的，四条线应该平行且相近。当部分位置碱基的比例出现bias时，即四条线在某些位置纷乱交织，往往提示我们有overrepresented sequence的污染。本结果前10个位置，每种碱基频率有明显的差别，说明有污染。当任一位置的A/T比例与G/C比例相差超过10%，报"WARN"；当任一位置的A/T比例与G/C比例相差超过20%，报"FAIL"。

Per base N content，当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生“N”，统计N的比率。正常情况下，N值非常小。当任意位置的N的比例超过5%，报"WARN"；当任意位置的N的比例超过20%，报"FAIL"。

Sequence Length Distribution，reads长度分布，当reads长度不一致时报"WARN"；当有长度为0的read时报“FAIL”。

Sequence Duplication Levels，统计不同拷贝数的reads的频率。测序深度越高，越容易产生一定程度的duplication，这是正常的现象，但如果duplication的程度很高，就提示我们可能有bias的存在。横坐标是duplication的次数，纵坐标是duplicated reads的数目，以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时，报"WARN"；当非unique的reads占总数的比例大于50%时，报"FAIL“。

Overrepresented sequences，一条序列的重复数，因为一个转录组中有非常多的转录本，一条序列再怎么多也不太会占整个转录组的一小部分（比如1%），如果出现这种情况，不是这种转录本巨量表达，就是样品被污染。这个模块列出来大于全部转录组1%的reads序列，但是因为用的是前200,000条，所以其实参考意义不大，完全可以忽略。

Adapter content，接头含量

转载于:https://www.cnblogs.com/adawong/articles/7412764.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/540721.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！