MultiQC使用指导
官网资料
文献:MultiQC --- summarize analysis results for multiple tools and samples in a single report
参考资料一: 整合 fastq 质控结果的工具
简介
MultiQC 是一个基于Python的模块, 用于整合其它软件的报告结果, 目前支持以下软件的结果整合:
Pre-alignment tools
Alignment tools
Post-alignment tools
参数说明及example
#如对fastqc生成的结果进行统计
cd fastqc_out
multiqc ./
ll ./
# -rw-r--r-- 1 1-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R2_paired_fastqc.zip
# drwxr-xr-x 2 multiqc_data
# -rw-r--r-- 1 multiqc_report.htmlll -h multiqc_data/
# total 36K
# -rw-r--r-- 1 multiqc_fastqc.txt
# -rw-r--r-- 1 multiqc_general_stats.txt
# -rw-r--r-- 1 multiqc.log
# -rw-r--r-- 1 multiqc_sources.txt
#也可以对多个文件夹下fastqc生成的结果进行统计
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results#或者对指定文件夹下fastqc生成的结果进行统计
multiqc data/*_fastqc.zip
multiqc data/sample_1*# -x/--ignore 指定的文件夹/文件不进行统计处理
multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip#MultiQC忽略指定文件
multiqc . --ignore-samples sample_3*#MultiQC only search the listed files which contain a list of file paths, one per row.
#文件每行对应一个文件
multiqc --file-list my_file_list.txt# -n/--name 更改输出文件的名称
#默认输出文件名:
# multiqc_data
# multiqc_report.html# -o/-outdir 指定输出目录# -f 覆盖同名目录
#-f, --force Overwrite any existing reports# -v/--verbose 当存在两个同名的文件时,增加此参数可以区别两者,避免前者的数据被后者所覆盖#默认情况下,记录的格式是:绝对路径和文件名
#By default, --dirs will prepend the entire path to each sample name.
#-dd/--dirs-depth num 指定记录num层路径;当num为负整数时,则从路径的起始处取#记录绝对路径
multiqc -d .
# analysis_1 | results | type | sample_1 | file.log
# analysis_2 | results | type | sample_2 | file.log
# analysis_3 | results | type | sample_3 | file.log
#num 4 3 2 1
#num -1 -2 -3 -4#记录一层路径
multiqc -d -dd 1 .
# sample_1 | file.log
# sample_2 | file.log
# sample_3 | file.logmultiqc -d -dd -1 .
# analysis_1 | file.log
# analysis_2 | file.log
# analysis_3 | file.log# -t, --template [default|default_dev|geo|sections|simple],Report template to use.
#指定输出报告的模板,模板有:default|default_dev|geo|sections|simple# --pdf 指定输出文件是PDF文件,默认输出是HTML文件
#指的注意的是,此参数需搭配参数-t simple, 且pandoc模块必须存在,否则无法生成pdf
multiqc -t simple --pdf -n test ./#-k/--data-format 解析数据目录,默认格式是:tsv; 此参数主要针对有大量样本需要处理
#-k, --data-format [tsv|json|yaml] Output parsed data in a different format.Default: tsv# --data-dir 指定生成数据目录,默认
# --no-data-dir 指定不生成数据目录 #-z/--zip-data-dir 压缩data directory
multiqc -n test00 -z ./
#test00.html
#test00_data.zip# -m/--modules [module name] 运行指定模块
# -e/--exclude [module name] 除指定模块,其他模块均运行
Fastqc 报告说明
Per base sequence quality,每个read各位置碱基的测序质量。横轴碱基的位置,纵轴 是质量分数, Quality score=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001,质量算高了。红色线代表中位数,蓝色代表平均数,黄色是25%-75%区间,触须是10%-90%区间(黄色和触须我不是特别明白)。若任一位置的下四分位数低于10或者中位数低于25,出现“警告”;若任一位置的下四分位数低于5或者中位数低于20,出现“失败,Fail”。
Per tile sequence quality,检查reads中每一个碱基位置在不同的测序小孔之间的偏离度,蓝色代表偏离度小,质量好,越红代表偏离度越大,质量越差。
Per sequence quality scores, reads质量的分布, 当峰值小于27时,警告; 当峰值小 于20时,fail。
Per base sequence content,对所有reads的每一个位置,统计ATCG四种碱基的分布,横轴为位置,纵轴为碱基含量,正常情况下每个位置每种碱基出现的概率是相近的,四条线应该平行且相近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。本结果前10个位置,每种碱基频率有明显的差别,说明有污染。当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任 一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。
Per base N content,当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。
Sequence Length Distribution,reads长度分布,当reads长度不一致时报"WARN";当有长度为0的read时报“FAIL”。
Sequence Duplication Levels,统计不同拷贝数的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。
Overrepresented sequences,一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。这个模块列出来大于全部转录组1%的reads序列,但是因为用的是前200,000条,所以其实参考意义不大,完全可以忽略。
Adapter content,接头含量