分析模块,封装了Trinity程序包中的“align_and_estimate_abundance.pl”脚本,进行原始数据与转录本序列的比对和表达量计算。其中,核心程序为,Bowtie或Bowtie2进行原始数据与转录本序列的比对,RSEM根据比对结果进行表达量的计算。核心程序相关参数为,Bowtie:'--all --best --strata -m 300 --chunkmbs 512'。Bowtie2:'--no-mixed --no-discordant --gbar 1000 --end-to-end'。RSEM:默认参数。
分析模块,输入构建好索引的转录本参考文件(由分析模块“Build Transcript Reference Index”生成),以及转录组测序原始数据(fastq文件)。这里,推荐测序原始数据,先通过分析模块“Trimmomatic PE/SE”进行去接头污染和质量控制。
分析模块,将转录组测序原始数据(fastq文件数据)比对回转录本参考序列,生成bam格式的比对结果文件,转录本水平表达结果文件,基因水平表达结果文件。
注:bam文件,可以利用IGV软件打开,查看比对结果。
IGV安装和使用,包含Windows桌面版和iPad版,官方网站提供了详细的文档。参考网站:(http://www.broadinstitute.org/igv/)。
输入测序数据分两种模式(SE/PE):
选择Paire-End时,分析模块处理双末端测序数据,需提供2个fastq原始数据文件,分别对应左端和右端测序结果。
选择Single-Single时,分析模块处理单末端测序数据,需提供1个fastq原始数据文件。
输入:
1、构建好索引的转录本参考文件,由分析模块“Build Transcript Reference Index”生成。
2、fastq格式的测序原始数据文件。
示例:
@ecoli_section_9642_10205_3:0:0_1:0:0_0/1
CCCGCCATCTCTTGCAGAAGCGCCTGTTGCTGTACATGGTGCATTCGCATCCCCATCCCTACGCGGCTTC
+
2222222222222222222222222222222222222222222222222222222222222222222222
如果,转录组是链特异性建库测序,则需要设置链特异性文库类型。
PE测序,FR表明paired-reads与转录本一致,RF表明paired-reads与转录本反向互补链一致。
SE测序,F表明read与转录本对应,R表明read对应转录本反向互补链。
输出:
1、bam格式的比对结果文件。
关于Bowtie输出的BAM/SAM格式介绍,参考:(http://bowtie-bio.sourceforge.net/manual.shtml#sam-bowtie-output)。
关于Bowti2输出的BAM/SAM格式介绍,参考:(http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#sam-output)。
2、RSEM转录本水平表达结果文件。
其中,每一列的含义如下所示:
ltranscript_id,transcript name of this transcript.
lgene_id,gene name of the gene which this transcript belongs to.
llength,this transcript's sequence length.
leffective_length,counts only the positions that can generate a valid fragment.
lexpected_count,the sum of the posterior probability of each read comes from this transcript over all reads.
lTPM,Transcripts Per Million. It is a relative measure of transcript abundance. The sum of all transcripts' TPM is 1 million.
lFPKM,Fragments Per Kilobase of transcript per Million mapped reads.
lIsoPct,It is the percentage of this transcript's abandunce over its parent gene's abandunce. If it’s parent gene has only one isoform, this field will be set to 100.
3、RSEM基因水平表达结果文件。
其中,一些列的含义如下所示:
lgene_id,gene name of the gene
ltranscript_id(s),a comma-separated list of transcript_ids belonging to this gene.
lLength,weighted average of its transcripts' lengths (weighted by 'IsoPct').
leffective_length,weighted average of its transcripts' effective lengths (weighted by 'IsoPct').
lexpected_count、TPM、FPKM,为对应基因包含的所有转录本的数值求和。
后续的下游分析,如,差异表达分析、热图、PCA等。通常情况下,基于expected_count和FPKM的数值进行分析,即基因原始片段数估算结果和FPKM数值估计结果。
分析模块引用了Trinity v2.0.6程序包中的“align_and_estimate_abundance.pl”脚本(https://github.com/trinityrnaseq/trinityrnaseq/wiki)。
分析模块引用了Bowtie-0.12.7软件(http://bowtie-bio.sourceforge.net/index.shtml)。
分析模块引用了Bowtie2-2.1.0软件(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。
分析模块引用了RSEM-1.2.26软件(http://deweylab.github.io/RSEM/)。
相关文献如下所示:
Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, Macmanes MD, Ott M, Orvis J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey CN, Henschel R, Leduc RD, Friedman N, Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nat Protoc. 2013 Aug;8(8):1494-512. Open Access in PMC doi: 10.1038/nprot.2013.084. Epub 2013 Jul 11. PubMed PMID: 23845962.
Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10:R25.
Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359.
Bo Li and Colin N Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics201112:323.