简介
MEGAHIT 是一款超快速且内存高效的下一代测序(NGS)组装工具,专门针对宏基因组进行了优化,同时在处理常规单个基因组(小型或哺乳动物规模)以及单细胞组装任务时也有出色表现。
主要特点与功能:
- **超快、内存高效:**MEGAHIT 采用并行化和简洁的 de Bruijn 图(sdbg)策略,使其能够迅速处理大量测序数据,同时对内存占用极低。这一特性使其特别适合处理宏基因组学研究中的海量数据集,这类研究中数据量巨大且计算资源可能受限。
- **宏基因组组装:**MEGAHIT 专长于组装来自含有多种微生物群体混合样本的短读序列。通过从这些混合群体中重建单个基因组或基因组区域,MEGAHIT 为后续分析(如分类学分类、功能注释及新基因或物种的识别)提供了便利。
- **常规单基因组组装:**尽管侧重于宏基因组,MEGAHIT 同样适用于常规单基因组组装任务,无论是小型基因组还是哺乳动物大小的大型基因组。它能够有效应对不同复杂度和大小的基因组项目,为全基因组测序数据提供高质量的组装结果。
- **单细胞组装:**MEGAHIT 对单细胞测序数据同样具有良好的适用性。单细胞测序数据通常包含较低覆盖度和较高变异率,MEGAHIT 的算法能够适应这些特性,尽可能准确地从单个细胞的测序数据中重建基因组信息。
还有一款软件SPAdes也常在宏基因组组装中见到,在介绍中好像比MEGAHIT组装效果好,但是需要消耗更多时间和资源,而且在使用中因为资源不足而报错…
spades:finished abnormally, OS return value: -9 # 因为没内存了
安装
name: assembly
channels:- conda-forge- bioconda- defaults- nodefaults
dependencies:- megahit=1.2.9- quast=5.2.0
mamba env create -f assembly.yamlmamba activate assembly
组装
megahit \
-1 R1.fastq \
-2 R2.fastq \
--presets meta-large \
--out-dir Assembly \
--out-prefix final \
--num-cpu-threads 96 \
--memory 0.9 \
--verbose
参数
- fastq序列可以是单端也可以是双端,也可以是单端和双端混合输入(详细参考Reference)
- –memory 0-1之间的浮点数,表示最多使用90%比例的内存
- –presets override a group of parameters; possible values 预先设置好的几种kmer列表
meta '--min-count 2 --k-list 21,41,61,81,99' (generic metagenomes, defaultmeta-sensitive '--min-count 2 --k-list 21,31,41,51,61,71,81,91,99' (more sensitive but slower)
meta-large '--min-count 2 --k-list 27,37,47,57,67,77,87' (large & complex metagenomes, like soil)
bulk '--min-count 3 --k-list 31,51,71,91,99 --no-mercy' (experimental, standard bulk sequencing with >= 30x depth)
single-cell '--min-count 3 --k-list 21,33,55,77,99,121 --merge_level 20,0.96' (experimental, single cell data)
Reference
https://www.metagenomics.wiki/tools/assembly/megahit
https://github.com/voutcn/megahit
https://github.com/voutcn/megahit/wiki
https://github.com/voutcn/megahit/wiki/Assembly-Tips
http://www.ncbi.nlm.nih.gov/pubmed/25609793