chopper简介
chopper是NanoFilt和NanoLyse的Rust语言版本,适用于长reads测序(如PacBio和纳米孔测序ONT)的过滤和修剪fastq文件。
chopper相对于python编写的NanoFilt和NanoLyse,运行输出相同结果的时间更短,且NanoFilt和NanoLyse现已停止更新,选择使用chopper会有更高的效率。
github地址: https://github.com/wdecoster/chopper
chopper安装
# conda安装
conda install -c bioconda chopper -y# linux发行版zip包安装
mkdir chopper && cd chopper
wget https://github.com/wdecoster/chopper/releases/download/v0.8.0/chopper-linux.zip
unzip chopper-linux.zip
# 添加执行权限
chmod +x chopper
# 加入环境变量
echo "export PATH=/software/chopper/:$PATH" >> ~/.bashrc
source ~/.bashrcchopper -h
运行示例
# 对于fastq.gz文件作为输入+管道+过滤质量低于10、长度低于1000bp的序列,gzip压缩为.gz文件
gunzip -c sample.fastq.gz | chopper -q 10 -l 1000 \
| gzip > sample.filtered.fastq.gz# fastq文件作为输入
chopper -q 10 -l 500 -i sample.fastq > sample.filtered.fastq.gz# fastq.gz文件作为输入,并对输出文件进行压缩
chopper -q 10 -l 500 -i sample.fastq.gz \
| gzip > sample.filtered.fastq.gz
参数说明:
-l ,–minlength :过滤掉小于指定长度的序列
-q , --quality :过滤掉低于指定质量序列
-i, input: 输入文件,默认从stdin读取
–maxlength :过滤掉超过此长度的序列, 默认2147483647
–threads:线程数,默认4
–contam: 参考fasta文件检查潜在的污染,默认None
–minGC:过滤掉低于指定GC含量此百分比的序列,默认0
–maxGC:过滤掉大于指定GC含量此百分比的序列, 默认1.0
–headcrop:从头部切掉n bp,默认0
–tailcrop:尾部切掉n bp,默认0