可能出现的问题:
*个人电脑上遇到不能collect memery的情况,是电脑内存较少,建议分成用2G左右的数据进行组装。
* Seed.fasta #用于起始组装的种子序列,NOVOPlasty安装软件目录下有这个文件,就叫这个名字,作者亲测还是这个种子序列最好用。
----------------------------------------------------------------
叶绿体是绝大多数陆生植物都有的细胞器,让人惊奇的是,植物叶绿体和线粒体一样,都有着自己一套遗传物质。本文介绍如何用高通量测序数据利用两款常用的叶绿体基因组组装软件(NOVOPlasty和Get Organelle)来组装完整的叶绿体基因组。
两个软件都是命令工行
1.软件安装
NOVOPlasty
1.1系统和语言安装
NOVOPlasty是由perl语言写的,先让自己的电脑安装perl语言的编译器,
https://www.perl.org/
建议使用Linux系统,电脑已经是linux 系统或者macos的就不用管了,windows系统可以下载subsystem for windows具体的操作就不再这里描述了,可以参考下面两个连接里面的内容。确保你的电脑是有大于等于8G的运行内存。
WSL(Windows Subsystem for Linux)的安装与使用www.cnblogs.com安装好了运行Ubuntu 18的系统
1.2 NOVOPLasty 安装
在命令行输入
git clone ndierckx/NOVOPlasty
下载
ndierckx/NOVOPlastygithub.com上面的连接是NOVOPlasty在github的连接,有问题可以参考
1.3 运行NOVOPlasty
运行NOVOPlasty非常简单
perl +NOVOPLasty的安装路径/NOVOPlasty.pl -c config.txt
就可以了,重点在于NOVOPlasy的配置文件也就是cofig.txt的设置
Project:
-----------------------
Project name = #你的项目名称
Type = mito #组装类型叶绿体chloro 或者是线粒体mito
Genome Range = 12000-22000 #基因组的预估大小,基本上在16K左右吧,找个近缘物种看看大小
K-mer = 33 #用于组装的k-mer 的大小,并不是越大越好,一般不建议更改
Max memory = #最大运行内存
Extended log = 0
Save assembled reads = no
Seed Input = Seed.fasta #用于起始组装的种子序列,NOVOPlasty安装软件目录下有这个文件,作者亲测还是这个种子序列最好用,注意写绝对路径。
Extend seed directly = no
Reference sequence = /path/to/reference_file/reference.fasta (optional)#选填,参考的近缘物种参考序列
Variance detection = no
Heteroplasmy = #检测异质性的参数,不填
HP exclude list =
Chloroplast sequence = /path/to/chloroplast_file/chloroplast.fasta (only for "mito_plant" option) #组装植物线粒体的时候填,提供本物种的叶绿体序列
Dataset 1:
-----------------------
Read Length = 151#高通量reads读长
Insert size = 300 #插入片段大小,测序建库的时候有
Platform = illumina #目前只支持illumina等大公司,BGI不支持注意
Single/Paired = PE #双端测序还是单端测序
Combined reads =
Forward reads = /path/to/reads/reads_1.fastq #前reads的文件路径
Reverse reads = /path/to/reads/reads_2.fastq #后reads 的文件路径
Optional:
-----------------------
Insert size auto = yes
Use Quality Scores = no
直接更改config.txt文件内容就可以了。
1.4 结果解读
组装质量最好会出现一个circular assembly 的文件,不过一般情况下会有两个option,这两个文件都是正确的,是叶绿体的两个反向重复区域的基因顺序不确定造成的。这个时候想确定哪一个正确的时候,就要做基因注释或者PCR验证。
还有的时候文件会出现*的碱基,这个时候也是软件不能处理一些ambiguous的区域,需要人为将两端的序列比对一下,去掉*号,我组装的结果都没有出现这样的情况,但是对于结果也检查一下有无这种情况出现。
组装质量差的情况下,会出下多个option组装结果,或者仅有多个contigs,这个时候比较麻烦了,就要选择reference genome重新组装或者更换其他的软件,getorganelle也是用于组装叶绿体的软件,据这个软件作者来说,相较于NOVOPlasty有更高的准确性,NOVOplasty速度快,使用简单,能够满足大多数的需求。有时间再把getorganelle软件的用法写一写。
后期检查组装结果的话建议对基因组进行注释,软件推荐Geseq基因注释 rna注释,可视化真的是一键到位,操作也是非常傻瓜,有需要的话给大家介绍。