从ncbi下载数据
One of the most important steps in genome analysis is gathering the data required for downstream research. This sometimes requires us to have the assembled reference genomes (mostly bacterial) so we can verify the classifiers trained or bins detected are correct and useful. This is often achieved using a BLAST search against the candidate reference genomes. However, it is very convenient to have our own BLAST database set up in advance if you are going to make a lot of search queries in future. Using the NCBI Web BLAST might not be a viable option if the project is long-running one with many experiments.
基因组分析中最重要的步骤之一就是收集下游研究所需的数据。 有时这需要我们具有组装的参考基因组(主要是细菌),因此我们可以验证训练的分类器或检测到的垃圾箱是正确且有用的。 这通常是通过对候选参考基因组进行BLAST搜索来实现的。 但是,如果将来您要进行很多搜索查询,则预先设置我们自己的BLAST数据库非常方便。 如果该项目长期运行并进行了许多实验,则使用NCBI Web BLAST可能不是一个可行的选择。
In this article, we will see how we can download the set of all the available bacterial references (or assemblies) from either GenBank or RefSeq databases. This wasn't quite straightforward, hence we present an article dedicated to this particular task.
在本文中,我们将看到如何从GenBank或RefSeq数据库下载所有可用细菌参考(或程序集)的集合。 这并不是很简单,因此我们提供了一篇专门针对此特定任务的文章。
下载组装信息 (Downloading Assembly Information)
Assembly metadata is available at NCBI under the URL: ftp://ftp.ncbi.nih.gov/genomes/. Here all the directories are listed and can be visited via any modern browser. In this article, we are concerned about the reference genomes from either GenBank or RefSeq databases.
程序集元数据可在NCBI的URL下找到: ftp : //ftp.ncbi.nih.gov/genomes/ 。 这里列出了所有目录,并且可以通过任何现代浏览器进行访问。 在本文中,我们关注来自GenBank或RefSeq数据库的参考基因组。
In both databases, bacterial references are available under following paths;
在这两个数据库中,可以通过以下路径获得细菌参考。
Genbank: ftp://ftp.ncbi.nih.gov/genomes/genbank/bacteria/
Genbank: ftp : //ftp.ncbi.nih.gov/genomes/genbank/bacteria/
RefSeq: ftp://ftp.ncbi.nih.gov/genomes/refseq/bacteria/
参考序列: ftp : //ftp.ncbi.nih.gov/genomes/refseq/bacteria/
Furthermore, the information regarding individual assemblies are available under;
此外,有关单个装配的信息可在下面获得;
Genbank: ftp://ftp.ncbi.nih.gov/genomes/genbank/bacteria/assembly_summary.txt
Genbank: ftp : //ftp.ncbi.nih.gov/genomes/genbank/bacteria/assembly_summary.txt
RefSeq: ftp://ftp.ncbi.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
参考序列: ftp : //ftp.ncbi.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
Use following command to download the summary file.
使用以下命令下载摘要文件。
wget ftp://ftp.ncbi.nih.gov/genomes/genbank/bacteria/assembly_summary.txt#ORwget ftp://ftp.ncbi.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
Our first step would be to download this text file. The first line of the file will say the following information.
我们的第一步是下载此文本文件。 文件的第一行将显示以下信息。
# See ftp://ftp.ncbi.nlm.nih.gov/genomes/README_assembly_summary.txt for a description of the columns in this file.
自述文件的关键信息摘要 (The critical information summary of the readme)
- Column 12: “assembly_level”: this field could be one of the choices; “Complete Genome”, “Scaffold”, “Chromosome”, “Contig”. Usually, the “Complete Genome” rows are important for analysis. 第12列:“ assembly_level”:此字段可以是选择之一; “完整基因组”,“脚手架”,“染色体”,“重叠群”。 通常,“完整基因组”行对于分析很重要。
- Column 14: “genome_rep”: Could be either “Full” or “Partial”. Full contains assemblies from WGS reads. 第14列:“ genome_rep”:可以为“ Full”或“ Partial”。 完整包含来自WGS读取的程序集。
- Column 11: “version_status”: Could be “latest”, “replaces” or “suppressed”. It might be common to go with the “latest” assembly. 第11栏:“ version_status”:可以是“最新”,“替换”或“被抑制”。 使用“最新”程序集可能很常见。
Column 20: “ftp_path”: Path to download the files. In the assembly path, you can use the wildcard file ending “*_genomic.fna.gz” to select the fast assembly file.
第20列:“ ftp_path”:下载文件的路径。 在汇编路径中,可以使用以“ * _genomic.fna.gz ”结尾的通配符文件来选择快速汇编文件。
In the Bash terminal, you can use the following command to obtain the FTP paths for downloading the references.
在Bash终端中,可以使用以下命令获取用于下载引用的FTP路径。
awk -F '\t' '{if($12=="Complete Genome") print $20}' assembly_summary.txt > assembly_summary_complete_genomes.txt
Here we chose Column 12 to be “Complete Genome”. Now in the assembly_summary_complete_genomes.txt
file you’ll see the available FTP paths to download the genomes from. If you check the file it’ll look like the following (first 3 lines);
在这里,我们选择第12列作为“完整基因组”。 现在,在assembly_summary_complete_genomes.txt
文件中,您将看到可用于从中下载基因组的FTP路径。 如果您检查文件,它将类似于以下内容(前三行);
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/010/525/GCF_000010525.1_ASM1052v1
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/007/365/GCF_000007365.1_ASM736v1
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/007/725/GCF_000007725.1_ASM772v1
下载Fasta文件 (Downloading the Fasta Files)
It is better to create a folder as references using the following command.
最好使用以下命令创建一个文件夹作为参考。
mkdir references
Now you can execute the following command to download the gzipped FASTA files.
现在,您可以执行以下命令来下载压缩后的 FASTA文件。
for next in $(cat assembly_summary_complete_genomes.txt); do wget -P
Now you’ll see gz files for all the assemblies that satisfy your condition specified in the awk command before.
现在,您将看到满足awk命令之前指定条件的所有程序集的gz文件。
You will be required to either extract them or gather them to a single file for downstream analysis. We suggest the readers have a look at the following article to see how to make a BLAST database.
您将需要提取它们或将它们收集到单个文件中以进行下游分析。 我们建议读者阅读以下文章,以了解如何制作BLAST数据库。
We hope this article would help future researchers to obtain datasets needed for their bacterial studies. Happy reading. Cheers!
我们希望本文能帮助未来的研究人员获得细菌研究所需的数据集。 祝您阅读愉快。 干杯!
翻译自: https://medium.com/computational-biology/how-to-download-all-bacterial-assemblies-from-ncbi-35f4bc5435f9
从ncbi下载数据
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387918.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!