Archives

Categories

如何并行下载NCBI拼装数据库的Genbank和Refseq数据

NCBI 拼装数据库目前(时间:2017-10-09)已经超过了 10万个基因组数据, Genbank拼装版本已经超过了12万, 下面介绍如何下载这些数据,很多 metagenome reads 序列分类软件都需要这些参考基因组数据, 下载流程主要通过NCBI ASSEMBLY Report 获取基因组数据在FTP的位置.

前面介绍过 Aspera: 数据高速上传下载的利器:Aspera及其在生命科学中的应用,为什么还要使用wget下载呢, Aspera下载小文件其实不是很划算,建立连接很花时间,还没有wget快, 当然可以直接下载整个ASSEMBLY目录, 但是里面有很多个头比较大的东西我们分根本不需要, 根据实践经验, 使用NCBI ASSEMBLY Report文件作为索引下载需要的文件是比较好的选择.

1 获取NCBI的Assembly数据库目录结构

grep -P -v  ^"#" assembly_summary_refseq.txt | cut -f20  | grep -w -v  "na"   >gcf.txt
grep -P -v  ^"#" assembly_summary_genbank.txt | cut -f20  | grep -w -v  "na"  >gca.txt

2 下载数据

genome-download  gcf.txt gff  GCF  2>log.txt&
genome-download  gca.txt gff  GCF  2>log.txt&

通过使用 log.txt 可以查看失败的下载条目. 可以重新调用genome-download下载, 通过这两步可以轻松下载NCBI的基因组拼装数据.

genome-download 可以通过Github 仓库: ncbi-utils 下载.

后面会介绍如何用好这些下载的数据, 比如: 菌株鉴定,序列分类等.

本文材料为 BASE (Biostack Applied bioinformatic SEies ) 课程 Linux Command Line Tools for Life Scientists 材料, 版权归 上海逻捷信息科技有限公司 所有.

Last Upate: 2017-10-09 11:54 AM

Comments are closed.