Archives

NCBI Taxonomy 数据库更新,提供lineage、host信息

我们分析metagenome数据离不开使用NCBI的Taxonomy数据,NCBI Taxonomy 提供了一棵物种树,其实每个节点(Node)都分配了一个数字标识符,可以唯一描述一个系统分类信息。

NCBI Taxonomy 数据库提供了一个 taxdump.tar.gz, 并记录了节点的描述信息(names.dmp)以及树的上下游信息(nodes.dmp), 刚刚发布的更新版本提供了额外的lineage信息(rankedlineage.dmp) 以及 host 信息。

另外NCBI已经不再给Strain水平分配这种数字标识符,所以NCBI Taxonomy 提供了 typematerial.dmp 文件用于关联种和菌株(strain)的映射关系。

利用新的数据库我们可以很容易对一些短序列分类器进行注释, 常用的操作如下:

1、 格式化数据库,一般可以使用 tsv-utils

cut -f1,5 fullnamelineage.dmp | sed ‘s/ $//’ >fullnamelineage.db cut -f1,5 taxidlineage.dmp | sed ‘s/ $//’ >taxidlineage.db cut -f1,3 host.dmp >host.db

2、 典型使用场景

下面以Kraken为例子,介绍如何格式化为有效信息, kraken的结果:

C E00552:27:HJ2JYALXX:4:1101:5233:1801 435590 203 816:40 435590:21 A:31 435590:13 0:53 […]