Archives

使用SINTAX对16S序列进行分类:SINTAX

一、SINTAX介绍

先前介绍过RDP分类器的使用:使用RDP对16S序列进行分类:rdp_classifier, 现在介绍另外一个基于非朴素贝叶斯分类算法: SINTAX(SImple Non-Bayesian TAXonomy) , 文章见:

SINTAX: a simple non-Bayesian taxonomy classifier for 16S and ITS sequences.

SINTAX使用 Kmer (默认k=8, 放回式采样32 kmers)去计算和参考库共享Kmer, 确定最佳Hits, 迭代100次, 确定每个Level的分类(出现次数最多的分类)和可信度(出现的频率)。由此可见并不需要训练参考序列库。

后面会继续介绍 DADA2 assignTaxonomyassignSpecies
QIIME2 的 q2-feature-classifier,新文章: Optimizing taxonomic classification of marker gene sequences

二、SINTAX 实践:

1 数据库下载

SINTAX提供了 RDP training set 16 (13k seqs, with species names )SILVA 123 (1.6M seqs.)以及LTP库和Greengenes 13.5 (1.2M seqs.)

SINTAX库不需要额外训练,但是需要按照特定格式组织(具体要求),比如:

>X71857_S000021696;tax=d:Bacteria,p:Firmicutes,c:Clostridia,o:Clostridiales,f:Clostridiaceae_1,g:Clostridium_sensu_stricto,s:Clostridium_puniceum;

按照下面表进行缩写可以给下游分析提供很大便利,后续会涉及的物种分类都会按照这种格式组织,包括RDP的分类结果。

k   Kingdom o   Order
d   Domain  f   Family
p   Phylum  g   Genus
c   Class   s   Species

2 格式化数据库

使用makeudb_usearch 对下载的数据库进行构建索引UDB文件。

usearch -makeudb_sintax   rdp_16s_v16_sp.fa  -output  rdp_16s_v16_sp.udb

rdp_16s_v16_sp.fa 为推荐使用库,大部分的物种分类虽然不能准确预测,但是对于一些物种还是可以进行预测,特别是人类微生物组数据,DADA2 也提供了 assignSpecies 函数预测种水平信息。

3 序列分类

SINTAX分类器命令行接口:

usearch -sintax otus.fa -db rdp_16s_v16_sp.udb      \
        -threads 24 -strand both -sintax_cutoff 0.8 \
        -tabbedout otu.sintax 

几个参数:

-threads 指定线程数,默认使用10线程
-strand  plus或者both
-sintax_cutoff 使用0.8
-tabbedout table格式输出

输出文件为四列:

第一列:OTU编号     OTU_1
第二列:分类信息(括号包含可信度值)
        d:Bacteria(1.0000),p:Cyanobacteria/Chloroplast(1.0000),c:Chloroplast(1.0000), \
        f:Chloroplast(1.0000),g:Streptophyta(1.0000)       
第三列:strand信息  +
第四列:分类结果,使用了sintax_cutoff进行了过滤;
        d:Bacteria,p:Cyanobacteria/Chloroplast,c:Chloroplast,f:Chloroplast,g:Streptophyta

从本例可以看到分类结果为来自叶绿体序列,正常分析流程,应该包含去除线粒体和叶绿体的参数。

4 物种分类统计

使用sintax_summary可以统计不同分类水平的丰度信息:

usearch -sintax_summary otu.sintax  -otutabin otutable_counts.txt -output phylum_summary.txt -rank p

后续可以进行各种数据可视化分析

本文材料为 BASE (Biostack Applied bioinformatic SEies ) 课程 Linux Command Line Tools for Life Scientists 材料, 版权归 上海逻捷信息科技有限公司 所有。

Last Update: 2017-10-20 11:19 AM

Comments are closed.