Archives

去除嵌合体: uchime_ref和uchime3_denovo

嵌合体从序列组成来说是指一条序列由两条或者更多条生物学序列连接而成(见下面示意图),扩增子测序实验中,主要由于PCR阶段不完全延伸形成,形成的嵌合体会在随后PCR过程被放大。具体解释可参考 chimera_formation

嵌合体示意图:
Chimeras

下面讨论如何去除这些嵌合体,以及什么场景采用什么策略。

USEARCH系统去除嵌合体策略主要有:

  1. 使用嵌合体参考库 参考:uchime2_ref
  2. 从头去除嵌合体 参考:uchime3_denovo
  3. OTU构建集成: 参考: uparseunoise3

请参考: UCHIME2 算法: UCHIME2: Improved chimera detection for amplicon sequences

1. 使用嵌合体参考库

命令行接口:

usearch -uchime_ref reads.fasta -db silva.udb -uchimeout out.txt -strand plus  -threads 20  -mode balanced

主要参数解释:

 -db: 参考库, 推荐SILVA;
 -strand: 目前只支持 plus,所以序列最好是调整好方向的;
 -uchimeout: 嵌合体输出文件;
 -threads: 线程数;
 -mode: 可以使用的模型,支持 high_confidence、specific、balanced、sensitive等几种模式。\
         鉴定嵌合体比较难,所以需要权衡需要。
         high_confidence: 高假阴性;
         specific:假阴性相对high_confidence低,但假阳性率高;
         balanced:平衡模式;
         sensitive:高假阳性;
         denoised:去噪模式,很少用;

2. 从头去除嵌合体

命令行接口:

usearch -uchime3_denovo denoised.fa -uchimeout out.txt -chimeras ch.fa -nonchimeras nonch.fa

要求: uchime3_denovo 要求去噪后的序列作为输出,比如可以将DADA2构建好的seqtab序列使用uchime3_denovo进行去除嵌合体。

支持四种输出文件格式:

  -uchimeout (tabbed text filename)
  -nonchimeras (FASTA file with non-chimeric sequences)
  -chimeras (FASTA file with chimeric sequences)
  -alnout (text file with human-readable alignments)

Unoise使用的去嵌合体算法和 uchime3_denovo算法完全一致, 所以OTU流程可直接使用 unoise3

3.OTU构建集成

USEARCH OTU 构建算法 Uparse和Unoise 都已经集成了嵌合体去除算法,这部分内容会在 OTU 构建部分讲述。

4. 如何选择?

请参考解释: USEARCH UCHIME2算法

简而言之: 使用 unoise 或者 uparse 流程去除嵌合体,不要将uchime2_ref或者uchime2_denovo 嵌入 OTU 流程。
如果获得使用类似 DADA2 等denoise后的序列, 尽可能选用比较大的库进行去除嵌合体,比如SILVA和UNITE.

本文材料为 BASE (Biostack Applied bioinformatic SEies ) 课程 Linux Command Line Tools for Life Scientists 材料, 版权归 上海逻捷信息科技有限公司 所有。

Last Update: 2017/10/23 0:25

Comments are closed.