Archives

Div-seq lite 16S 数据分析流程使用教程

引言

微生物组研究的主要对象为特定环境中微生物群落的所有成员及其全部遗传与生理功能,传统的纯培养法经过百年来的发展和完善,从环境中分离和培养并鉴定菌株的研究工作已经接近极限,随着测序技术的发展,直接对环境样本中的保守的遗传标记片段比如:16S rRNA 基因进行扩增测序成为新的研究手段。 随着测序技术的发展以及测序成本的降低,越来越多的环境微生物多样性被研究,比如:人类肠道、温泉、土壤、火山口、南极冰川、深海、沼液、城市交通系统、生活用水等,对健康、农业、环境、海洋等重大系统问题产生深远影响。 人体微生物组计划(The Human Microbiome Project,HMP),对人体部位(胃肠道、口腔、鼻腔、女性生殖道以及皮肤)的微生物组进行广泛的研究,揭示出微生物组与人类健康状态息息相关,并推动了各国的微生物组计划和执行,美国更是将微生物组研究上升到了国家层面,提出了“国家微生物组计划”, 因此微生物研究也成为生物医学领域最火爆的前沿研究方向,未来精准医疗的重要组成部分。 为此,我们开发了div_seq 通用微生物组数据分析流程,快速有效的解析微生物的组成和功能,以便深入了解环境中微生物的群落结构及多样性和微生物的功能及代谢机理。

Div-seq-lite 介绍

Div-seq-lite 是完全基于 USEARCH(版本 10), USEARCH 版本10 新增了很多新的功能,包括了, 质量控制和双端序列合并 fastq_mergepairs, doi: 10.1093/bioinformatics/btv401、OTU表构建 UPARSE, Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604 、 菌群组成分析 SINTAX 多样性指数分析 (alpha 和 beta)等。

流程包括了一下几个分析内容(模块):

1. 原始数据质量控制 trimming;
2. 双端序列合并 mergepairs;
3. OTU表构建 uparse
4. 鉴定代表序列的分类 sintax;
5. 物种组成多样及其可视化 taxonomy;
6. 样品多样性分析(alpha 多样性),获得稀释曲线 alpha;
7. 样品间多样性分析 (beta 多样性)beta;

程序执行

Div-seq-lite 将所有子程序都封装在div_seq 主程序,接受多两个参数:

div_seq  [配置文件,metadata.tsv]  [子命令,uparse]

div_seq 已经添加入环境变量,可以直接在任何目录执行。

配置文件

mapping file文件

mapping_file 文件和QIIME的 mapping file 格式一致, 例子如下:

#SampleID   BarcodeSequence LinkerPrimerSequence    Description
F1_1    AGAGTA,TTAGGC   AAAAAAAAAAAAAAA F1
F1_2    GGAAGA,CTCAGA   AAAAAAAAAAAAAAA F1
F1_4    CTTCCA,GCCTTA   AAAAAAAAAAAAAAA F1
F2_1    TGACCA,ATGCCT   AAAAAAAAAAAAAAA F2
F2_2    AGTTCC,TGAATG   AAAAAAAAAAAAAAA F2
F2_3    GTACTT,CCAGCT   AAAAAAAAAAAAAAA F2
F3_1    CAGATC,GTGAAA   AAAAAAAAAAAAAAA F3
F3_2    TAATCG,ACTTGA   AAAAAAAAAAAAAAA F3
F3_3    ATCACG,TACAGC   AAAAAAAAAAAAAAA F3

Div-seq-lite目前只开放了拆分后的数据,所以 BarcodeSequence序列和LinkerPrimerSequence随意填写, 第四列为样本分组信息。

metadata文件

#metadata
project_home    /project/div_seq
project_id       data_analysis
raw_data        /project/div_seq/raw_data
mapping_file    /project/div_seq/mapping_file.txt
singleton        F

#hardware
cpus             24
parallel         8
threads          5

#trimmomatic
trimmomatic       /biostack/tools/fastx_utils/Trimmomatic-0.36/trimmomatic-0.36.jar
trim_parameter    LEADING:3  TRAILING:3  MINLEN:100
trim_adapter      /biostack/tools/fastx_utils/Trimmomatic-0.36/adapters/TruSeq3-PE-2.fa:2:30:12:1
trim_mod          SLIDINGWINDOW:4:5

#usearch
usearch          /biostack/tools/alignment/usearch-10.0.240/usearch
usearch_mergepairs -fastq_minmergelen 0 -fastq_maxmergelen 500 -fastq_maxdiffs 10 -fastq_pctid 80  -fastq_trunctail 2

#taxonomy
sintax_db        /biostack/database/sintax/rdp_16s_v16_sp.udb
sintax_cutoff    0.8
taxon_filter     NONE

该文件为空格分隔的两列文件,包含了一些基本程序执行参数,基本不需要调整。

其它问题

Div-seq-lite 提供的中间结果可以使用其它程序继续分析,比如使用 QIIME 绘制 Beta多样系 3D EMPeror 可视化图, 以及PCoA分析

1.如何构建系统进化树

align_seqs.py -i OTUs_represent_tags.fasta -t /biostack/database/pynast_greengene/core_set_aligned.fasta.imputed -o align
filter_alignment.py -o  align -i align/OTUs_represent_tags_aligned.fasta
make_phylogeny.py -i align/OTUs_represent_tags_aligned_pfiltered.fasta -o OTUs_represent_tags.tre
beta_diversity.py -i OTU_table.biom -o  bdiv --metrics weighted_unifrac,unweighted_unifrac,bray_curtis OTUs_represent_tags.tre

2.如何进行PCoA 分析

single_rarefaction.py -i  OTU_table.biom -o OTU_table.rarify.biom -d  #number
beta_diversity.py -i  OTU_table.rarify.biom -o bdiv --metrics weighted_unifrac,unweighted_unifrac,bray_curtis -t OTUs_represent_tags.tre
principal_coordinates.py -i  bray_curtis.distmx.txt -o  bray_curtis_coords.txt
make_2d_plots.py -i bray_curtis_coords.txt -m mapping_file.txt -o 2d_bray_curtis
make_emperor.py -i bray_curtis_coords.txt -m  mapping_file.txt -o 3d_bray_curtis

3.如何构建Venn图 Venn图或者类似图适合比较少的集合,集合超过5个显示比较困难,可以采用

otu-upset otu_table.txt 1 otu_table.mask.txt
upset.R otu_table.mask.txt upset.pdf

推荐执行之前使用 USEARCH UNCROSS 去除对低丰度OTU进行纠正(测序过程Cross-link导致)

可以产生类似图:

upset

代码可以从biostack github 仓库获得 https://github.com/biostack-repo/otu-upset

来自Biostack团队: 2017-07-31 版本

Comments are closed.