一、引子
前面在 Twitter上看到一个针对细菌基因组重测序流程(鉴定SNP)的使用工具调查,这里我们就庖丁解牛般解读下这些流程工具是如何工作的,流程又是如何设计的。
该调查数据来自 google.docs
从图中可以看出snippy还是比较受欢迎的,Torsten Seemann的流程一向比较稳定,接口一向比较简单。
这次解读的主角是snippy,使用起来确实很方便,比如:
fastq-dump –defline-seq ‘@$sn/$ri’ –defline-qual ‘+’ ERR114970.sra -Z –split-3 |\ seqtk trimfq – | \ snippy –cpus 16 –outdir ERR114970 –ref GCF_000069185.1_ASM6918v1_genomic.gbff \ –prefix ERR114970 -peil /dev/stdin &>log.txt
一条命令可以解决我们从sra到vcf到的问题,当然其中使用的工具很多了,但是都被封装在脚本里了。
二、流程细节 2.1. sra生成interleave格式fastq文件 fastq-dump –defline-seq ‘@$sn/$ri’ –defline-qual ‘+’ ERR114970.sra -Z –split-3
该结果使用-Z 选项将结果输出至标准输出流,格式是Interleave格式,这种模式有很多好处, 比如质量值修剪,序列比对等,后续很多程序都支持,这样比较方便以steaming方式工作。
内部链接: ENA和SRA数据预处理: SRA Toolkit […]