Archives

庖丁解牛,微生物基因组重测序:一条命令完成从sra到vcf

一、引子

前面在 Twitter上看到一个针对细菌基因组重测序流程(鉴定SNP)的使用工具调查,这里我们就庖丁解牛般解读下这些流程工具是如何工作的,流程又是如何设计的。

该调查数据来自 google.docs

从图中可以看出snippy还是比较受欢迎的,Torsten Seemann的流程一向比较稳定,接口一向比较简单。

这次解读的主角是snippy,使用起来确实很方便,比如:

fastq-dump –defline-seq ‘@$sn/$ri’ –defline-qual ‘+’ ERR114970.sra -Z –split-3 |\ seqtk trimfq – | \ snippy –cpus 16 –outdir ERR114970 –ref GCF_000069185.1_ASM6918v1_genomic.gbff \ –prefix ERR114970 -peil /dev/stdin &>log.txt

一条命令可以解决我们从sra到vcf到的问题,当然其中使用的工具很多了,但是都被封装在脚本里了。

二、流程细节 2.1. sra生成interleave格式fastq文件 fastq-dump –defline-seq ‘@$sn/$ri’ –defline-qual ‘+’ ERR114970.sra -Z –split-3

该结果使用-Z 选项将结果输出至标准输出流,格式是Interleave格式,这种模式有很多好处, 比如质量值修剪,序列比对等,后续很多程序都支持,这样比较方便以steaming方式工作。

内部链接: ENA和SRA数据预处理: SRA Toolkit […]

Scalpel: Indel 变异鉴定工具,支持单样本、家庭样本以及正常和肿瘤对样本

标题:

Indel variant analysis of short-read sequencing data with Scalpel.

摘要:

As the second most common type of variation in the human genome, insertions and deletions (indels) have been linked to many diseases, but the discovery of indels of more than a few bases in size from short-read sequencing data remains challenging. Scalpel (http://scalpel.sourceforge.net) is […]