Archives

Categories

K-mer在生物信息学中的应用及其工具列表

先在这里开个头,后面不断对这个Topic 进行更新。

基本介绍

K-mer 在生物信息学中有着广泛的应用,比如基因组拼装,评估基因组测序覆盖度,测序数据的纠错,多序列比对,重复序列检测。但是计算K-mer 比较耗费内存,因此好的数据结构有利于降低内存的使用,比如Khmer,采用概率型数据结构(Bloom_filter, http://en.wikipedia.org/wiki/Bloom_filter),Jellyfish 采用了并行无锁哈希表(lock-free hash table)数据结构,为了降低内存使用,有时候可能需要在时间,内存,磁盘空间使用上进行折中。 下面列出了现在比较常用的K-mer计算的工具以及一些应用实例。

工具 DSK (Rizk et al. 2013)1 http://minia.genouest.org/dsk/ Musket (Liu et al. 2013)2 http://musket.sourceforge.net/homepage.htm#latest Khmer (McDonald and Brown 2013)3 http://khmer.readthedocs.org/en/latest/ BFCounter (Melsted and Pritchard 2011)4 http://pritch.bsd.uchicago.edu/bfcounter.html Simrank (DeSantis et al. 2011)5 http://search.cpan.org/~shuriko/String-Simrank-0.079/lib/String/Simrank.pm Kmer (Walenz and Florea 2011)6 http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page Jellyfish (Marcais and Kingsford 2011)7 http://www.cbcb.umd.edu/software/jellyfish/ Tallymer […]