先在这里开个头,后面不断对这个Topic 进行更新。


K-mer 在生物信息学中有着广泛的应用,比如基因组拼装,评估基因组测序覆盖度,测序数据的纠错,多序列比对,重复序列检测。但是计算K-mer 比较耗费内存,因此好的数据结构有利于降低内存的使用,比如Khmer,采用概率型数据结构(Bloom_filter,,Jellyfish 采用了并行无锁哈希表(lock-free hash table)数据结构,为了降低内存使用,有时候可能需要在时间,内存,磁盘空间使用上进行折中。 下面列出了现在比较常用的K-mer计算的工具以及一些应用实例。


  1. DSK (Rizk et al. 2013)1
  2. Musket (Liu et al. 2013)2
  3. Khmer (McDonald and Brown 2013)3
  4. BFCounter  (Melsted and Pritchard 2011)4
  5. Simrank (DeSantis et al. 2011)5
  6. Kmer (Walenz and Florea 2011)6
  7. Jellyfish  (Marcais and Kingsford 2011)7
  8. Tallymer (Kurtz et al. 2008) 8
  9. NmerFreq 9


  1. PriMux (Hysom et al. 2012)10
  2. COPE (Liu et al. 2012)11
  3. KASpOD (Parisot et al. 2012)12
  4. SINA (Pruesse et al. 2012)13
  5. SlideSort (Shimizu and Tsuda 2011)14
  6. piRNApredictor (Zhang et al. 2011)15
  7. Gk-arrays (Philippe et al. 2011)16
  8. Reptile (Yang et al. 2010)17
  9. Figaro (White et al. 2008)18
  10. BLMT (Ganapathiraju et al. 2004)19
  11. MRD (Subramanian et al. 2002)20


