Archives

blast-utils之表格文件处理:blast-utils小工具集合

BLAST类序列比对工具在生物学数据分析中应用最为广泛,比如16S全长序列比对(MEGABLAST), 氨基酸功能注释(BLASTP)等, 另外还有各种快速比对工具,比如: DIAMOND、GHOSTX、RAPSearch2等,这些工具默认都支持制表符分隔的输出文件(BLAST程序指定的 -outfmt 输出格式)。

格式如下:

列中文描述英文描述 1查询序列表标识符Query 2目标序列标识符Target 3相似度identity 4比对长度Alignment length 5错配数Number of mismatches 6gap数Number of gap opens 7查询序列比对起始位置Start position in query 8查询序列比对终止位置End position in query 9目标序列比对起始位置Start position in target 10目标序列比对终止位置End position in target 11E值E-value 12Bit score值Bit score

BLAST比对结果通常一条查询序列可以分几个片段和目标序列比对上,其中每个片段的比对结果都是一个HSP, 比对到的目标序列称之为一个hit, 比对结果可以包含多个hit, 我们对序列注释有时候采用的策略是 best hit 或者 best_hsp, 这样就需要对比对结果进行各种处理。

blast_utils (github 仓库) 小工具集合, 主要使用场景包括:

根据E值、Bit […]