Archives

blast-utils之表格文件处理:blast-utils小工具集合

BLAST类序列比对工具在生物学数据分析中应用最为广泛,比如16S全长序列比对(MEGABLAST), 氨基酸功能注释(BLASTP)等, 另外还有各种快速比对工具,比如: DIAMONDGHOSTXRAPSearch2等,这些工具默认都支持制表符分隔的输出文件(BLAST程序指定的 -outfmt 输出格式)。

格式如下

中文描述英文描述
1查询序列表标识符Query
2目标序列标识符Target
3相似度identity
4比对长度Alignment length
5错配数Number of mismatches
6gap数Number of gap opens
7查询序列比对起始位置Start position in query
8查询序列比对终止位置End position in query
9目标序列比对起始位置Start position in target
10目标序列比对终止位置End position in target
11E值E-value
12Bit score值Bit score

BLAST比对结果通常一条查询序列可以分几个片段和目标序列比对上,其中每个片段的比对结果都是一个HSP, 比对到的目标序列称之为一个hit, 比对结果可以包含多个hit, 我们对序列注释有时候采用的策略是 best hit 或者 best_hsp, 这样就需要对比对结果进行各种处理。

blast_utilsgithub 仓库) 小工具集合, 主要使用场景包括:

  1. 根据E值、Bit score值、相似度筛选所有满足条件的结果, blast_hits
  2. 根据E值、Bit score值、相似度筛选满足条件的最佳HSP, blast_hsp
  3. 选取每条查询序列的Top Hsp, best_hsp
  4. 对目标序列进行注释, blast_annotation

下面对每个程序使用进行介绍:

1. blast_hits

命令行接口

$ blast_hits
Usage: blast_hits  [options]  <blast|->
Options:
  -b DOUBLE  MIN bit score, default: [60]
  -e DOUBLE  MAX E-value, default: [0.001]
  -i DOUBLE  MIN identity, default: [0]
  -v print version number

根据上述描述, blast_hits 接受三个可选参数, bit score 、E-value 和 identity,就是输出所有满足条件的比对结果。

实例:

blast_hits -b 60  -e 0.001 -i 60  S7711.tsv

2. blast_hsp

命令行接口

$ blast_hsp
Usage: blast_hits  [options]  <blast|->
Options:
  -b DOUBLE  MIN bit score, default: [60]
  -e DOUBLE  MAX E-value, default: [0.001]
  -i DOUBLE  MIN identity, default: [0]
  -v print version number

根据上述描述, blast_hsp 接受三个可选参数, bit score 、E-value 和 identity,就是输出满足条件的第一个hsp。

实例:

blast_hsp -b 60  -e 0.001 -i 60  S7711.tsv

3. best_hsp

命令行接口

$best_hsp
Usage: best_hsp <blast|->
version: 0.0.2

$best_hsp 接受一个参数, 最输入文件不进行限制,只输出第一个hsp。

实例:

best_hsp S7711.tsv

4. blast_annotation

因为我们有时需要对目标序列进行各种关联,需要使用目标序列的标识符信息,所以:

LDEE01000001.1.2    sp|P33330|SERC_YEAST

可能会比:

LDEE01000001.1.2        sp|P33330|SERC_YEAST Phosphoserine aminotransferase ...

更方便;

blast_annotation 做的事情就是对sp|P33330|SERC_YEAST 进行注释,变成 sp|P33330|SERC_YEAST Phosphoserine aminotransferase ... 模式。

程序也比较简单, 需要提供序列->注释的映射文件。

实例:

blast_annotation  annotation.txt  S7711.tsv  >S7711_ann.tsv

本文材料为 BASE (Biostack Applied bioinformatic SEies ) 课程 Linux Command Line Tools for Life Scientists 材料, 版权归上海逻捷信息科技有限公司** 所有

Last update:2017-11-15 7:07 PM

Comments are closed.