Archives

生物信息数据工具封装:序列比对之blast-pipe

一、前言

为了生物学家更加容易使用命令行模式的生物信息工具,在数据分析流程集成工具水平下我们设计了 “小封装” 模式,即封装一些常用的几个工作步骤,尽量使用优化后的默认参数,整个小封装依赖实现的 “tool-utils”, 比如 blast-utilsfastx-utilstsv-utilssam-utils, 这些小程序一般都是 C语言 实现的高性能应用。

二、blast-pipe介绍

小封装 blast-pipe 目的就是解决序列比对BLAST的提交任务, 命令行接口:

$blast-pipe

Program: blast-pipe: blast submit and parse protocol.
Version: 0.0.1
Contact: ZHANG LEI <zhanglei@logicinformatics.com>

Usage:   blast-pipe [options] <sequence> <project>

Options: -t STR    blast type. blastx|blastp|blastn, default [blastp],
                   for special task, can do like this: 'blastn -task megablast'
         -c INT    CPU number, default: [56]
         -e double set evalue cutoff, default: [1e-10]
         -i double set identity cutoff for filter, default: [0]
         -f STR    set outfmt parameter, default:
                   ['6 qseqid stitle pident length mismatch gapopen qstart qend sstart send evalue bitscore']
         -b double set bit score cutoff for filter, default: [60]
         -m INT    set max_target_seqs parameter, default: [1]
         -d STR    swiss-prot database location, default: [/biostack/database/swiss_prot/swiss_prot]

最简单的任务提交模式:

$blast-pipe   A189.faa  Swiss-prot

程序执行序列比对任务:采用了上述默认参数, 序列库也是默认参数:”/biostack/database/swiss_prot/swiss_prot”

稍微复杂点的可以为:

$blast-pipe -c 10 -m 10 -d /biostack/database/vfdb/vfdb A189.faa vfdb

为什么要对序列比对也进行封装呢?

1. 使用'fastx-utils partition' 对序列进行分拆,多进程执行,提高CPU利用率,可有效支持集群模式;
2. 可增加很多辅助操作,将生成的文件直接转换成Excel文档;
3. 按照自己常用需求调整默认参数,减少命令行提交复杂度;

三、最后

Biostack 提供定制小封装服务, 如有需求请联系微信号: biostack

Comments are closed.