一、前言
为了生物学家更加容易使用命令行模式的生物信息工具,在数据分析流程集成工具水平下我们设计了 “小封装” 模式,即封装一些常用的几个工作步骤,尽量使用优化后的默认参数,整个小封装依赖实现的 “tool-utils”, 比如 blast-utils、fastx-utils 、 tsv-utils、 sam-utils, 这些小程序一般都是 C语言 实现的高性能应用。
二、blast-pipe介绍
小封装 blast-pipe 目的就是解决序列比对BLAST的提交任务, 命令行接口:
$blast-pipe
Program: blast-pipe: blast submit and parse protocol.
Version: 0.0.1
Contact: ZHANG LEI <zhanglei@logicinformatics.com>
Usage: blast-pipe [options] <sequence> <project>
Options: -t STR blast type. blastx|blastp|blastn, default [blastp],
for special task, can do like this: 'blastn -task megablast'
-c INT CPU number, default: [56]
-e double set evalue cutoff, default: [1e-10]
-i double set identity cutoff for filter, default: [0]
-f STR set outfmt parameter, default:
['6 qseqid stitle pident length mismatch gapopen qstart qend sstart send evalue bitscore']
-b double set bit score cutoff for filter, default: [60]
-m INT set max_target_seqs parameter, default: [1]
-d STR swiss-prot database location, default: [/biostack/database/swiss_prot/swiss_prot]
最简单的任务提交模式:
$blast-pipe A189.faa Swiss-prot
程序执行序列比对任务:采用了上述默认参数, 序列库也是默认参数:”/biostack/database/swiss_prot/swiss_prot”
稍微复杂点的可以为:
$blast-pipe -c 10 -m 10 -d /biostack/database/vfdb/vfdb A189.faa vfdb
为什么要对序列比对也进行封装呢?
1. 使用'fastx-utils partition' 对序列进行分拆,多进程执行,提高CPU利用率,可有效支持集群模式;
2. 可增加很多辅助操作,将生成的文件直接转换成Excel文档;
3. 按照自己常用需求调整默认参数,减少命令行提交复杂度;
三、最后
Biostack
提供定制小封装服务, 如有需求请联系微信号: biostack
。