Archives

生物信息数据工具封装:序列比对之hmmscan-pipe

一、前言

为什么要封装这个hmmscan-pipe呢, hmmscan为HMMER(当前最新版本 3.1b2)程序包的子程序,工作模式是: 蛋白序列对谱序列库(hmmpress构建索引), 常用的氨基酸序列功能注释工具, 常用功能信息数据库有: Pfam、 Superfamily、 dbCAN、 SMART、 TIGRFAM 等。

hmmscan 当前版本可使用 –cpu 指定使用的线程数,但是一般不能有效利用多核心资源,所以最佳实践为: 序列拆分。 使用 fastx-utils partition 分割成指定线程数文件,使用进程对每个文件单独提交,这样就比较适合在集群模式下工作。 hmmscan-pipe依赖hmmscan-utils 支持标准输入流,主要解决两个问题:

hmmscan-utils domtblout, 格式化hmmscan输出格式,使用制表符分隔,采用默认的过滤模式:如果比对片段 >80aa Evalue 阈值使用1e-5, <80aa Evalue 阈值使用1e-4。 hmmscan-utils resolve, 解析HMM匹配区域的交叠问题,去除交叠区域比较大的比对, 实现了文章 A fast and automated solution for accurately resolving protein domain architectures BMC 算法。

hmmscan-utils 程序提供了两子命令程序:

Usage: hmmscan-utils <command> […]

生物信息数据工具封装:序列比对之blast-pipe

一、前言

为了生物学家更加容易使用命令行模式的生物信息工具,在数据分析流程集成工具水平下我们设计了 “小封装” 模式,即封装一些常用的几个工作步骤,尽量使用优化后的默认参数,整个小封装依赖实现的 “tool-utils”, 比如 blast-utils、fastx-utils 、 tsv-utils、 sam-utils, 这些小程序一般都是 C语言 实现的高性能应用。

二、blast-pipe介绍

小封装 blast-pipe 目的就是解决序列比对BLAST的提交任务, 命令行接口:

$blast-pipe Program: blast-pipe: blast submit and parse protocol. Version: 0.0.1 Contact: ZHANG LEI <zhanglei@logicinformatics.com> Usage: blast-pipe [options] <sequence> <project> Options: -t STR blast type. blastx|blastp|blastn, default [blastp], for special task, can do like this: ‘blastn -task megablast’ […]