Archives

生物信息数据工具封装:序列比对之hmmscan-pipe

一、前言

为什么要封装这个hmmscan-pipe呢, hmmscan为HMMER(当前最新版本 3.1b2)程序包的子程序,工作模式是: 蛋白序列对谱序列库(hmmpress构建索引), 常用的氨基酸序列功能注释工具, 常用功能信息数据库有: Pfam、 Superfamily、 dbCAN、 SMART、 TIGRFAM 等。

hmmscan 当前版本可使用 –cpu 指定使用的线程数,但是一般不能有效利用多核心资源,所以最佳实践为: 序列拆分。 使用 fastx-utils partition 分割成指定线程数文件,使用进程对每个文件单独提交,这样就比较适合在集群模式下工作。 hmmscan-pipe依赖hmmscan-utils 支持标准输入流,主要解决两个问题:

hmmscan-utils domtblout, 格式化hmmscan输出格式,使用制表符分隔,采用默认的过滤模式:如果比对片段 >80aa Evalue 阈值使用1e-5, <80aa Evalue 阈值使用1e-4。 hmmscan-utils resolve, 解析HMM匹配区域的交叠问题,去除交叠区域比较大的比对, 实现了文章 A fast and automated solution for accurately resolving protein domain architectures BMC 算法。

hmmscan-utils 程序提供了两子命令程序:

Usage: hmmscan-utils <command> […]

NCBI Taxonomy 数据库更新,提供lineage、host信息

我们分析metagenome数据离不开使用NCBI的Taxonomy数据,NCBI Taxonomy 提供了一棵物种树,其实每个节点(Node)都分配了一个数字标识符,可以唯一描述一个系统分类信息。

NCBI Taxonomy 数据库提供了一个 taxdump.tar.gz, 并记录了节点的描述信息(names.dmp)以及树的上下游信息(nodes.dmp), 刚刚发布的更新版本提供了额外的lineage信息(rankedlineage.dmp) 以及 host 信息。

另外NCBI已经不再给Strain水平分配这种数字标识符,所以NCBI Taxonomy 提供了 typematerial.dmp 文件用于关联种和菌株(strain)的映射关系。

利用新的数据库我们可以很容易对一些短序列分类器进行注释, 常用的操作如下:

1、 格式化数据库,一般可以使用 tsv-utils

cut -f1,5 fullnamelineage.dmp | sed ‘s/ $//’ >fullnamelineage.db cut -f1,5 taxidlineage.dmp | sed ‘s/ $//’ >taxidlineage.db cut -f1,3 host.dmp >host.db

2、 典型使用场景

下面以Kraken为例子,介绍如何格式化为有效信息, kraken的结果:

C E00552:27:HJ2JYALXX:4:1101:5233:1801 435590 203 816:40 435590:21 A:31 435590:13 0:53 […]

毒力因子注释Protocol:VFDB数据库

一、毒力因子

毒力因子(Virulence factor), 详细介绍参见 维基百科 Virulence_factor 页面, 细菌、病毒、真菌等生成的分子,并产生毒力(主要有侵袭力和毒素等),包括:

1. 在宿主定殖 (colonization),黏附在宿主消化道、呼吸道、生殖道、尿道及眼结膜等处,以免被肠蠕动、黏液分泌、呼吸道纤毛运动等作用所清除 2. 免疫逃避,逃避宿主的免疫应答 3. 免疫抑制,抑制宿主的免疫反应 4. 进入和退出细胞 5. 从宿主获得营养

毒力因子可编码在可移动遗传元件(比如质粒、基因岛、噬菌体等)上并进行水平基因转移(传播),使无害细菌变成危险的病原菌,所以在鉴定毒力因子时一般会考虑: 基因岛、分泌蛋白等。

二、病原菌毒力因子数据库 VFDB

毒力因子数据库VFDB 由中国医学科学院研发,被广泛应用于毒力因子基因鉴定。 VFDB收集了包括30个属( 74个病原菌)的细菌毒力基因序列信息。

VFDB提供了对应的毒力基因核酸和蛋白质序列信息,因此鉴定毒力基因最简单的办法就是序列比对(BLAST),

2.1 数据库预处理

数据预处理需要以下几个步骤:

VFDB的元信息可以通过序列文件以及提供的描述文件获得:

>VFG000676(gb|AAD32411) (lef) anthrax toxin lethal factor precursor [Anthrax toxin (VF0142)] [Bacillus anthracis str. Sterne]`

1、格式化序列文件,只保留毒力基因编号 VFG000676 并获得 VFG000676 -> VF0142 映射关系; […]

生物信息数据工具封装:序列比对之blast-pipe

一、前言

为了生物学家更加容易使用命令行模式的生物信息工具,在数据分析流程集成工具水平下我们设计了 “小封装” 模式,即封装一些常用的几个工作步骤,尽量使用优化后的默认参数,整个小封装依赖实现的 “tool-utils”, 比如 blast-utils、fastx-utils 、 tsv-utils、 sam-utils, 这些小程序一般都是 C语言 实现的高性能应用。

二、blast-pipe介绍

小封装 blast-pipe 目的就是解决序列比对BLAST的提交任务, 命令行接口:

$blast-pipe Program: blast-pipe: blast submit and parse protocol. Version: 0.0.1 Contact: ZHANG LEI <zhanglei@logicinformatics.com> Usage: blast-pipe [options] <sequence> <project> Options: -t STR blast type. blastx|blastp|blastn, default [blastp], for special task, can do like this: ‘blastn -task megablast’ […]