Archives

驯化VirSorter: 预测metagenome contigs的prophage

鉴定噬菌体的工具有Phage_Finder, Prophinder , PHAST,PhiSpy,不过要讲的是 VirSorter。VirSorter适合不完整的基因组,单细胞基因组,宏基因组。

VirSorter 运行时间很长问题,主要问题是 HMMER的问题,HMMER支持多线程不理性,即使设置多线程,实际执行的时候基本都是单线程,导致运行时间比较长。

那解决这个问题的方式就是:将线程强制变成进程,根据hmmsearch的特点,将库文件拆分成指定ncpu份, 单独提交可以达到并行目的, 然后将拆分后的结果合并为输出文件即可。

为解决这个问题 Biostack,实现了 hmmsearch-virsorter 做为HMMSEARCH任务提交的中间件,替换掉VirSorter的提交方式,可以顺利进行真实的并行任务提交。

$ hmmsearch-virsorter Program: hmmsearch-virsorter: HMM based annotation. Version: 0.0.1 Contact: ZHANG LEI <zhanglei@logicinformatics.com> Usage: hmmsearch-virsorter [options] <sequence> <tblout> <output> Options: -c INT CPU number, default: [40] -d STR database location, default: [/biostack/database/pfam/Pfam-A.hmm]

现在利用40线程,一个典型的细菌基因组基本3分钟就可以完成前噬菌体鉴定。

毒力因子注释Protocol:VFDB数据库

一、毒力因子

毒力因子(Virulence factor), 详细介绍参见 维基百科 Virulence_factor 页面, 细菌、病毒、真菌等生成的分子,并产生毒力(主要有侵袭力和毒素等),包括:

1. 在宿主定殖 (colonization),黏附在宿主消化道、呼吸道、生殖道、尿道及眼结膜等处,以免被肠蠕动、黏液分泌、呼吸道纤毛运动等作用所清除 2. 免疫逃避,逃避宿主的免疫应答 3. 免疫抑制,抑制宿主的免疫反应 4. 进入和退出细胞 5. 从宿主获得营养

毒力因子可编码在可移动遗传元件(比如质粒、基因岛、噬菌体等)上并进行水平基因转移(传播),使无害细菌变成危险的病原菌,所以在鉴定毒力因子时一般会考虑: 基因岛、分泌蛋白等。

二、病原菌毒力因子数据库 VFDB

毒力因子数据库VFDB 由中国医学科学院研发,被广泛应用于毒力因子基因鉴定。 VFDB收集了包括30个属( 74个病原菌)的细菌毒力基因序列信息。

VFDB提供了对应的毒力基因核酸和蛋白质序列信息,因此鉴定毒力基因最简单的办法就是序列比对(BLAST),

2.1 数据库预处理

数据预处理需要以下几个步骤:

VFDB的元信息可以通过序列文件以及提供的描述文件获得:

>VFG000676(gb|AAD32411) (lef) anthrax toxin lethal factor precursor [Anthrax toxin (VF0142)] [Bacillus anthracis str. Sterne]`

1、格式化序列文件,只保留毒力基因编号 VFG000676 并获得 VFG000676 -> VF0142 映射关系; […]