Archives

毒力因子注释Protocol:VFDB数据库

一、毒力因子

毒力因子(Virulence factor), 详细介绍参见 维基百科 Virulence_factor 页面, 细菌、病毒、真菌等生成的分子,并产生毒力(主要有侵袭力和毒素等),包括:

1. 在宿主定殖 (colonization),黏附在宿主消化道、呼吸道、生殖道、尿道及眼结膜等处,以免被肠蠕动、黏液分泌、呼吸道纤毛运动等作用所清除
2. 免疫逃避,逃避宿主的免疫应答
3. 免疫抑制,抑制宿主的免疫反应
4. 进入和退出细胞
5. 从宿主获得营养

毒力因子可编码在可移动遗传元件(比如质粒、基因岛、噬菌体等)上并进行水平基因转移(传播),使无害细菌变成危险的病原菌,所以在鉴定毒力因子时一般会考虑: 基因岛、分泌蛋白等。

二、病原菌毒力因子数据库 VFDB

vfdb

毒力因子数据库VFDB 由中国医学科学院研发,被广泛应用于毒力因子基因鉴定。
VFDB收集了包括30个属( 74个病原菌)的细菌毒力基因序列信息。

summary

VFDB提供了对应的毒力基因核酸和蛋白质序列信息,因此鉴定毒力基因最简单的办法就是序列比对(BLAST),

2.1 数据库预处理

数据预处理需要以下几个步骤:

VFDB的元信息可以通过序列文件以及提供的描述文件获得:

>VFG000676(gb|AAD32411) (lef) anthrax toxin lethal factor precursor [Anthrax toxin (VF0142)] [Bacillus anthracis str. Sterne]`

1、格式化序列文件,只保留毒力基因编号 VFG000676 并获得 VFG000676 -> VF0142 映射关系;
2、格式化序列库;
3、预处理VFDB的数据库描述信息:

VF_Name         -> Acinetobactin
VF_FullName     -> -
Bacteria        -> Acinetobacter baumannii
Characteristics -> -
Structure       -> An iron-chelating molecule composed of equimolar quantities \
                   of 2,3-dihydroxybenzoic acid (DHBA), L-threonine, and N-hydroxyhistamine
Function        -> High-affinity catechol-hydroxamate siderophore competing with host cells for iron
Mechanism       -> -
Keyword         -> Iron uptake; Siderophore
VFID            -> VF0467

这里我们比较感兴趣应该是: VFID列和Keyword列, 需要格式化成:
VFID Keyword 映射关系;
4、序列比对
5、keywords注释

2.2 VFDB 注释protocol

综合以上我们使用命令行实现如下:

vfdb-fmt  VFDB_setA_pro.fas.gz   >VFDB_setA.pep
makeblastdb  -in VFDB_setA.pep  -dbtype prot  -out  VFDB_setA  -title  VFDB_setA
blast-pipe  -d VFDB_setA  -c 40  A189.faa  A189
blast-utils  hits  -i  30  A189/align/blast.tsv | blast-utils best_hsp -   >A189.vfdb.tsv
tail -n +3  VFs.txt  | tabtk cut -r -f9,8 VFs.txt >vfdb-keyword
tail -n +3  VFs.txt  | tabtk cut -r -f9,6 VFs.txt >vfdb-fuction
zgrep '>' VFDB_setA_pro.fas.gz | vfdb-tab | cut -f1,6 >vfdb-map
tsv-utils  definition  -c 2  -t "VF" vfdb-map A189.vfdb.tsv \
| tsv-utils  definition  -c 3  -t "fuction" vfdb-fuction -  \
| tsv-utils  definition  -c 3 -t 'keyword'  vfdb-keyword  - >A189.vfdb-ann.tsv
tsv-utils tsv2xlsx A189.vfdb-ann.xlsx  VFDB:A189.vfdb-ann.tsv

如果数据库格式化好了其实只需三步:

blast-utils  hits  -i  30  A189/align/blast.tsv | blast-utils best_hsp -   >A189.vfdb.tsv
tsv-utils  definition  -c 2  -t "VF" vfdb-map A189.vfdb.tsv \
| tsv-utils  definition  -c 3  -t "fuction" vfdb-fuction -  \
| tsv-utils  definition  -c 3 -t 'keyword'  vfdb-keyword  - >A189.vfdb-ann.tsv
tsv-utils tsv2xlsx A189.vfdb-ann.xlsx  VFDB:A189.vfdb-ann.tsv

Comments are closed.