http:///archives/406
先
来简单介绍下HMMER,这是个用来搜索同源蛋白的程序,基于隐马尔科夫模型(pro
下载和说明文档:http://hmmer./ 安装方法见:http://boyun./bio/?p=1753
接下来还得介绍下Pfam。这是一个蛋白家族的数据库(http://pfam./)。 它是由两个库够成,Pfam-A和 Pfam-B。Pfam-A质量更高,都经过手工验证,尽管其包含了很大比例的蛋白家族,但是为了覆盖更多的已知蛋白结构,又通过 ADDA(Automatic Domain Decomposition Aligorithm)生成了一个Pfam-B做为补充。Pfam-A还根据相关的蛋白家族生成了一个更高级别的组,叫做Clan。
如果知识想看看你手里的蛋白含有哪些结构域,直接把氨基酸序列贴到网站上查下就好(http://pfam./search/sequence),没必要把整个Pfam库下载到本地(Pfam-A完整的库要1.5GB以上)。以烟草中的N基因(GenBank: AAA50763.1)为例,这是一个典型的TIR类抗病基因,具有TIR, NB-ARC和LRR结构域。
下面以植物抗病NBS-LRR类抗病基因为例介绍如何利用HMMER工具和Pfam库从基因组中调取某一类蛋白家族。
①安装HMMER(见上文) ②下载所需蛋白家族的Pfam文件(以NB-ARC为例),可以在keyword里面直接搜索NB-ARC或者PF00931,然后跳转到如下界面. 点Alignment,下载比对好的文件,记得选择「Stockholm」格式
下好的文件其实就是一个Alignment文件
③构建hmm检索文件,打开命令行输入
> hmmbuild output.hmm input.ann
这步完成了就构建好了用于搜索的hmm文件,如果要用自己蛋白构建特殊的Pfam库也可以自己把比对好的蛋白序列调整好格式进行hmmbuild,具体步骤可以见说明文档。
生成的hmm文件是这样的
④在一个蛋白库里调取所有该家族蛋白,这里以大豆基因组预测出来的所有蛋白为例(下载地址:ftp://ftp.jgi-psf.org/pub/compgen/phytozome/v9.0/Gmax/annotation/)
> hmmsearch NB-ARC.hmm Gmax_109_peptide.fa > Gmax-NB-ARC.out
⑤生成的.out文件就是大豆蛋白文件中所有含有NB-ARC的蛋白了,如果想要把hmm的输出文件转化成FASTA或者想要把同样名字的cds序列调取出来,还要通过一系列PERL脚本进行,具体方法下回再讲。 |
|