分享

HMMER搜索含有特定Motif的蛋白

 旋羽飞飞 2018-05-06

http:///archives/406

先 来简单介绍下HMMER,这是个用来搜索同源蛋白的程序,基于隐马尔科夫模型(profile hidden Markov Models, profile HMMs)。比起BLAST, FASTA等传统序列比对和同源搜索工具,HMMER利用的数学模型能够更加准确并且能发现亲缘关系较远的同源体。

下载和说明文档:http://hmmer./

安装方法见:http://boyun./bio/?p=1753

接下来还得介绍下Pfam。这是一个蛋白家族的数据库(http://pfam./)。 它是由两个库够成,Pfam-A和 Pfam-B。Pfam-A质量更高,都经过手工验证,尽管其包含了很大比例的蛋白家族,但是为了覆盖更多的已知蛋白结构,又通过 ADDA(Automatic Domain Decomposition Aligorithm)生成了一个Pfam-B做为补充。Pfam-A还根据相关的蛋白家族生成了一个更高级别的组,叫做Clan。

如果知识想看看你手里的蛋白含有哪些结构域,直接把氨基酸序列贴到网站上查下就好(http://pfam./search/sequence),没必要把整个Pfam库下载到本地(Pfam-A完整的库要1.5GB以上)。以烟草中的N基因(GenBank: AAA50763.1)为例,这是一个典型的TIR类抗病基因,具有TIR, NB-ARC和LRR结构域。

下面以植物抗病NBS-LRR类抗病基因为例介绍如何利用HMMER工具和Pfam库从基因组中调取某一类蛋白家族。

①安装HMMER(见上文)

②下载所需蛋白家族的Pfam文件(以NB-ARC为例),可以在keyword里面直接搜索NB-ARC或者PF00931,然后跳转到如下界面.

点Alignment,下载比对好的文件,记得选择「Stockholm」格式

下好的文件其实就是一个Alignment文件

③构建hmm检索文件,打开命令行输入

> hmmbuild output.hmm input.ann

这步完成了就构建好了用于搜索的hmm文件,如果要用自己蛋白构建特殊的Pfam库也可以自己把比对好的蛋白序列调整好格式进行hmmbuild,具体步骤可以见说明文档。

生成的hmm文件是这样的

④在一个蛋白库里调取所有该家族蛋白,这里以大豆基因组预测出来的所有蛋白为例(下载地址:ftp://ftp.jgi-psf.org/pub/compgen/phytozome/v9.0/Gmax/annotation/

> hmmsearch NB-ARC.hmm Gmax_109_peptide.fa > Gmax-NB-ARC.out

 

⑤生成的.out文件就是大豆蛋白文件中所有含有NB-ARC的蛋白了,如果想要把hmm的输出文件转化成FASTA或者想要把同样名字的cds序列调取出来,还要通过一系列PERL脚本进行,具体方法下回再讲。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多