搜索

分享

QQ空间 QQ好友新浪微博微信

HMMER搜索含有特定Motif的蛋白

旋羽飞飞 2018-05-06

展开全文

http:///archives/406

先来简单介绍下HMMER，这是个用来搜索同源蛋白的程序，基于隐马尔科夫模型（profile hidden Markov Models, profile HMMs）。比起BLAST, FASTA等传统序列比对和同源搜索工具，HMMER利用的数学模型能够更加准确并且能发现亲缘关系较远的同源体。

下载和说明文档：http://hmmer./

安装方法见：http://boyun./bio/?p=1753

接下来还得介绍下Pfam。这是一个蛋白家族的数据库（http://pfam./）。它是由两个库够成，Pfam-A和 Pfam-B。Pfam-A质量更高，都经过手工验证，尽管其包含了很大比例的蛋白家族，但是为了覆盖更多的已知蛋白结构，又通过 ADDA（Automatic Domain Decomposition Aligorithm）生成了一个Pfam-B做为补充。Pfam-A还根据相关的蛋白家族生成了一个更高级别的组，叫做Clan。

如果知识想看看你手里的蛋白含有哪些结构域，直接把氨基酸序列贴到网站上查下就好(http://pfam./search/sequence)，没必要把整个Pfam库下载到本地（Pfam-A完整的库要1.5GB以上)。以烟草中的N基因（GenBank: AAA50763.1）为例，这是一个典型的TIR类抗病基因，具有TIR, NB-ARC和LRR结构域。

下面以植物抗病NBS-LRR类抗病基因为例介绍如何利用HMMER工具和Pfam库从基因组中调取某一类蛋白家族。

①安装HMMER(见上文)

②下载所需蛋白家族的Pfam文件(以NB-ARC为例)，可以在keyword里面直接搜索NB-ARC或者PF00931,然后跳转到如下界面.

点Alignment,下载比对好的文件，记得选择「Stockholm」格式

下好的文件其实就是一个Alignment文件

③构建hmm检索文件，打开命令行输入

> hmmbuild output.hmm input.ann

这步完成了就构建好了用于搜索的hmm文件，如果要用自己蛋白构建特殊的Pfam库也可以自己把比对好的蛋白序列调整好格式进行hmmbuild，具体步骤可以见说明文档。

生成的hmm文件是这样的

④在一个蛋白库里调取所有该家族蛋白，这里以大豆基因组预测出来的所有蛋白为例（下载地址：ftp://ftp.jgi-psf.org/pub/compgen/phytozome/v9.0/Gmax/annotation/）

> hmmsearch NB-ARC.hmm Gmax_109_peptide.fa > Gmax-NB-ARC.out

⑤生成的.out文件就是大豆蛋白文件中所有含有NB-ARC的蛋白了，如果想要把hmm的输出文件转化成FASTA或者想要把同样名字的cds序列调取出来，还要通过一系列PERL脚本进行，具体方法下回再讲。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：旋羽飞飞 > 《HMMER》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

旋羽飞飞

关注对话

TA的最新馆藏

[转] 转录组测序数据分析（有参考基因组）
[转] 刷爆高分文章的WGCNA究竟是个啥？
[转] 一文掌握基因功能（GO）和信号通路（Pathway）分析
[转] 转录组测序常见FAQ
[转] 转录组筛选差异表达基因时的Log2FC和FDR值是什么意思？可以自己调吗？
[转] WGCNA新手入门笔记（含代码和数据）

喜欢该文的人也喜欢更多

热门阅读换一换