基因注释 | 生物信息博客

我是皮卡丘 2021-11-21

展开全文

很多人觉得基因注释很高深，特别对于那些不太懂编程的来说，感到无从下手，去年我也折腾了差不多半年，最后发现也就那么回事。一开始我是找各种基因注释的工具，例如研究geneontology自带的perl程序，里面涉及了众多模板，而且是模块里面又有模块，运行时不是少了这个模块就是那个模块有问题，最后折腾了两三个月也没有得到理想结果。后来用了blast2go这个程序用起来是没有问题，可实在是太慢，几个小时下去，泡都不冒一个。最后默默在躺在床上反思，我的目的是什么，注释的原理是什么。按照这个思路，慢慢的去找这些问题的答案，最后终于开窍了，想明白了真的好简单，现将思路简单归纳如下：
1、基因注释方法
1）根据已注释的信息，利用序列相似性原则，去注释未知序列。
2）查找文献资料注释基因功能。
基因批量注释的话都是采用第一种。
2、所需资料
1）将需要注释的序列翻译成氨基酸序列；
2）下载现有的已注释的蛋白序列（uniprot_sprot.fasta.gz，文件大小为78MB）；
3)下载联系蛋白序号和注释号（GO的accession）的文件（idmapping.td.gz，文件大小为2.17G）;
4)下载最新的GO数据库文件assocdb-data.gz；
3、注释方法
1）利用formatdb格式化已注释的蛋白序列为blast库；
2）将需要注释的序列与blast库做blast;
3）找到与需注释序列相似度高的蛋白序列号；
4）找到这些蛋白序列号对应的注释号（GO号）；
5）用GO号在GO数据库文件中的term表中找到注释信息或者在geneontology官网用GO号就可以查到详细的注释信息；

如果用NCBI数据库，方法也差不多，先下载已注释的蛋白序列，格式化数据成blast库，将需注释的序列与这个blast库比对，找到相似度高的已注释的蛋白序列号，用此序列号用NCBI中gene_info.gz和gene2access找到蛋白序列的gene号,然后将此号用gene2go数据找到go号，最后用go号找到其注释信息就行了。

如果按照以上方法操作的话，其实基因注释非常简单，几乎只要做个blast，然后将信息对应过来就可以了，远没有那么复杂。