基因组注释与功能基因挖掘那些事

生物_医药_科研 2019-01-30

展开全文

文献解读

近日，美吉生物合作客户，南开大学的王威老师课题组在影响因子5.8的杂志Bioresource Technology上发表了一篇名为“Novel thermostable enzymes from Geobacillus thermoglucosidasius W-2 for high-efficient nitroalkane removal under aerobic and anaerobic conditions”的文章[1]。

思路解读

研究人员从华北某深层油田中分离到一株可以降解有机硫以及硝基烷烃的嗜热菌Geobacillus thermoglucosidasius，该菌可以在好氧及厌氧条件下高效降解环境污染物——硝基烷烃类化合物。接着，通过基因组测序及注释，找到了3个候选的硝基烷烃氧化酶基因。最后，将这3个基因分别克隆到大肠杆菌BL21进行蛋白表达纯化，发现这3种酶都具有很强的温度、pH、压力适应性，且其中一个酶Gt2929能够非常高效地降解多种硝基烷烃类化合物，具有非常大的工业及环境治理的应用潜力。

思路延伸

在这个过程中，一个很重要的节点是找到表型对应的功能基因。如何找到功能基因，也是许多功能基因组学研究者们都非常关心的话题。接下来我们就来探讨一下与寻找功能基因相关的概念和方法。

基因组注释

寻找功能基因，首先要做基因组注释。所谓基因组注释，就是利用生物信息学方法，对基因组中所有基因的生物学功能进行高通量注释。基因组注释的核心内容分为基因预测以及功能注释两部分。

1. 基因预测

在原核生物中，目前最常用的是基因预测方法是ab initio预测，即不借助参考基因组，完全根据统计软件及算法对核酸序列上的起始密码子及终止密码子进行识别，最后获得基因预测结果。

图2. 基因预测原理示意图

2. 功能注释

完成基因预测后，所有被预测出来的ORF（Open reading frame）会被翻译成氨基酸序列，用于接下来的功能注释。注释的基本原理是将氨基酸序列与各种数据库进行序列比对，通过数据库中被比对上的基因所记录的基因功能，赋予新基因以功能注释。有的数据库为了避免注释信息过于杂乱，会人工整理一些特定的类别。

比如KEGG数据库中的KEGG ORTHOLOGY （KO）数据库，每一类KO都包含了KEGG GENE数据库中所有功能近似的同源基因。通过KEGG进行基因注释时，系统不会直接赋予被比对上基因的具体信息，而是赋予该基因对应的KO ID以及相应的KO功能描述（图3）。

图3. 两种常见的基因功能注释原理示意图

目前，比较常用的细菌基因组注释流程包括NCBI原核基因组注释流程，RAST[5]，KEGG注释流程[6]等，而有一定生信基础的研究者也会使用本地的数据库进行基因组注释。

寻找功能基因

完成基因组注释后，接下来就是寻找功能基因了。这一步我们有多个线下数据库资源可以使用。这里我们以本公司的细菌基因组云平台注释结果为例，演示一下如何从Geobacillus thermoglucosidasius基因组（GCF_001655645.1）注释结果中寻找硝基烷烃氧化酶。

1. KEGG通路搜索

KEGG的基因组注释比较直观，因为它的注释结果最终可以在代谢通路图上直接呈现出来（图6）。

图4. KEGG基因组注释通路示意图。其中每一个蓝色背景的框代表数据库中的一类或几类基因，红色外框表示基因组中有注释到相应功能的基因。

我们再以硝基烷烃氧化酶作为例子：

首先，KEGG数据库中有上百个通路图，基因组注释结果会分布在其中大部分通路图上。如果不清楚要找的特定功能基因属于哪个代谢通路，可以先通过搜索相关化合物锁定通路图（图7）。如图所示，通过搜索化合物“nitroalkane”，可以锁定到氮代谢通路“Nitrogen metabolism”。

图5. 通过化合物名称锁定代谢通路示意图

锁定通路后，打开该通路对应的基因组注释结果，得到以下结果（图8）。

图6. 基因组KEGG通路注释示意图——氮代谢通路图

如上文所述，外圈带红框的基因表示基因组中存在被注释到相应位置的基因。在硝基烷烃（箭头所指位置）氧化成亚硝酸盐（Nitrite）这步反应中，基因组中有基因编码EC number为1.13.12.16的酶，而该基因对应的KO ID是K00459。通过KO ID编号，就可以在基因组注释表中直接找到对应的基因了（图9）。

图7. i-sanger平台基于KO ID查询示意图

2. 序列比对查找

除了用全基因组与数据库进行批量比对的方法外，使用已知功能的基因序列与测序的基因组进行比对，也能够帮助我们找出基因组中相应功能的基因。

例如在NCBI上找到一个2-nitropropane dioxygenase蛋白序列（WP_008880084.1），用它对案例基因组的全氨基酸序列（W_2_CDS）进行BLAST+比对：

makeblastdb -in W_2_CDS -dbtype prot -out W_2;

blastp -db W_2 -query WP_008880084.1 -out example;

可以获得如下结果（图10）：

图8. 使用序列比对工具寻找功能基因结果示意图

通过使用已知的硝基丙烷氧化酶对基因组进行序列比对，得到相似度最高的3个基因，也正是开头文献中所报道的那3个基因。

除此之外，为方便大家操作，i-sanger细菌基因组云平台（www.i-sanger.com）整合了NCBI NR（Non-redundant protein），Swiss-prot，KEGG，COG，Pfam，GO等多个线下数据库资源，有需求的科研汪可以直接在云平台上一键注释到多个数据库。

综上，本文介绍了几种针对基因组测序后寻找特定功能基因的常用方法及数据库，希望能对读者们有所帮助，能够挖掘更多有用的基因，多发高水平论文~

参考文献

[1] L. Sun, D. Huang, L. Zhu, et al., Novel thermostable enzymes from Geobacillus thermoglucosidasius W-2 for high-efficient nitroalkane removal under aerobic and anaerobic conditions. Bioresource Technology, 2019, 278:73-81

[2] A.L. Delcher, K.A. Bratke, E.C. Powers, and S.L. Salzberg, Identifying bacterial genes and endosymbiont DNA with Glimmer. Bioinformatics, 2007, 23(6):673-679.

[3] J. Besemer, A. Lomsadze and M. Borodovsky, GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Research, 2001, 29:2607-2618

[4] D. Hyatt, G.L. Chen , P.F. Locascio , et al, Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics, 2010, 11(1):119.

[5] R. Overbeek , R. Olson , G.D. Pusch , et al., The SEED and the Rapid Annotation of microbial genomes using Subsystems Technology (RAST). Nucleic Acids Research, 2014, 42(1):206-214.

[6] M. Kanehisa, Y. Sato , K. Morishima, BlastKOALA and GhostKOALA: KEGG Tools for Functional Characterization of Genome and Metagenome Sequences. Journal of Molecular Biology, 2016, 428(4):726-731.

美吉生物