很多网友跟我们说,天天被KEGG虐,不知道一些符号代表的含义,还不知道怎么找pathway。我们也是操碎了心。其实KEGG除了主体功能pathway之外,还有一些非常好用的在线工具。 今天我们先来科普KEGG数据库的基本知识,后续我们会陆续分享上面的在线工具使用哈。 KEGG数据库的内容很多,核心是KEGG pathway。数据均来自文献,通过手绘路径图集。 如上图,KEGG除了核心内容pathway,还有对数据库的信息分类(如,Brite),或pathway的组成元件的信息(Module、orthology)。 这些信息往往会交叉出现。 我们以“生物素合成酶”为例: 看上面这个图,注意到这些蓝色小字,为什么有些是K开头的,有些是KO开头的,还有些是M或者C开头的,很神烦dei不dei?我们来解释一下: 1、K num(基因ID号,表示在所有同源物种中具有相似结构或功能的一 类同源蛋白)。 如K01012=>生物素合成酶(备注:K建议大写) 2、ko num(代谢通路名称,表示一个特定的生物路径) 如:ko0078 => 生物素代谢通路 (备注:ko小写) 3、M num(模块名称) M00123 => 生物素合成模块 4、C num(化合物名) 如C00120:生物 5、E -.-.-.-(酶名) EC2.1.1.116 => 生物素合成酶(其实也就是k01012) 6、R num(反应名) 7、RC num(反应类型)RP num(反应物质对) m开头。这些模块往往是pathway的重要组成部分(但也只是一部分)。包括:路径模块、结构复合物、功能集、信号模块等。 这里的模块展示的就是生物合成的过程(上),相当于这个pathway的局部地图(简化版)。 KEGG中,信息的层级分类系统,KEGG会从不同的角度分层级。如下图,从pathway,modues和Enzynes三个角度,分析了这个基因的从属关系。 从酶的角度考虑,这个酶属于转移酶的大类,更次级的分类是巯基转移酶….这样层层分类,来展现这个酶的信息。 另外,界面还包括了这个基因在不同物种中的信息,前三个字母是这个物种拉丁名的简写,例如ATH代表拟南芥。 |
|