分享

pathway通路图上为何出现红绿半框?

 桃色饕餮 2016-08-04

在转录组分析结果的pathway map图中,同样位置(相同的KO号)出现多个基因,且上下调情况不同。这是什么原因呢?后续该如何分析?




在相同位置出现多个基因的原因


首先,我们需要了解KEGG数据库是一个基于序列进行分类的功能数据库,通路的某个节点并非代表1个基因,而是代表一类序列相似(意味着功能也可能相似)的序列集合。了解这个基本原则后,下文我们将详细解释:为什么在通路的相同位置会有多个序列(基因)。


原因1:拼接不完整或错误


如果物种没有参考基因组,就需要进行转录组denovo组装,那么就可能产生以下两类错误:


(1)拼接不完整:

同一个基因由于拼接不完整而有两个或多个unigene,如下图:



图1 拼接不完整导致的过多基因片段


论坛上我们分享过如何判断一个unigene是否组装完整的帖子:http://www./forum/thread-188-1-1.html。如果经判断该unigene已组装完整或近乎完整,则很有可能是下面原因2所述的基因家族或可变剪切。


(2)拼接错误:

拼接错误也可能导致不同的unigene出现同样的基因名和同样的KO号。但这种情况一般较少出现。


原因2:基因家族或可变剪切


另一种可能是出现在pathway同一个位置的序列是可变剪切或基因家族。对于有参考基因组的物种,由于转录本和基因集是已知的,那么我们可以详细区分出现在通路同一个位置的多个序列是可变剪切还是基因家族。但对于无参考物种的转录本de novo组装结果,如果通路的同一个位置出现多个Unigene,则比较难判断这些Unigene哪些是基因家族哪些是可变剪切,但其实也不影响我们后续的数据解读。下面,我们就举几个实例说明通路的相同位置有多条序列的情况。


例如,植物激素信号通路图中,点击ARF(植物生长素应答因子)这个基因,可看到在不同的物种中这个基因家族都有多个不同的基因成员,如在拟南芥中共有四个同源基因。




图2 拟南芥植物激素信号传导通路中的基因家族


因为在通路的同一个位置有多个基因,所以自然就出现这个位置同时有基因上调和下调的情况,如图3。



图3 通路中某个位置同时出现上调和下调的基因


如图3中,4.2.1.11(ENO)这个基因,KO号是K01689,包含了两个基因:ncbi-102174691、ncbi-102190860,一个上调,一个下调。通过查询所有基因的表达量总表的基因注释,发现ncbi-102174691这个基因symbol为ENO3,基因注释为β烯醇酶;ncbi-102190860这个基因symbol为ENO2,基因注释为γ烯醇酶,表明这两个基因都属于烯醇酶基因家族。但这两个基因都有各自的表达量,1个基因实验处理后上调,另一个实验处理后下调,所以在通路图中就呈现出这个位置半红半绿(红代表上调,绿代表下调)。 


这种情况该如何分析和解读?


  1. 如果是由于denovo拼接不完整造成的,可以选择最长的那条unigene来分析

  2. 如果是由于基因家族或者不同的可变剪切,我们则需要从以下两个维度进行解读。

  1. 首先,尽管理论上基因家族成员或可变剪切在功能上是相似的,但它们各自都有自己的表达模式以及独立的调控机制,所以应该单独分析它们的表达模式(上下调的规律或表达趋势)。因此,我们可以根据研究目的挑选与我们研究相关的基因或可变剪切)。

  2. 可以根据表达量相对高低挑选可能更加重要的基因开展后续的研究和分析


以一篇研究普通小麦种子发育过程的转录调控模式的文章为例(图4[1]。普通小麦作为6倍体,有ABD三套亚基因组。图中绿色为A基因组,紫色为B基因组,黄色为D基因组。我们可以看出,puroindoline(pin)基因家族共有5个成员(它们在通路中应该也位于相同的位置),但5个成员在3个发育时期以及种子不同组织部位的基因表达模式并不相同(图4中央的热图所示)。


那么,如果你关心的是发育早期(10 DPA)的调控基因,那么可以选择A基因组和D基因组上的pin-B2基因进行研究,因为它们在早期表达量较高;如果你关心的是发育晚期(30 DPA)依然在起调控作用的基因,来自D基因组的pin-A和pin-B就属于优先研究的候选目标。大概你可以看出了基因家族的不同成员往往有着相互协作的关系,可能在不同时期分别行使各自的功能。


但在整个发育过程中,哪些家族成员起到的作用最大呢?那么我们就需要考虑比较不同家族成员间的基因表达量。根据图4右侧的条形图,我们可以发现来自D基因组的pin-A和pin-B这两个基因的表达量占据了整个基因家族大部分的表达量。说明这两个基因在发育过程中起着主要的作用,如果我们要研究这个基因家族的调控机制,这两个基因是值得优先入手的。


图4 6倍体小麦中与烘焙质量相关的puroindoline(pin)基因家族成员在小麦A, B, D三个基因组中的不同时期不同组织的表达量热图[1]


参考文献:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多