分享

综述 | 异源多倍体亚基因组鉴定及其进化意义分析

 kibcat 2024-04-20 发布于美国

摘要

全基因组组复制(WGD)事件在真核生物中很普遍,不少人认为全基因组复制对许多谱系的成功进化起到了促进作用,就比如说有花植物,酵母,以及脊椎动物。WGD事件后产生的物种可以分为两类,一类是同源多倍体——autopolyploidy(单个祖先物种的染色体自我加倍),另一类是异源多倍体——allopolyploidy(多个祖先物种杂交后染色体加倍)。将异源多倍体中的染色体按照祖先来源(这在多倍体中也叫做亚基因组)拆分对我们理解多倍体的进化与生物学意义十分重要,就比如异源多倍体研究中常做的亚基因组差异进化(biased fractionation)分析。在本篇综述中,我总结了识别异源多倍体亚基因组血统成分的不同方法,并讨论了这些方法的优点与不足,同时概述了使用这些方法将会对后续的基因组进化分析产生何种影响。

多倍体基因组的多样性

多倍体指的是一个生物拥有超过两套完整的染色体。然而这也可能发生在一个二倍体生物的特定细胞中,例如在特定的哺乳动物器官中,发生在生物体水平的多倍化通常叫做WGD。WGD的研究最早是在上世纪初在植物中进行,而动物的多倍体研究则开始于70年代。尽管在真核生物中的多倍化事件很普遍,不过绝大多数多倍体研究重点关注植物基因组,这是由于植物中有更高比例的多倍体。多倍化是一个泛真核生物发生的现象,对多倍体生物学意义的正确理解需要对真核生物各主要分支中的多倍体均进行研究。自从多倍体对许多谱系(例如有花植物,酿酒酵母,以及脊椎动物)的成功进化具有贡献这个假说提出以来,现有的各种分析都把重点放在了多倍体对遗传与进化的影响上。    

多倍体的形成机制

一般说来,有两种多倍体:同源多倍体和异源多倍体。同源多倍体由单个物种基因组加倍而来,而异源多倍体则是由不同物种间种间杂交后基因组加倍产生。虽然在植物中种间杂交有多种方式,但是我们在植物,动物和真菌中却发现了一种通过异源三倍体作为桥梁形成异源多倍体的现象(图1A)。在异源多倍体中,由祖先亲物种贡献的基因组叫做亚基因组。在多倍体的进化早期阶段,同源多倍体在减数分裂期间经常表现出四条染色体配对的行为(形成多价体或优先配对的二价体),并且会经历一个叫做再二倍化(rediploidization)的过程重新恢复为二倍体状态。全部几套染色体的再二倍化过程并不要求同时发生,一个例子就是古老的同源多倍体的三文鱼(salmon),它经历了两次不同的再二倍化浪潮。这与异源多倍体形成了鲜明的对比,异源多倍体的亚基因组在减数分裂时具有较大的差异,在同源染色体间形成二价体。然而,异源多倍体减数分裂时的稳定性并非看起来那么微不足道,因为我们要考虑到在异源多倍体进化的早期阶段,必然有某种机制能够将亚基因组区分开来。在异源六倍体面包小麦中,Ph1基因被发现有助于避免非同源染色体配对,虽然相关的分子机制暂时还没有完全弄清。在其他异源多倍体中Ph1的直系同源基因并未发现参与减数分裂的保真。鉴于大多数异源多倍体并未表现出部分同源染色体(homoeologs,指的是来自两(多)个不同物种的两(多)条染色体,但是这两(多)条染色体可以追溯到一个共同祖先的某条染色体上,只不过由于杂交后的染色体重排事件,它们可能只共享祖先染色体的一部分片段)间的重组,因此我们会很容易地去假设在其他物种中也存在类似Ph1的基因,不过目前还没有相关的报告。不过一些新合成的异源多倍体在减数分裂期间,可能会表现出更大规模的不规则染色体配置行为,而在异源多倍体的早期进化阶段,部分同源染色体间可能会经历罕见的重组事件,并且该重组区域会在群体中固定下来。因此,早期异源多倍体的减数分裂不兼容并不是绝对的。异源多倍体有一点与同源多倍体相似,即异源多倍体的减数分裂行为会随着时间推移而变得更加稳定。然而,随着部分同源重组的发生频率下降,在亚基因组内核亚基因组间的易位及其他染色体重排事件的发生频率却在上升,这会导致亚基因组的混杂。随着二价体遗传模式的恢复,同源多倍体间也可能经历多价染色体前的重排事件。因此,在等待漫长的进化时间后,同源多倍体和异源多倍体都将恢复成二价体遗传模式,这时同源多倍体重复的基因组间与异源多倍体不同亚基因组间早已混杂得面目全非。总之,这些因素使得我们想要破译古老多倍体基因组的起源变得尤为困难。    

Image    

图 异源多倍体(A)和同源多倍体(B)减数分裂过程中的染色体配对情况

在本篇综述中,我总结了怎样通过实验或计算生物学的手段来拆分亚基因组,概述了不同方法的优点与不足,并且讨论了研究更高倍性多倍体(六倍体或更高)的方法的内涵。

Image

图1 通过异源三倍体桥梁形成异源多倍体和亚基因组鉴定策略

单个异源多倍体亚基因组的识别

异源多倍体亚基因组为基因组进化提供了独特的天然实验,其中二倍体物种及其相关亚基因组之间的比较分析可以为我们了解基因组如何响应倍性差异提供启发。通过基因组复制引入的基因冗余和衰减也为我们提供了一个模拟特定突变如何导致基因表达差异的绝好机会。因此,生物学家对了解亚基因组进化历史的兴趣已经超越了好奇心这个范畴。正确识别亚基因组十分重要,我们可以利用这些独特的基因组进化的天然实验,进一步加深我们对进化遗传学的理解。此外,许多重要的作物都是多倍体,亚基因组的正确鉴定对于这些生物的功能基因组学研究至关重要。异源多倍体的亚基因组鉴定的困难程度取决于祖先二倍体亲本是否被采样,以及一些其他因素,如复杂的种群细分(population subdivision)。由于对一个群体或类群现有的多样性知识掌握不充分,或对其遗传背景知识掌握不完全,或自多倍体出现后二倍体谱系就已灭绝等原因,我们未必就能在现实中找到异源多倍体的祖先亲本物种。一个例子就是异源八倍体草莓,提供亚基因组的祖先物种一部分已经找到,而另一部分未找到,可能有的二倍体、四倍体和六倍体祖先已经灭绝。如果二倍体祖先物种未被找到,那么异源多倍体的亚基因组鉴定将颇具挑战性。亚基因组可以通过以下几种比较方法来鉴定。    

祖先亲本已找到情况下亚基因组的鉴定

在早期对不同倍性小麦的细胞遗传学分析中,研究人员根据染色体形态鉴定到了异源六倍体面包小麦(bread wheat)的二倍体和四倍体祖先。最近,一种类似的方法被用于分析异源六倍体亚麻荠(Camelina sativa)的亚基因组起源,其中许多发生在祖先物种中的染色体重排被用于鉴定二倍体与异源六倍体亚基因组的共享遗传区段。对于这两种方法而言,独特的结构差异为二倍体和多倍体染色体提供了固有的特性,使得基于利用共享的遗传区段去识别染色体来源成为可能。早期利用二倍体和四倍体芸薹(Brassica)人工合成杂交种,并对其染色体配对行为进行分析,鉴定到了三个四倍体芸苔属的二倍体祖先。最近,染色体荧光原位杂交技术(fluorescence in situ hybridization, FSH)被用于模式禾草——短柄草(Brachypodium),研究结果表明来自两个二倍体短柄草物种B. distachyonB. stacei的基因组DNA与异源四倍体短柄草中不同套染色体结合,成功定义了两个亚基因组的来源。这些细胞遗传学实验应该被认为是亚基因组鉴定最强有力的证据,因为共同的染色体重排以及染色体与外源DNA之间的物理联系都是最近共享同一血统的明显标志。    

在异源四倍体棉花(cotton)中,研究人员首次利用16个基因在二倍体和四倍体中进行系统发育聚类分析,以阐明A和D亚基因组的来源。虽然棉花的例子证明了仅利用少量遗传资源是可行的,但许多其他多倍体基因组可能需要更多的基因资源来解析祖先的来源。这种差异可能一定程度上是由于棉花祖先亚基因组之间的分歧。其他因素包括杂交后部分同源染色体重排,例如对异源四倍体烟草(Nicotiana tabacum)的部分同源交换(homoeologous exchange, HE)的描述;不过,在棉花中HE被认为是罕见的。在这些情况下,通常需要对整个多倍体基因组进行测序,才能确定亚基因组的归属。系统发育比较的方法也能够解析古老的多倍化事件。例如,对近1亿年历史的Saccharomyces duplication和近缘的酵母分支基因组进行测序,我们可以将它们的同源基因指派到ZT或KLE祖先谱系。亚基因组的拆分并不一定需要拥有祖先二倍体的基因或完整基因组。在异源四倍体烟草中(N. tabacum)它的亚基因组拆分是通过将近缘二倍体的reads与异源四倍体的基因组对齐来确定的,尽管存在许多杂交后重排。

对于异源四倍体来说,只要一个祖先物种仍然存在,就足以确定亚基因组的分配。这在异源四倍体鲤鱼(cyprinids)中是适用的,其中虎皮鱼(tiger barb)更接近B亚基因组,而A亚基因组的祖先要么未被找到,要么已经灭绝。找不到祖先物种对于更高倍性异源多倍体的亚基因组拆分来说是一个难题;例如,在异源八倍体草莓(strawberry)中,仅确定了四个潜在的二倍体祖先中的两个,导致对草莓基因组的进化起源的理解仍存在争议。八倍体草莓这个例子还说明了不完全谱系分选如何干扰系统发育亚基因组分配。具体来说,已找到的草莓二倍体祖先物种通常在可靠的系统发育树中未充分分歧,在诸如此类的情况下,异源多倍体草莓某亚基因组与近缘的二倍体草莓(并不是该异源多倍体草莓的真实祖先亲本物种,而只是由于不完全谱系分选而与异源多倍体的某亚基因组聚在一起)聚在一起,这时系统发育的方法将无法确定亚基因组的真实祖先。一项未被充分利用的技术可能有助于解决该问题,那就是绘制多个物种的全基因组图谱,并将共享的存在-缺失变异(presence–absence variation, PAV)用作最近共享祖先的标记。    

祖先亲本未找到情况下亚基因组的鉴定

在没有祖先物种的情况下,不能依靠系统发育的方法来重建亚基因组的进化历史。相反,受到前文描述的植物细胞遗传学实验的启发,异源多倍体基因组中的内在信号可被用来拆分亚基因组。在杂交后,异源多倍体的亚基因组经常不对称地进化,其中一个亚基因组起主导作用,该亚基因组会保留更多基因、有更高的基因表达、经历更多净化选择(purifying selection)以及其他一些事件。这个过程被称为偏向性分级(biased fractionation)(或者理解成亚基因组优势,subgenome dominance);最早是在拟南芥(Arabidopsis)中发现了该现象,偏向性分级现象随后在许多异源多倍体中被描述。有来自各个时代(自杂交以来1-10个百万年)的植物和动物异源多倍体的诸多案例,没有显示出偏向性分级的证据。并且,也没有一个同源多倍体显示出偏向性分级的证据。鉴于这些结果,偏向性分级可以被用作将相关基因块分配到不同亚基因组的合理信号。这一逻辑首先应用于玉米(maize),最近应用于古老的脊椎动物基因组复制事件的研究,其中大约在4.5亿年前的第二轮基因组复制事件后显示出偏向性分级,并推测这是异源多倍化的结果。    

由于也存在不显示偏向性分级(亚基因组优势)的异源多倍体亚基因组,因此可以使用其他内在信号来划分亚基因组。在异源四倍体青蛙中(Xenopus laevis)通过识别不同祖先亲本物种特有的不同转座元件(TEs)家族来确定亚基因组。由于在杂交后,这两个亚基因组在几千万年的演化过程中仍然在减数分裂上有明显差异,因此这些序列尽管在杂交后已经过了数千万年的演化,但仍然保持不对称分布。由于脊椎动物基因组中有40-50%的重复元件,使用基因组组装软件Meraculous对reads进行k-mer(长度为k的DNA序列)分析,与直接的转座子系统发育比较方法相比,该方法可以较快的速度识别出具有特定亚基因组偏向性的转座子属于哪一个谱系。染色体FISH被用来确认这些古老的扩张不是基因组组装软件带来的人为引入的(artifacts)。具有偏向性亚基因组分布的TEs自此被用来确定其他异源多倍体中的亚基因组如何分配。

异源多倍体亚基因组鉴定的计算工具

前文讨论的许多方法,很多已经在重要的科学、农业或生物能源系统的基因组测序项目发挥作用。在这些情况下,用于识别亚基因组的遗传和细胞遗传学分析流程已经由研究每个生物类群的科学家分别建立起来。生成染色体水平的基因组最近变得更加容易,这增加了可供研究的非模式生物基因组的数量,其中就包括许多多倍体。具体来说,由于长读长测序和染色体捕获构象技术(Hi-C)的改进,基因组组装的长度和质量都得到了明显的提高,使得研究人员对非模式的多倍体也能够迅速生成染色体水平的组装。因此,现在对于识别多倍体亚基因组的计算工具有很强的需求。这些工具主要分为两大类:(i)利用近缘物种的测序结果和系统发育关系图的工具,一部分是通过DNA进行比较,另一部分则是RNA比较;(ii)通过系统发育比较或k-mer分析识别两个亚基因组之间的差异重复分布的工具。到目前为止,尚未开发出利用染色体形态差异来识别亚基因组的计算工具,这可能是因为与系统发育和k-mer分析相比,收集和处理大量细胞遗传学数据的难度较大。同样,在异源多倍体中自动检测偏向性分级的工具也不存在,这可能是因为需要协调大量不同数据集来为这种分析提供有力的论据。    

基于系统发育与测序结果的工具

第一个用于识别亚基因组的计算工具是MCScanX,它是一个系统发育分析上经常用到软件,该软件使用两个物种之间的直系同源蛋白及其基因座的列表,并识别能被其他软件可视化的直系同源区块。当与一个异源多倍体和现存的祖先物种联合分析时,MCScanX可以划分异源多倍体的亚基因组。当一个异源多倍体和单独一个单倍体外群联合分析时,MCScanX可以基于丰富的连锁重复来识别潜在的基因组重复。PhyloSD是一个专门基于RNA测序(Seq)的reads和系统发育分析来识别异源多倍体亚基因组的二倍体祖先的软件集。GENESPACE也是一个系统发育分析会用到软件,它对两个物种之间的蛋白质序列进行比对,并生成共线性图,该软件需要依赖于外部软件包。与MCScanX和PhyloSD相比,GENESPACE提供了更简单的设置和可视化过程,因此对于非计算生物学家来说,可能更容易使用。

第一个利用短reads进行亚基因组鉴定的比对的工具是 SNiPloid,它依靠将来自单一基因型的短reads与对应于二倍体祖先之一的转录组参考序列进行比较来拆分亚基因组。SNiPloid 在很大程度上可以说是一个组装软件,它与 GATK 结合,通过使用 BWA 等制图软件来召回这些比对中的变异,并根据较小的距离将reads划分到更有可能来自同一个亚基因组的reads群中。过去十年,许多算法都采用了这种基于比对的变异召回策略。最近,开发出了the Comprehensive Allopolyploid Genotyper(CAPG)软件,它的优点是所要求的外部程序较少,但仍依赖外部软件包来进行可视化。  

基于k-mer的工具

继前文中对 X. laevis 的分析之后,我们又开发了几种工具来利用所组装的异源多倍体基因组中不同的 k-mer 分布信息。这些工具即使不能识别提供差异 k-mer 信号的潜在 TE,也能利用差异重复分布信息对亚基因组进行聚类,同时避免了 TE 家族识别和比对的困难。因此,由于单细胞酵母的重复元件含量较低(1-2%),即使是已知亲本祖先来源的异源多倍体酵母,下午文要提到的工具也无法识别其亚基因组。一般来说,基于 k-mer的亚基因组鉴定原理是寻找在一组序列中与其他序列相比代表性过高的 k-mer,并寻找这些序列在所有同源染色体对或基因块中的联合(union)。这些方法在易用性、输出格式、检测较古杂交的能力、运行时间以及检测高倍性异源多倍体中组合信号的能力等方面存在差异。

表1不同亚基因组鉴定方法及其在不同物种中的应用总结    

Image

Mash是一个主要用于快速聚类参考基因组或短reads数据的宏基因组工具。最近才开始将其用于划分异源多倍体亚基因组,其设置、运行和输出尚未标准化,因此还不是一个专门用于此目的的工具。尽管该工具是在与首次用于划分X. laevis亚基因组的k-mer方法相同的年份开发的,但直到最近才发现可用于多倍体基因组的分析。这表明可能还有更多的宏基因组方法和工具可以专门用于研究异源多倍体的进化。

PolyCRACKER是一个将染色体水平的异源多倍体基因组分割成子序列的工具,并使用用户提供的聚类方法查找差异分布的k-mer。虽然该工具的输入相对简单,但基因组fasta文件和默认输出是大型聚类图,需要额外的工具进行可视化。PolyCRACKER的许多选项,这为计算生物学家的分析提供了灵活性,但也可能让想要仅使用默认参数来识别亚基因组的非计算生物学家感到困惑。总的来说,一个更简单的默认参数设置和输出,着重于对输入染色体进行聚类,而不是k-mer或子序列,可能会增加PolyCRACKER的未来使用率

表2 K-mer方法输入、输出和相对运行时间    

Image

SubPhaser利用基因组和部分同源染色体集合信息,并使用染色体水平的标准化k-mer计数方法将染色体划分到不同亚基因组中。输入文件是基因组fasta文件和一份部分同源染色体表。输出包括k-mer频率图、k-mer聚类图、TE聚类图、染色体聚类图,以及一个Circos图,显示沿着染色体的差异k-mer的分布。SubPhaser易于使用,并提供详细的输出来证明其亚基因组分配的合理性。虽然SubPhaser可以识别高倍性异源多倍体中的各个亚基因组,但它的k-means聚类策略确实需要用户指定聚类的数目,且无法识别在异源六倍体和异源八倍体中亚基因组间共享的k-mer。这些共享的k-mer对于单个亚基因组的分配并不具有信息性,但对于研究祖先物种的杂交顺序是有用的。

最近开发的K-mer Based Subgenome Mapping(KBSM)工具,类似于SubPhaser,它接受基因组和部分同源染色体集合的输入信息,并使用标准化的K-mer计数将染色体划分为亚基因组。第一步是基于K-mer计数的简单层次聚类,然后进行ANOVA Tukey的事实显著性差异(honestly significant difference,HSD)检验,以统计评估将每个K-mer划分到不同亚基因组的能力。输入与SubPhaser相同,但只产生染色体聚类和K-mer聚类,以证明其亚基因组调用的合理性。KBSM相对于SubPhaser的优势在于对高倍性异源多倍体的分析,其中每个K-mer的ANOVA测试可以识别在多个亚基因组之间共享的K-mer,而不仅仅是对一个特定的亚基因组,这点就像K-means聚类一样。    

总的来说,当前基于K-mer的各种方法中,SubPhaser为异源四倍体亚基因组的鉴定提供了最简单的设置和最有用的输出。即使对于更高倍性的异源多倍体,在初始亚基因组鉴定上的简单性也使其成为湿实验室中生物学家所青睐的工具,尤其是对于编程经验有限的研究人员而言,更是如此。PolyCRACKER、SubPhaser和KBSM的运行时间可能会太长,以至于无法在单个计算机上运行而需要使用计算机集群,因为这些程序可能需要进行数百万次计算;因此,与通过降维的方法以实现更快聚类的Mash相比,这些软件则不存在绝对的优势。

基于系统发育的工具与基于k-mer的工具的比较

表1总结了不同工具在不同条件和分化时间下亚基因组鉴定的能力。只有在至少一个祖先亲本物种找到的情况下,系统发育方法和测序工具才能用于解决亚基因组分配的问题,而基于K-mer的方法依赖于基因组在长时间内维持转座元件。本综述讨论的这些专门基于K-mer的方法都无法解决已知的近期酵母异源多倍体亚基因组拆分的难题,不过通过测序却很容易解决其祖先来源问题,虽然很可能Mash与二倍体祖先的基因组一起使用时能够解决这些物种的祖先问题。一般来说,基于K-mer的方法在它们能够研究的多倍体的分化时间方面受到限制,这取决于异源多倍体基因组中转座子丢失的速率。在植物基因组中,这相当于大约600万年的时间,而在动物中目前尚不清楚,尽管通过K-mer分析在X. laevis中识别出的最古老的亚基因组特异性TEs年龄为3200万至3300万年。考虑到这些工具未能识别出古老的脊椎动物亚基因组,通过K-mer分析识别脊椎动物的亚基因组的限制在3300万至4亿年之间。植物和动物分化时间限制之间的差异可能是由于植物和动物之间基因组进化速率的不同,但在选择方法时必须加以考虑。由于它们的分化时间,讨论的标准化方法都无法解决古老的脊椎动物亚基因组拆分问题。同样地,也没有标准化的方法可以识别古老酵母的亚基因组,这可能是由于重复序列密度低和分化时间较长。    

高倍性异源多倍体亚基因组鉴定的意义

尽管在异源四倍体中定义偏向性分级(亚基因组优势)相对简单,并且本身可以作为识别亚基因组的方法,但随着时间推移,驱动这一分级的潜在分子机制仍然不为人们所理解。这在研究新近发生的高倍性异源多倍体时需要纳入考虑,因为这些生物的不同亚基因组将根据杂交顺序经历不同程度的纯化选择(图2)。这将导致最近加入的亚基因组表现为具有优势性(保留更多基因、具有更高表达等);然而,如果存在一个驱动偏向性分级的顺式调控过程,它不一定会在最近加入亚基因组后形成的高倍性异源多倍体中找到某个优势亚基因组(编者注:这一问题可以详见发表在Nature Genetics上一篇关于竹子异源六倍体中发现的亚基因组优势转移的讨论。→11个竹子基因组解析亚基因组优势动态演化机制。因此,考虑到能够解析亚基因组共享血统的方法是很重要的,目前只有KBSM能够做到这一点。    

Image

图2 祖先宽松的净化选择如何影响高倍性异源多倍体的亚基因组优势

总结性评论

正确识别异源多倍体亚基因组是一项困难的任务,随着基因组测序和组装变得更加容易,对此的需求正在增加。在这些方法基础上取得的最新进展在选择不同物种时具有明显的优势和劣势。随着来自真核生命之树各分支的多倍体基因组数量的增加,开发一套能够标准化地用于亚基因组鉴定的强大工具将变得非常重要。这些分析不仅多倍体生物学家感兴趣,而且其他领域的研究人员也很感兴趣,因为异源多倍体是基因组进化中独特的自然实验(见未解决的问题)。

附:未解决的问题    

1、能否开发标准化工具,利用染色体结构变化或偏向分化来识别亚基因组?

2、标准化工具能否用于识别古老的酵母(1 亿年前)或脊椎动物(4 亿年前)基因组重复?

3、为研究偏向分化而开发的工具能否深入了解顺式进化?

文献信息

Publication history

Published online: April 17, 2024

Publication stage

In press, corrected proofIdentification

DOI: https:///10.1016/j.tig.2024.03.008  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多