原标题:The promise and pitfalls of synteny in phylogenomics 摘要 重建生命之树仍然是生物学研究的重要目标。早期的研究方法,主要依赖少量的形态性状,或遗传特征(characters),最终总是得到冲突的系统发育历史,削弱了结果的可信性。基于成百上千个基因的信息来推测系统发育关系的相关研究,为我们了解生命的演化历史提供了一张全景图,但是具体到某些分支,仍然存在位置摆放的问题。为了解决生命之树上那些困难的节点(nodes),最近开展的两项研究检验了共线性(synteny)在系统发育推断中的利用价值,共线性指的是在两种或多种生物中直系同源基因(orthologous genetic loci)保守的线性关系(conserved collinearity)。共线性在系统发育基因组学研究中表现出巨大潜力,同时也带来了新的挑战。本综述将讨论这些机遇和挑战,以及共线性数据和其他罕见的基因组变化对系统发育基因组学研究的价值及意义。基于高度连续的基因组共线性分析,标志着系统基因组学时代的新篇章和重建生命之树的新探索。 正文
可以说,系统发育研究中最雄心勃勃的目标是重建整个生命之树。为了构建系统发育树,我们尝试使用了不同的数据类型;与此同时,我们对生命之树的理解随着方法论的每一次进步而更加深刻。 早期的研究依赖于对齐单个或几个基因来重建进化历史,但对不同基因的分析往往产生具有冲突或支持率不高的拓扑结构的系统发育关系(图1A-C)。这可能是由于不完全谱系分选,祖先等位基因的随机分选等因素造成的。这种现象在受平衡选择(under balancing selection)的内含子和基因中很明显。全基因组测序成本的下降为系统发育基因组组学时代的发展铺平了道路,在系统发育基因组学时代,我们可以通过全证据的方法(a total evidence approach),同时分析成百上千个直系同源基因。 图 1. 灵长类动物、动物树基部和硬骨鱼系统发育的矛盾和替代假说的描述。 (A) 树形相互矛盾的例子。大量证据强烈支持倭黑猩猩和黑猩猩之间的姐妹关系,并排除人类。(B, C) 不一致的系统发育树会暗示人类和黑猩猩 (B) 或人类和倭黑猩猩 (C) 之间的姐妹关系。(D-G) 有关早期动物进化的争论主要集中在海绵 (D) 或栉水母 (E) 是否最先从所有其他动物中分化出来:分别为海绵优先 (F) 和栉水母优先 (G) 假说。(H-M) 在硬骨鱼中,争论的焦点是三大谱系——真鲱目 (主要是瘦头鱼类;H)、骨舌鱼目 (主要是骨舌鱼类;I) 和真骨下纲 (所有其他硬骨鱼类;J) 之间的关系。Eloposteoglossocephala (EO-sister) 假说 (K) 提出瘦头鱼类和骨舌鱼类之间的姐妹关系,而 Elopomorpha-first (L) 和 Osteoglossomorpha-first (M) 假说分别认为瘦头鱼类或骨舌鱼类在其他谱系分化之前首先分化。最近采用共线性作为系统发育标记的研究支持栉水母优先 (G) 和 EO-sister (K) 假说。所有图像均来自维基媒体共享资源 (https://commons.) 或 PhyloPic (https://www.),并已捐献给公众;所有贡献者均应获得相应的荣誉。 系统发育组基因组学已经成功解决了此前生命之树中有问题的分支,确定了蜕皮动物(Ecdysozoa)中线虫(nematodes)和节肢动物(arthropods)的单系性,将乌龟(turtles)作为祖龙(鳄鱼和鸟类的共同祖先)(archosaurs (crocodiles and birds))的姐妹群,以及真核生物(eukaryotes)与古菌域(Archaea)系统发育位置等重大问题。这些成功的案例使系统发育基因组学成为重建许多生物谱系进化史的当前标准。然而,目前的系统发育基因组学方法仍不能解决某些深层次的分支问题。 因此,系统发育学家试图寻找能够准确反映进化历史的新基因组特征(genomic characters),部分原因是这些基因组特征不太可能在不相关的生物群中独立进化。为此,最近的两项研究测试了基因synteny信息作为系统发育特征的功效(utility)。本篇综述回顾了这些富有启发性的研究背后的挑战,评估了基因synteny作为系统发育新特征的当前价值,并为未来使用基因synteny信息重建生命之树提供了路线图(roadmap)。 |生命之树中纠缠在一起的分支 尽管生命之树中有许多未被厘清的分支,但其中有两个主要挑战涉及如何给动物(这里主要指后生动物,即Metazoan)生命之树定根,以及硬骨鱼(一个包含近一半脊椎动物的群体)主要分支之间的关系。上述这些进化问题说明了,基因组数据的分析为何会产生冲突的系统发育关系,并削弱了我们完整重建生命之树的能力。围绕后生动物生命之树根的争议有些出乎意料,因为形态学比较始终倾向于将海绵(属于多孔动物门,图1D),而不是栉水母(属于栉水母动物门,图1E),作为后生动物中(metazoan)最早分化出来的谱系;这一假说在系统发育学(phylogenetics)的单基因(single-loucus)时代几乎得到了普遍支持(图1F)。然而,系统发育基因组学(phylogenomics)的出现改变了这种情况。2008年的一项研究,使用来自77个类群的150个基因,包括两份海绵和两份栉水母,为栉水母作为后生动物生命之树的根提供了第一份证据(图1G)。之后,在2009年,一项使用128个基因和55个类群(包括9份海绵和3份栉水母)的研究则支持了海绵优先假说。从那时起,使用系统发育基因组学的最新方法,分析更大数据集(包括数十种栉水母和海绵)的研究为两种相互冲突的假说提供了令人信服且相互矛盾的证据。 硬骨鱼系统发育中的早期分支模式也引起了激烈的争论。硬骨鱼包括三个主要分支:海鲢总目(Elopomorpha,mostly slim-headed fish like bonefish, eels, and skipjacks;主要是细头鱼,如北梭鱼、鳗鱼和鲣鱼;图1H)、骨舌总目(Osteoglossomorpha,mostly bony-tongued fish like elephantnose fish, doublesash butterflyfish, and mormyrids;主要是骨舌鱼,如象鼻鱼、马利蝴蝶鱼和电鱼;图1I)和鲱头鱼总群(Clupeocephala,the remaining extant teleosts like pufferfish and sticklebacks;现存的硬骨鱼,如河豚和棘鱼;图1J)。一些基于单基因的系统发育研究表明,海鲢总目和骨舌总目之间存在姐妹关系,即Eloposteoglossocephala(EO姐妹)假说,其中细头鱼(slim-headed fish)和骨舌鱼(bony-tongued fish)被认为相对于所有其他硬骨鱼形成一个姐妹分支。然而,所有可能的拓扑结构(图1K-M)在系统发育基因组学时代都得到了支持。在冲突的历史挑战下,一些人认为硬骨鱼系统发育基础是辐鳍鱼(ray-finned fish)进化中最重要且仍未解决的问题之一。 |稀有的基因组变化可作为系统发育基因组标记 在这些以及其他正在进行的辩论中,稀有基因组变化作为替代系统发育标记的价值得到了进一步探索。稀有基因组变化(rare genomic changes)是相对于主要序列数据的独立系统发育信息来源,可以作为序列数据的补充或在序列数据不能完全解决系统发育问题时,用于推断系统发育关系的替代方案。一些稀有基因组变化(包括插入和缺失、基因复制和丢失以及遗传密码替换)的系统发育分布,往往反映了主要脊椎动物、昆虫、真菌及相关谱系之间可能的进化关系。 早期开展的稀有基因组变化在系统发育学中前景的研究是在广泛可用的全基因组序列之前进行的。20世纪30年代,Sturtevant和Dobzhansky通过分析唾液腺(salivary glands)多线染色体(polytene chromosomes)中的染色体倒位,重建了拟暗果蝇(Drosophila pseudoobscura)种群间的系统发育关系。这些观察使Sturtevant和Dobzhansky提出这样这样一种假设,比较“相同染色体上的不同基因的排列顺序在某些情况下可能会揭示这些种群结构的历史关系,从而揭示物种整体的历史。”Hampton Carson在1983年进行了类似分析,用于重建夏威夷果蝇的进化关系,相关结果支持这一假设。 已经发现了其他反映系统发育的稀有基因组变化的案例。拷贝数目变异(复制或删除的基因)、基因存在-缺失多态性(gene presence–absence polymorphisms)以及转座元件插入和缺失,均可以反映群体结构和更深层次的进化关系。例如,人类及双极出芽酵母(bipolar budding yeast)Hanseniaspora谱系中都检测到了特定谱系的基因复制和丢失事件。CUG密码子被重新编码为丙氨酸和丝氨酸,而不是亮氨酸,这发生在酵母的一个单系进化谱系中。在更古老的分支中,使用光敏色素基因的复制模式成功地确定了被子植物的系统发育关系中的根部分支。 然而,稀有基因组变化并不是系统发育推断的完美工具。例如,稀有基因组变化可能会趋同进化。基因复制丢失在扁虫(flatworms)中反复出现,酵母菌亚门(Saccharomycotina)真菌中的CUG密码子从亮氨酸重新编码为丝氨酸独立发生了两次。也有观察到基因组结构特征的趋同。例如,线粒体基因组大小、结构和成分在扁盘动物、壶菌和领鞭虫(Placozoa, chytrid fungi, and choanoflagellates)中趋同进化,曾一度推断扁盘动物首先从所有其他动物中分化出来——这一假设之后被核基因的系统基因发育基因组学分析所否定。即使在胡桃(walnuts)的近缘物种中,从大量局部基因顺序数据、DNA序列比对和基因家族成员推断的系统发育树也会得出不同的拓扑结构。 因此,稀有基因组变化的效用是混合的。几个例子表明,稀有基因组变化可以反映进化历史,而其他例子则与使用其他数据类型建立的公认进化关系相矛盾。确定何时以及使用哪些稀有基因组变化,一直稀有基因组变化检测方法和分析信息性算法稀缺的阻碍。 |在系统发育基因组学时代,共线性信息开始浮现 随着可公开获取的基因组数量爆炸性增长,以及相关算法的开发,系统基因组学领域已经准备好重新审视稀有基因组变化,特别是共线性在系统发育推断中的价值。用户友好的软件使得检测生物基因组中的共线性DNA序列成为可能,从而简化了稳健的基于直系同源推断的微共线性和宏共线性变化的分析。只要没有趋同进化作用,基因顺序中共享的重排事件预计会指示共同的进化历史。 图 2. 基于序列的系统发育数据类型。 考虑四个分类单元(用 T1、T2、T3 和 T4 表示)之间的关系,其中 T1 和 T2 以及 T3 和 T4 是姐妹群。基因组结构的变化可以在微共线性(短片段的同源位点;A)或宏共线性(长片段的同源位点;B)尺度上进行检查。共线性变化可以通过不同的过程来描述,例如不混合的融合事件(C)和混合的融合事件(D)。(A)在微共线性的情况下,在蓝色和橙色位点之间可能会出现倒位的证据(底部),这是发生在 T3 和 T4 祖先中的。(B)同样的现象也可能发生在宏共线性中。(C)不混合的融合事件在两个染色体之间也可能反映系统发育。在这种情况下,融合事件可能发生在 T3 和 T4 的祖先之间(底部)。(D)混合的融合事件也可以用于重建系统发育。注意,面板 A-D 底部的进化情景仅显示了众多可能情景中最可能的一个。(E)混合的融合事件可能发生在两个步骤中。首先,发生融合事件,然后发生重排,打乱了原本在不同染色体上编码的基因顺序。因此,从“无融合”状态到“无混合融合”状态(反之亦然)以及从“无混合融合”状态到“混合融合”状态的转换概率相对较高,而从“混合融合”状态到“无混合融合”状态的转换概率则较低。直接从“无融合”状态转换到“混合融合”状态的可能性极低,可能需要一个中间的“无混合融合”状态。转换概率可能因生物体的基因组生物学、共线性区域的大小及其他参数而异。 驱动共线性变化的一个主要分子机制是不等同源重组(unequal homologous recombination)。具有多拷贝相似序列的基因组(如植物基因组中的转座元件)特别容易发生不等同源重组。同样,高度相似但非等位序列之间的重组(非同源重组,nonhomologous recombination)可能导致重大突变事件,如反复的缺失或重复。其他容易出错的DNA修复机制——包括非同源末端连接(nonhomologous end joining)——也可能导致共线性变化。重组事件是否导致微共线性或宏共线性变化,取决于重组区域之间的间距。 酵母菌亚门(Saccharomycotina)一直是开发和测试系统发育方法的模式谱系。将酵母菌亚门(Saccharomycotina)中共享的共线性块之间的关系与先前使用串联多序列比对推断的进化历史进行比较,发现几乎99%的微共线性块在近缘物种中共享的可能性高于随机概率,从而加强了共线性可以反映系统发育的概念。通过模拟和对实证数据的检查,后续的软件和生物信息学管道(pipeline)的开发促进了基于共线性块的生物历史推断。尽管这些研究主要通过原理验证方法(proof-of-principle approaches)(即重新评估已建立的关系或使用模拟场景)来确定共线性的实用性,但将这些方法应用于解决生命之树争议则是一个较新的发展方向。 |共线性为生命之树带来了新视野 共线性与后生动物生命之树的根 最近一项基于重建祖先基因连锁群的研究,为后生动物生命树基部的海绵-栉水母之争带来了新数据。该研究使用了海绵、栉水母、两侧对称动物、刺胞动物和3个外类群物种的基因组数据集——外类群包括一个领鞭虫(Salpingoeca rosetta)、一个丝足虫(Capsaspora owczarzaki)和一个鱼孢子虫(Creolimax fragrantissima)。尽管由于久远时间内染色体重排的积累,检测这些基因组中的共线性变得复杂,比较分析还是通过三方或四方的相互最佳BLAST命中(3-way or 4-way reciprocal best BLAST hits)找到了在外类群和动物类群之间保守的共线性块;动物与丝足虫或领鞭虫分别共享29和20个不同的共线性块。值得注意的是,所有在领鞭虫中识别出的20个共线性区域在丝足虫中也存在。 推断出的保守的共线性块的进化变化根据外类群分为三类——无融合、融合但无混合、以及融合伴随混合(no fusion, fusion-without-mixing, and fusion-with-mixing)——然后被编码并用于系统发育框架中。“无融合”指的是保持不同染色体上的共线性块不变。例如,假设一个祖先生物在一条染色体上包含基因A、B和C,而在另一条染色体上包含基因X、Y和Z。如果来自祖先生物的基因A、B和C,以及基因X、Y和Z的两个基因块,在这两个后代生物中保持在不同的染色体上(染色体1和2),则表示“无融合”。在“融合但无混合”的情况下,共线性块A和B在后代基因组中共存于同一条染色体上。这个现象在人类的近端着丝粒染色体中通过罗伯逊易位被相对充分地记录下来。最后,“融合伴随混合”指的是涉及多个步骤的重排模式;首先是染色体融合,然后是一次或多次导致共线性块交织的重排事件。例如,一条染色体可能包含编码基因A、Z、X、B、Y和C的一段连续的DNA。 为了重建后生动物生命树,融合事件的编码矩阵被用于系统发育推断。从融合伴随混合状态转变到另一种状态(即融合或裂变状态)的概率被认为是不大可能的。贝叶斯分析支持了栉水母优先假说,同样的结论也通过直接使用简约法分析融合事件而得到了具体支持。特别是,栉水母优先假说得到了7个在两侧对称动物、刺胞动物和海绵中共享但在现存栉水母和外类群中缺失的融合事件的支持。这些事件中的四个伴随着混合;在海绵优先假说下,需要趋同的融合伴随混合事件或精确的逆转事件来解释这些数据。因此,这些融合在栉水母和外类群中(除了第7区域的变化外)的缺失被解释为栉水母在这些融合和混合事件之前从所有其他动物中最先分离出来的证据。第7区域可能在丝足虫谱系中独立经历了融合和混合事件。另一种不太可能的情况是,第7区域在所有采样的类群的祖先中已经处于“混合”状态,随后经历了解混和裂变事件,继而出现复杂的融合和混合模式。 图 3. 支持栉水母优先和 EO-sister 假说的共线性总结描述。 (A) 推断的动物和外类群的系统发育,用于研究动物进化树的根。根据栉水母优先假说,区域 1–7 每个都是由两个不同染色体之间的融合事件产生的。橙色区域代表的共线性块在领鞭毛虫类的谱系中发生了分裂事件,导致形成了两个染色体。区域 4–7 经历了随后的混合事件。在每个更高阶谱系名称的下方列出了研究中使用的代表物种的名称 [9]。例如,在两侧对称动物中,研究中包括了来自Pecten属和 Branchiostoma 属的物种。注意,只有与根据动物树的树根有关的融合和混合事件才被描述出来。(B) 7个不同区域的共线性模式最符合栉水母优先假说。对这些区域的检查表明,所有区域都经历了融合事件,其中4个区域还经历了混合事件。每个区域在系统发育中都被缩写为“R”(例如,R1 表示区域 1)。每个共线性区域中的基因数目列在图版底部。(C) 三个硬骨鱼类群所推断的系统发育,包括一个外类群(鸡)。代表性物种的染色体的卡通式插图包含在内。这些物种的俗名在分类名称下方提供。高度连续的基因组装组有助于在整个基因组重复事件之后检测到染色体融合和混合事件。Chr 代表染色体。(D) 观察到的现存物种的染色体被描述为卡通式插图。来自整个基因组重复事件的重复染色体被加深。剪影图像来源于 PhyloPic (https://www.),并已捐赠给公众;所有荣誉归属于其各自的贡献者。 尽管如此,共线性分析的其他发现与已建立的进化关系相矛盾。例如,尽管系统发育基因组学分析稳固地支持领鞭虫是后生动物的最近亲属,然而后生动物与丝足虫共享的共线性块比与领鞭虫的多(分别为29个对20个)。此外,动物和丝足虫之间共享的独特共线性块比领鞭虫多(9个对2个)。共线性保守模式与系统发育基因组学先前的发现之间的不一致性要么表明丝足虫与动物之间存在一个先前未检测到的更近缘的进化关系,要么更有可能是领鞭虫中存在谱系特异性的共线性丧失。 确实,一些领鞭虫经历了独特的基因组进化加速。特别是领鞭虫S. rosetta经历了快速的基因家族进化,相对于后生动物和领鞭虫的最近共同祖先,其基因库成分减少。因此,S. rosetta可能不是系统发育中的最佳的领鞭虫代表,这突显了扩大类群采样的重要性。 同样,融合状态的无偏系统发育分析未能恢复海绵动物的单系性,这与更多近期系统基因组学研究支持该谱系的单系性的结论相矛盾。尽管一些分析支持海绵动物的并系性,这项研究中的海绵样本属于寻常海绵纲(the class Demospongiae),而大多数分析支持该纲是一个单系群。这些观察表明在使用共线性块时要谨慎,特别是在共线性已经丧失的情况下。 共线性与硬骨鱼主要类群间的进化关系 最近通过扩大类群采样的覆盖面和共线性块分析重新审视了硬骨鱼系统发育的早期分支模式。基于每对物种染色体上同源基因的位置来检测共线性。对所得的宏共线性和微共线性数据开展系统发育分析(图2A和2B)——其中共线性保守性的缺乏被用来测量距离——相关结果支持EO-姐妹假说。使用宏共线性数据,近20%的断点支持EO-姐妹假说,使用微共线性数据,这些谱系之间的姐妹关系得到了充分的自举支持。一次独特的染色体融合事件在细头鱼和骨舌鱼中以及另一次在其他硬骨鱼中发生的染色体融合事件的证据进一步证实了EO-姐妹假说;具体来说,在硬骨鱼的干系谱系(stem lineage)上发生了一次全基因组重复事件后,在细头鱼和骨舌鱼中一对染色体发生了融合,而在其他硬骨鱼中,另一对染色体发生了融合并混合(图3C和3D)。 除了基于共线性的分析,还采用了基于序列数据的标准系统基因组学分析方法。基因组学分析和单基因分析支持频率的分布支持了EO-姐妹假说(图1K)。有趣的是,这一发现并未得到先前使用最大似然框架下单基因支持频率和超保守元件研究的支持。因此,随着采样的类群集合的扩大,共线性分析以及基因序列串联和溯祖分析支持了EO-姐妹假说,指出了扩大类群采样的影响。 分析更多类群的数据通常会改善系统发育推断,特别是在系统发育不稳定类群的近亲中。例如,当以单一类群表示时,酵母菌亚门(Saccharomycotina)家族的浆霉科(Ascoideaceae)的位置在两项系统发育基因组学研究中发生了冲突,这些研究可能并不是因基因位点采样不足而受影响。然而,对3个浆霉科(Ascoideaceae)物种和近亲基因组的扩展采样稳固支持了一个假说。额外的分析表明,增加类群采样改善了模型拟合度并提高了焦点谱系的系统发育稳定性。这些研究展示了额外的类群采样如何改进系统发育推断。此外,高质量、染色体水平的基因组组装的益处是多方面的。例如,标准的系统发育基因组学分析将从共线性数据中受益,以改进同源性预测的准确性,宏共线性和微共线性的模式等多种数据类型为系统基因组学研究提供了额外的证据。 |构建基于共线性的高质量生命之树 随着高度连续的基因组组装变得越来越普遍,我们对于共线性作为系统基因组学标记的理解将逐渐成熟。这里,我们提供了一份研究机遇的路线图,并讨论了共线性作为系统基因组学特征使用时面临的挑战(图4A)。
图 4. 基于共线性的系统发育的挑战和机遇路线图。 (A) 关于共线性系统发育最佳实践的步骤的高级总结。资源可用性的限制(计算能力和研究人员时间)决定了每个项目从选择与手头的系统发育问题最相关的分类开始。对于那些缺乏高质量基因组组装的类群,将需要对每个基因组进行序列测序(使用长读取测序技术)和组装。在其他情况下,先前测序和组装的基因组可能已经公开可用。在任何情况下,下一步是使用单一的高质量注释方法注释所有选定基因组中的基因。然后应该利用每个生物的基因组中基因成员之间的比较来识别直系同源基因(直系同源基因以绿色,黄色和蓝色表示)。然后可以使用整个基因组比对和共线性分析检测同源基因。此外,直系同源基因的比对可以被修剪,形成成多序列比对,并用于传统的系统发育分析流程。在考虑了各种误差来源后,可以使用共线性块和多序列比对来推断生命之树的拓扑结构。请注意,步骤中的障碍可以通过回溯路线图来克服;例如,不充分的基因组组装完整性可能会受益于额外的基因组测序。(B) 共线性数据和生物历史可以用于许多研究,包括更好地理解基因簇的功能和进化,重构染色体进化历史,推断整个基因组重复事件和祖先基因组。对于基因簇的功能见解,展示了果蝇胚胎以及预测基因簇如何影响果蝇发育。剪影图像来源于 PhyloPic(https://www.),并已捐赠给公众。其他图标来源于 bioicons(https://),根据 CC-BY 4.0 许可证可用。剪影图像和图标的荣誉归属于其各自的贡献者。 共线性系统发育推断时所要考虑的因素 类群采样/选择 类群采样影响许多下游步骤,例如同源性推断。通常,采样的类群越多越好。外群类群的选择也会影响系统发育基因组学推断。例如,后生动物进化树根的位置很大程度上受所选类群的影响。因此,外类群应慎重选择。幸运的是,现在有越来越多的染色体水平或高度连续的基因组组装可以公开下载和分析。然而,来自采样不足的谱系可能需要进行基因组测序。因此,类群采样应根据所研究的系统发育问题为导向。例如,确定脊椎动物之间的进化关系并不需要在真菌中进行类群采样;事实上,远缘类群的采样不足可能会引入长分支并导致长分支吸引伪影(long-branch attraction artifacts)。 长读长测序和染色体构象分析 基于共线性的系统发育基因组学从数据获取开始阶段与使用多序列比对数据集的传统系统发育基因组学类似。然而,与基于多序列比对的系统发育基因组学不同的是,高质量的基因组(理想情况下,所有染色体都是端粒到端粒的准确组装)是必要的。最新的基因组组装技术需要长读长测序(例如,使用Oxford Nanopore或PacBio),这反过来又需要从每个被测序的生物体中获取高分子量DNA。对于更复杂的基因组,从Hi-C分析中检测到的染色体相互作用将为随后的步骤(即基因组组装)提供额外的证据。 基因组组装 拥有长读长序列和染色体构象数据后,基于共线性的系统发育基因组学的下一步是生成每个要分析物种的准确和精确的基因组。基因组组装质量差可能会在检测共线性时引入错误,进而在基于共线性的系统发育基因组学分析时引入错误。尽管没有广泛接受的“高质量”组装的定义,研究人员应考虑三个重要指标:完整性、连续性和准确性。完整性可以通过将推测的基因含量与转录组序列的期望进行比较,以及BUSCO单拷贝同源基因的存在/缺失来评估。不完整的基因组可能难以纳入基于共线性的系统发育基因组学分析中,可能需要进一步努力以改进原始基因组组装。当难以实现高度连续的基因组时,分散在多个scaffolds上的宏共线性块应从数据矩阵中删除。或者,微共线性可能更合适,因为即使在不连续的基因组组装中,它们也更可能被保留。如果没有物理映射数据(例如,荧光原位杂交或光学图谱),检查组装的准确性是困难的。然而,这些数据不仅可以用于验证,还可以用于提高基因组组装质量,甚至帮助实现近乎完整的基因组组装。需要注意的是,其他组装质量的测量,例如污染程度,也应被考虑,特别是当推断共线性丧失时。 基因组注释 为了检测几个物种基因组间的共线性块,通常使用同源基因的相对位置。因此,系统发育学家必须准确预测基因边界,以防止例如将两个基因错误地合并为一个基因模型或完全遗漏基因。许多系统发育基因组学研究依赖于使用不同方法注释的基因组的输出文件,但最近的研究表明,不同基因注释方法的输出文件可能有很大差异。比较使用不同注释方法注释的基因组的一个令人担忧的结果是独特或谱系特异性基因数量的人为膨胀。因此,针对单个生物训练的单一高质量注释方法,或结合多个基因注释算法结果的方法(如EVidenceModeler),可能会有所帮助。此外,结合转录组读数将有助于提供基因边界预测的证据。 同源性推断 生成的基因预测随后用于推断基因之间的同源关系。使用全对全(all-versus-all)序列相似性信息推断同源关系。研究人员在同源性推断过程中面临若干挑战,这些挑战源自分析和生物学方面的错误。分析错误可能来自于基因注释预测中缺失的基因,但这些基因实际上是在生物的基因组中真实存在的。基因座的进化历史与物种之间的不一致可能源于复杂的进化历史,例如基因重复和丢失、趋同或饱和。 或者,使用全基因组比对方法,如Progressive Cactus和SibekliaZ,可能克服基因注释错误带来的潜在错误。Progressive Cactus提供的一个主要创新是允许无参照的多基因组比对(改善了基于参照的偏差)并检测多拷贝同源关系,而不仅仅是单拷贝同源关系。此外,Progressive Cactus还可以处理大规模数据集,例如600个或更多的动物基因组。 |共线性检测的最佳实践 通常,通过比较不同物种染色体上的基因直系同源基因的分布来检测潜在的共线性块。因此,直系同源基因预测的质量以及检测到的共线性直系同源基因密度的差异将极大地影响共线性块检测的准确性。当比较在较长进化时间尺度上分离的基因组时,这两个因素——直系同源基因检测的准确性和共线性直系同源基因的密度——可能会显著下降。 因此,在选择软件和分析参数时必须小心。两个关键参数是定义直系同源共线性块所需的基因最小数量和密度。较高的阈值预计会导致预测到更保守的共线性块(即假阳性较少),但代价是可分析的共线性块数量可能较少。有几个软件包可以帮助检测共线性,包括MCScanX、SynChro和syntenet。值得注意的是,每种软件使用的方法各不相同,例如,SynChro使用蛋白质序列相似性的互为最佳BLAST命中来识别成对共线性,而MCScanX则检测两个或更多基因组间的共线性块。MCScanX还提供了额外的工具,可以根据推测的进化起源进一步对共线性块分类,例如那些源自全基因组重复事件或串联重复的共线性块聚在一起。尽管这些算法的效果各异,但基因组的不连续性似乎是错误的主要驱动因素,这突显了获得高度连续的基因组组装的重要性。 为了确定在检测共线性时捕获了多少基因组,可以计算共线性覆盖率。由于生物现象(如基因组大小、内容变化)或分析因素(如放宽共线性块的定义)导致的差异,共线性覆盖率可能因基因组而异。因此,报告单个基因组的共线性覆盖率以及它们的汇总统计数据将非常重要。理想情况下,对于近缘的生物,共线性覆盖率应较高,并覆盖几乎整个基因组。然而,根据检测共线性的阈值、染色体的进化速率、局部基因顺序的进化速率以及所分析物种之间的进化距离,共线性覆盖率可能会降低。 |解释系统发育基因组误差的来源 多种因素可能导致物种树推断错误。尽管这些因素在多序列比对分析中已被充分研究,但在基于共线性的系统发育基因组学中却较少探讨。这里,我们讨论共线性分析中潜在的错误/噪音来源及其应对方法。 饱和现象 在核苷酸和氨基酸序列进化中,当发生多个不可观察的替换时,准确追踪逐步的进化历史变得困难,这种现象被称为“饱和”。在共线性进化中也可能发生饱和现象,其中多个连续重排可能干扰共线性块逐步进化的踪迹的追踪。为克服饱和现象,一种解决方案是清除进化速度较快的共线性块数据矩阵,这些共线性块的进化历史可能难以追踪。 不完全谱系排序 祖先多态性的随机分选可能导致基因树与物种树不同,尤其是在快速辐射事件期间。不完全谱系分选在结构变异中也可能成为共线性系统发育基因组学的噪音来源。在辐射事件和大种群中,不完全谱系分选在基因树中尤为普遍。考虑到基因组重排可以在种群中迅速发生,这意味着某些结构变异可能在物种分化事件前凝聚,即受到不完全谱系分选的影响。确定结构变异中不完全谱系分选的普遍性(如果有的话)将有助于弄清它是否是造成不一致的来源。 网状进化 网状进化指的是非垂直的基因传递,如水平基因转移和渐渗/杂交,这导致基因具有偏离严格分叉树模型的进化历史。这一问题在不同谱系中的影响不同,例如,水平基因转移在细菌和古菌中比在许多真核生物中更为常见。同样,杂交在植物谱系中很常见,并且也在动物和真菌等其他谱系中观察到。非垂直基因获取可能干扰原本保守的共线性区域的检测。在水平基因转移的情况下,共线性分析可能会错误地推断某一谱系的亲缘关系,例如,在酵母中水平获取的细菌铁载体基因簇的共线性分析会建议酵母与细菌之间存在密切关系,而这一假设显然是错误的。带有水平基因转移标记的基因可以从数据矩阵中删除。然而,在某些情况下,水平获取基因在经过垂直遗传后可能成为共线性系统发育基因组学的有用标记。 共线性变化建模 在标准分子系统发育分析中,替代模型用来近似代表碱基状态转换的进化过程。这些模型在捕捉生物现实的复杂性方面有所不同。然而,目前尚未开发出类似的共线性数据替代模型。然而,结构变异可以在人群中分离,最近开发的无参泛基因组可能有助于促进它们的检测并阐明其进化动态,从而为创建捕捉共线性状态之间交换率的模型铺平道路。基于经验确定最佳模型选择的做法将对未来的研究非常重要。在假设过拟合不再是问题的情况下,高度参数化的模型可能适用于基于共线性的进化树推断。 其他潜在错误来源 其他几种错误来源也可能影响分析。例如,尽管已知的基因组结构趋同进化的例子不多,但它们依然表明独立重排导致相同结构可能为共线性系统发育基因组学分析带来噪音。特别是目前已接受的啮齿动物主要类群的进化关系(如豪猪亚目、松鼠亚目和鼠形亚目,Hystricomorpha (e.g., capybaras and naked-mole rats), Sciuromorpha (e.g., squirrels and marmots), and Myomorpha (e.g., rats and mice))表明,豪猪亚目首先分化出来,松鼠亚目和鼠形亚目是姐妹谱系。然而,豪猪亚目和松鼠亚目谱系中独立的3p21.31区段分裂事件会错误地建议这两个谱系之间存在姐妹关系。其他错误来源可能包括共线性块数量不足和由于罗伯逊易位和拷贝数目变异等原因导致的染色体结构的种内异质性。 对于基于多序列比对数据集的系统发育基因组学分析,研究人员已证明并非所有基因都具有相同的系统发育信息。例如,显示钟形进化模式(clock-like pattern of evolution)的基因通常被优先用于分化时间分析。已经开发出量化多序列比对和由此推断的系统发育树中信息含量的方法。幸运的是,一些方法可能很容易适应共线性数据。例如,treeness可能有助于识别具有强系统发育信号的共线性块。同样,离群分类单元(rogue taxa)可以从数据矩阵中删除。开发衡量不同共线性块系统发育信息量的方法将有助于提高数据集中的信噪比,并有助于在系统发育基因组学分析中改进其使用价值和解释性。 |使用共线性数据和物种树的研究机遇 准确的共线性系统发育基因组学的最佳实践将有助于解决当前我们对基因组进化理解中的空白。例如,基于共线性的系统发育基因组学不仅为生命之树的重建提供了新的视角,而且共线性数据还可能为基因簇的功能提供洞察。共线性系统发育基因组学还将有助于追踪染色体和基因簇沿着系统发育树的进化轨迹。这种重建将有助于识别全基因组复制事件,这些事件长期以来一直受到生物学家的关注,因为它们为分子创新提供了素材,如同源基因的功能分化。 基于共线性的系统发育基因组学还可能促进祖先基因组的重建,在有足够的现存物种基因组测序和组装的情况下实现近乎参考水平的组装。准确的祖先基因组重建,加上古DNA测序,可能有助于重建已灭绝谱系的基因组。更广泛地说,对跨时间和物种的共线性进化的完整理解将有助于形成基因组结构进化的统一理论。 虽然这些机会仅展示了几个令人兴奋的研究前景,但系统发育学家必须首先优先评估基于共线性的系统发育基因组学在重建古代和近期分化、跨越物种和种群方面的有效性。 结论 基因组测序、组装和注释方法的进步彻底改变了我们对生命之树的探索。随着能够推断高度连续基因组的前沿技术和算法的发展,共线性分析重新成为研究生命之树的强大工具。两项针对动物系统发育长期争论的研究作为早期关键研究,展示了使用共线性重建生命历史的潜在效用和局限性。这些研究标志着一个新篇章,共线性系统发育基因组学有望带来新的见解,尽管仍需克服一系列技术挑战。正面应对这些挑战将有助于形成最佳实践,并深化我们对共线性系统发育基因组学的理解。 上世纪30年代的先驱者Sturtevant和Dobzhansky可能未曾预见,他们在共线性系统发育标记方面的工作将产生深远的影响。诚然,他们的努力为今天的发现奠定了基础;近一个世纪后,随着技术进步,终于实现了他们的愿景。将系统发育基因组学与基因组结构比较结合起来的综合证据方法,有望揭示生命之树的详细拓扑结构。 术语表 / Glossary 水平基因转移 / Horizontal gene transfer 通过非生殖机制在生物体之间交换遗传物质 趋同进化 / Convergent evolution 无关物种中相似特征的独立进化 不完全谱系排序 / Incomplete lineage sorting 祖先多态性的随机保留,这可能导致基于这些多态性的系统发育树有时与实际生物进化历史不同 罕见基因组变化 / Rare genomic changes 多态性——包括插入缺失、转座子整合、基因顺序变化、基因复制等,但不包括替换 共线性 / Synteny 不同物种的染色体上基因顺序的保守性 直系同源推断 / Orthology inference 确定不同物种中哪些基因是直系同源的过程,即它们是由于物种分化事件而分离 微共线性 / Microsynteny 不同物种基因组间顺序保守的小基因块(通常只有少数几个基因) 宏共线性 / Macrosynteny 物种间染色体上基因块(数百到数千甚至更多基因)的宏观保守性 互为最佳BLAST匹配 / Reciprocal best BLAST hits 一种用于寻找直系同源基因的方法,其中来自不同物种的两个基因在BLAST搜索中互为最佳匹配 近端着丝粒染色体 / Acrocentric chromosomes 着丝粒靠近染色体的端部,导致出现一个非常短的臂和一个非常长的臂 罗伯逊易位 / Acrocentric chromosomes 一种染色体重排,其中两个近端着丝粒染色体融合形成一个单一染色体 类群取样 / Taxon sampling 系统发育研究中选择合适的类群用于分析 最大似然框架 / Maximum likelihood framework 一种统计方法,通过找到在给定数据和序列进化模型下概率最高的树拓扑结构来推断进化树 长枝吸引 / Long-branch attraction 系统发育推断中的一种错误,其中长枝(即在数据矩阵中每个位点有许多替换的谱系)被错误地推断为是近缘的 串联重复 / Tandem duplication 一种突变类型,其中染色体区域重复,且拷贝彼此相邻 共线性覆盖 / Syntenic coverage 在比较基因组中保守共线性块的占全基因组百分比。通过共线性块总长度除以基因组大小确定 泛基因组 / Pangenomes 一个物种内所有品系中存在的全部基因集合,而不仅仅是单一参考基因组中的那些基因 树信号度 / Treeness 基于内部分支观察到的分支长度与内部和终端分支长度的比例,为一种信噪比度量指标 游离分类单元 / Rogue taxa 在一组树中位置不稳定的分类单元 全基因组重复基因 / Ohnologs 通过全基因组复制事件得到的基因 Citation: Steenwyk JL, King N (2024) The promise and pitfalls of synteny in phylogenomics. PLoS Biol 22(5): e3002632. https:///10.1371/journal.pbio.3002632 Published: May 20, 2024 |
|