基因组时代，如何构建物种的复杂演化关系？

kibcat 2019-11-20

展开全文

构建物种间的联系，还原物种之间的系统发育关系一直都是分类学家与演化学家的理想（#毕竟看起来应该是可以实现的）。物种之间的关系能复杂成怎样？例如了解演化的小伙伴一定见过的：非洲大裂谷三大湖里短时间内爆发的鱼，或者一群翅膀颜色多的不行、相互之间有着千丝万缕关系的蝴蝶等等...

做蛋糕需要做好一个蛋糕胚。同样，物种关系的复盘需要一个框架性的模型。将这种千丝万缕的关系按照简约的方式理解，可以简化为：一次成种事件发生后，一个祖先会形成两个物种，而这两个物种之后各自又经历自己的成种事件，再各自变成两个物种...

对，这就是我们经常所说的二歧系统发育树，也叫二叉树：

但有的时候，物种的形成并不像我们想象中的那么简单，还有可能发生杂交成种，基因渐渗，同源多倍化，异源多倍化，未完全谱系分选...总之怎么复杂怎么来。

因此，如果想要建立模型描述这样的模式，重新理清物种之间的分化关系，那么上文提及的二歧系统发育树就会变为网络，就像这样：

二叉系统发育树无法完全解决的问题，才是物种形成与演化过程的真实模样。但既然我们已经知道，构建系统发育网络才是正确的解题思路，但是为什么我们不这么做呢？因为..

原因之一：最fancy的计算方式，对计算资源的要求较高，特别是相对贫困的evolution课题组。

但最本质的是原因之二：即使完成构建，物种的分化故事依然解决不清楚..究竟是什么原因，发生在什么类群？？？并非所有的课题组都有相关的分析手段和实验手段来理清思路。所以，为了文章容易写一些，我们还是用二叉树吧..而另外一方面认为，咱们就建个网状关系，别费心思去整清楚了，反正也是不明不白的。

大佬写的算法文章告诉大家，做成网络不就好了！

进入主题：虽然有这样的BUG，但原始数据是不可缺少的。在测序技术越来越先进的今天，现在的演化学家（看古籍的生信搬砖工）是如何获得原始数据，来构建以上提及的这些系统发育树呢？首先需要提及一下基因树和物种树的概念：

物种树：物种真实的系统发育关系；

基因树：物种基因反映出来的系统发育关系；在分子系统学与进化基因组学的角度来说，我们获取物种树的方法，就是用我们能够看到基因树（已知），来推演物种树（未知）。基因树是否等于物种树呢？当然不是！

举一个五毛钱的例子：

1. 理想情况下，蓝嘴鸟和绿嘴鸟亲缘关系更接近，而红嘴鸟较远。蓝嘴鸟和绿嘴鸟生的蛋，蛋壳都偏深色，这个性状反映了他俩的真实关系。因此，使用控制蛋壳颜色的基因构建物种发育树，是能够真实反应物种关系的，这个时候基因树在树形上与物种树一致；

2. 但是！真实情况往往对科研工作者不那么友好。蓝嘴鸟和红嘴鸟喜欢在山洞里快乐的生活，而绿嘴鸟生活在阳光之下。长此以往，由于山洞阴冷低光，蓝嘴鸟和红嘴鸟的种群的蛋壳颜色在自然选择下变深色，以吸收更多的光线以达到保温的目的。而绿嘴鸟的蛋壳因为不存在阴冷低光的胁迫，同时在温度适宜的情况下，开始变为浅色。

因此，这个时候通过蛋壳颜色控制基因所构建出来的系统发育树为蓝嘴鸟和红嘴鸟亲缘关系更接近（姐妹类群），而绿嘴鸟的关系更远。但这个结果与事实不相符，是错误的。因此，此时基因树≠物种树。

所以，基因树不完全等于物种树。基因树反映的是基因自己的演化历史，而物种是一系列基因表达所组成的表型合集。但，虽然存在一些“第六人”，大量基因树的应用，能够帮助我们无限趋近物种树。那么基因树又是如何无限趋向物种树，或者科研工作者又是怎么折腾这些基因，以获得所需要的物种历史呢？答案就很明显了：

因此，大量的基因用各种骚操作合并在一起，是现在演化学家重新构建系统发育关系的方式。那么这些骚操作有什么呢？这里先简述一个概念：由于基因自己的演化历史也非常复杂，自身会发生复制或者丢失，因此，不同样品之间能够进行比较的基因，并不是你想要的那个（可能会是旁系同源基因，由于反应不同的演化历史，容易引入错误，再次就不详细说明了）..通常都是单拷贝或者低拷贝基因。这个概念没有理解？没关系：简单的说，演化学家各种上历史上模型，挑选除了最适合执行构建物种树伟大任务的基因。

那么我们要对这些基因做些什么呢？

方法一：大贤者！记得那句话吗：

分不清楚那就别分！因此，根据所有冲突的位点，告诉大家，这个类群确实有非二叉树的情况，咱们也不知道是啥，为什么。常用软件有Splittree：

splittree反映了兜兰属内的网状进化现象 | Guo et al., 2015

方法二：二叉树本命！有什么问题是几个基因搞不定的？那就几百个，不行咱就几千个！既然一个基因太片面，我们把所有基因的信息考虑进去呀！于是，第一种方法就是简单粗暴的把这些基因首尾连接在一起，每个样品所有基因连接在一起称为“超级基因”，以代表这个样品的信息，也被称为Concatenation：

筛选和连接“超级基因”的常用的软件有OrthoMCL和OrthoFinder，前者需要自己编写脚本完成最后的合并步骤，而后者能够直接获得合并后的'超级基因'。最后，结果可以用于系统发育树的构建，什么邻接法、最大似然法、最大简约法或者贝叶斯法，随你使用。

但这个方法的问题是...你这不还是二叉树吗！！！万一其中有很多个基因反映出物种杂交或者基因渐渗的历史，那就被掩盖掉了，得到的结果也是不可信的。举例而言，例如木兰类在被子植物中的系统位置，由于其不同基因所表现出来的关系不一样，因此最终反映出来的物种树也依旧没有通过统计学检验：

鹅掌楸基因组中，木兰类系统发育位置依旧未解决 | Chen et al., 2018

方法三：咱们理性点，一个个基因分吧。和第二种不太一样，该方法首先构建单个基因的系统发育树，之后通过将这些若干系统发育树进行合并，获得最后的物种树。常用的软件有ASTRAL，前不久《自然》杂志上刊登的“千个转录组重构植物系统发育关系”的文章，就使用了这个软件。

使用ASTRAL软件构建了被子植物的系统发育树 | 1kp et al., 2019

是的，虽然最后结果还是二叉系统发育树，但这种方法保留了单个基因的信息，因此也可能清楚的表明，不同分支上是否存在基因的冲突，以告诉我们潜在的杂交或者未完全谱系分选的情况。

方法四：走出二叉树，尝试检测一两个特异的足迹吧！既然二叉树是最简单的模型，而精确的网状树又太复杂，那么是否能够找到一个平衡呢？这种方式可以根据构建的单基因系统发育树，也可以根据全部基因带有的信息位点。以这一系列基因树作为原始数据，计算可能存在杂交、渐渗以及未完全谱系分选等的类群。常用的软件有PhyloNet和TreeMix。

PhyloNet应用于核桃属内的例子 | Zhang et al., 2019

使用TreeMix基于简单的系统树模型识别人类的迁徙事件

更“高级”的方式呢？暂时就没有了..虽然说系统关系构建所用到的不同模型和方法很复杂，但基本思路都是以上。总的来说，从基因树到物种树，还有很长的路要走，但无非也就是用更“统计”的方式来使得所有证据达成一致。如何最自然的构建物种之间的系统发育关系呢？也许等到物种的定义变明确的时候，才有可能吧（也许永远都不可能）。

参考资料：

Zhang B W, Lin-Lin X, Li N, et al. Phylogenomics reveals an ancient hybrid origin of the Persian walnut[J]. Molecular biology and evolution, 2019.

Chen J, Hao Z, Guang X, et al. Liriodendron genome sheds light on angiosperm phylogeny and species–pair differentiation[J]. Nature plants, 2019, 5(1): 18.

Leebens-Mack J H, Barker M S, Carpenter E J, et al. One thousand plant transcriptomes and the phylogenomics of green plants[J]. Nature, 2019: Epub ahead of print.

Huson D H, Bryant D. Application of phylogenetic networks in evolutionary studies[J]. Molecular biology and evolution, 2005, 23(2): 254-267.

如需引用、使用或转载文中内容，敬请联系后台。