基于1-22号染色体的最近共同祖先请注意:这里的“共同祖先”并不是家谱层面的,而是现代人基因组层面的共同祖先。 人类基因组是由两条长链上的约30亿个碱基对(总计60亿个碱基)组成的,每个碱基都可以被编码,使用字母表中的字母:A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)来表示。所谓的“基因”(gene)指的就是这些链条上的微小片段,通常每一段包含大约1000个字母。细胞中大部分的生理活动都需要蛋白质来执行,而基因就是组装这些蛋白质的模板。通过使用某些仪器,我们可以启动DNA片段上的化学反应,当这种化学反应沿着DNA序列发生的时候,会依次发出特定的光,不同的编码A、C、G和T会发出不同颜色的光,通过特殊的感光设备,我们就可以将DNA的编码顺序扫描进计算机。
图片来源:open.lib.umn.edu DNA在真核细胞中的存在结构。人类DNA由大约30亿个“碱基对”(Base Pair)组成,它们以“双螺旋结构”(Double Helix)的形式连接并缠绕在一起;由于这个结构很长,因此首先会折叠成核小体(Nucleosome),然后再折叠成染色体(Chromosome)。可以将染色体理解为DNA的存储形式。染色体位于细胞核内,共46条,分别来自父母,且总是成对儿出现(Duplicated Chromosomes),因此有23对,也被称为基因组(Genome)或染色体组。尽管DNA有30亿个碱基对,但其中仅有约2%的序列能够发挥实际功能,这些真正具备编码和遗传功能的单位被称为基因(Gene)。人类基因组上约有2万-2.5万个编码基因,不同基因的长度差异很大,甚至可达上百万倍。 不同两个人的基因组之间,超过99.9%都是一模一样的,只有约千分之一的序列有所不同,可以理解为全部的30亿个字母中,大概会存在300万个不同之处。这些不同是由于基因在复制的过程中发生了随机的错误,即突变。虽然突变是随机的,但如果将时间拉长就会发现,突变累积的速率在很大程度上是趋向稳定的,即时长和突变密度成正比。因此,比较两个不同基因组,在某一片段上的差异密度越大,就说明这两个片段距离它们“最近共同祖先”的时间就越长。注意,这里的最近共同祖先指的并不是具体的人,而是基因组中,相同片段的来源。 由于在每一次的繁衍过程中,染色体都会重组,因此我们的基因组并不是来自某个祖先的连续序列,而是经过重组后拼合而成的。我们分别从父母那里各继承23条染色体,然后就像拼瓷砖一样组合,形成属于自己的46条染色体。并且来自父母的每条染色体也是由更小的单元拼接而成的:卵子产生的过程中,平均会出现约45次新的染色体拼接重组;而精子产生过程中则平均有26次。因此,在卵子和精子结合前,在亲代体内总共会发生约71次拼接和重组。
来自亲代的染色体片段会发生重组,从而形成子代的 DNA,为遗传物质的传递做好准备。 因此,对下一代个体来说,他(她)所拥有的基因组实际上包含了约118段DNA,即父母生殖细胞中产生的71次拼接重组、46条染色体,以及一个线粒体DNA;追溯到祖父母代,那么这个数字就变成了189(47 + 2 x 71)段;如果倒推10代,那么子代的基因组就可以被看做是757(47 + 10 x 71)段DNA的拼接组合。就算第10代先祖中的每个人只贡献一段DNA,这些基因段也最多来自7百多位个体,而第十代先祖的人数上限为 210,即1024位,显然,很多人的基因并没有被继承下来。如果继续向前推就会发现,对任何一个人来说,他的绝大多数远古祖先都不会给他留下任何DNA。 以上只是简化描述,实际情况要复杂得多;比如,DNA重组时如何选择分段有个随机概率问题,而我们远古祖先的实际数量也绝不可能有这么多。
图片来源:《人类起源的故事 : 我们是谁,我们从哪里来》 大卫·赖克 对上图的解释:每个人的祖先(理论)个数呈指数级增长,如2位父母、4位祖父母,8位曾祖父母,其增长规律为2的n次方;但每一代能产生的DNA分段却只增加约71个,这个增长是线性的。因此,向上追溯到第8代祖先开始,他们体内的DNA片段在8代后依然能够被保留的概率就只剩下大约91%了;并且,这个概率值会以指数级缩小,因为祖先的理论人数以指数级增大。如果以25年为一代计算,图中追溯到第15代祖先时,距今其实只有不到400年。通俗理解,如果“三皇五帝”(根据传说,他们至少在4500年之前)真的存在并留下了大量后代,那么可以肯定,现今的所有中国人都是他们(在族谱中)的直系后代,但曾经存在于他们体内的DNA,现今依然被传承的概率则趋近于0。其实,DNA并不属于任何人,人类个体不过是平均使用年限只有几十年的“信封”而已,而这样的“信封”在三皇五帝的年代就有很多,因此,同样的基因拷贝仍然被传递至今,期间只发生过微不足道的变化。这里还要提醒大家一个令人不安的事实:不仅仅是个体,就算是人类,其实也只不过是一个使用年限稍长一点儿的“信封”而已;因为在过去的700万年中,这样的信封至少曾有几十个,而现在只剩下唯一一个了;从概率角度观察,这封贴有“现代人”邮票的信封,恐怕也只有几十万年的有效期。基因是永恒的,但“表达”基因的物种们,其闪光的时刻其实非常短暂...... 我们回到主题,对于基因组里的每一个位置,只要往回追溯的时间足够悠久,那么一定能碰到一个节点,这个节点就是当今所有(DNA)个体的共同祖先。以目前的分析能力,超过了这个节点后,我们就无法再获得更久远的信息了。因此,大卫·赖克将它形容为“基因组的黑洞”,仿佛没有信息可以从中逃逸。对线粒体DNA而言,这个黑洞的节点是在16万年前,也就是“线粒体夏娃”生活的时代。 而对基因组中剩余的部分,即1-22号染色体来说,绝大多数的黑洞发生在500万年至100万年前;并且没有任何位置,其最近共同祖先的历史比32万年更短。因此,人类遗传学(非家谱学)含义的最近共同祖先出现的年代,大约为距今32万年前。 最后,本文作者卜可生性愚钝,无法保证本文讨论过程的准确性,如有错误还请看到的专业人士指正,感谢! 参考资料 《祖先的故事》[英]理查德·道金斯 [英]黄可仁;许师明[译] 郭运波[译];中信出版集团出版 2019-07 《人类起源的故事 : 我们是谁,我们从哪里来》 大卫·赖克;叶凯雄 胡正飞[译];浙江人民出版社 2019-06 Most recent common ancestorWhat is Inheritance? |
|
|