分享

听说你也是个非洲人?

 微笑如酒 2017-12-22



咦?!竟然不是诶!

但在本宝宝的基因检测中,却赫然并没有发现一点点的非洲血统?!难道我其实并不是一个非洲人?(可是这也不对啊,光凭我游戏抽卡永远不中SSR这一点,我也应该“非气冲天”才对啊!)

其实啊,非洲起源论和民族血缘的分析就是无关的,准确的说,民族血缘的分析正好就是刨除了非洲起源因素之后剩下的部分,它所关注的是“近期”的事情,可能是近10000年的事儿,也可能是近1000年,近100年,乃至近几十年的事情。但“非气冲天”说的就是百万年数量级上的事情了。人人都是非洲人,这一点肯定是没错的,这是一个长长的故事……


爸爸的爸爸是爷爷,

爷爷的爷爷的爷爷……

的爷爷是……

1995年,道瑞特、阿卡西和吉尔波特三位科学家【8】测定了分处世界各地,共38名男性Y染色体的ZFY基因区,得到了一个令他们大吃一惊的结果:被检测的ZFY基因区中,38人的DNA序列,竟然完全相同。难道这38名没有任何亲戚关系的男人,都是一位风流好色的男人在世界各地所留下的后裔吗?这听起来,实在是如同天方夜谭一样!

后来科研人员通过大量的基因分型研究发现,现代男性的Y染色体上都带有M-8-9,M-1-3-0和YAP这三种古老的Y-SNP,而这三种突变是在M168突变型的基础上产生的。M168被认为是人类在非洲时产生的突变型【12】,也就是说目前的人类,有一位共同的男性祖先,并且估算大约生活在27万年前。这个男人被称为“Y染色体亚当“。也就是我们所有人的爷爷的爷爷的爷爷……的爷爷。【2】【6】

如果Y染色体DNA序列都相同

怎么区分不同民族呢?

现代人类拥有23对染色体,其中一对是性染色体,男性为XY、女性为XX,其中Y染色体只由男性传给下一代男性。研究发现Y染色体有95%的区域为非重组区,意思就是说:在这个区段内的字符信息,一般是不随每代的遗传发生变化的,因此被称为“Y染色体非重组区”,这种父系遗传忠实的记录了人类进化事件。这个区域进一步被划分成218个更小的“字符特区”。在这些“特区”当中,在经历几十、上百代的遗传之后,其中的某个,或某几个基因字符,可能会发生变化,也就是产生了“突变”。这种“突变”会随着遗传,一代代传下去,成为某一个族裔所拥有的特殊的标记。越到后代,所承受的“突变”也就越多、标记也越细致。令人惊异的是:这些突变所产生的标记,虽然历经几万年、上千代的传承,数亿次的“拷贝”,仍可以保持清晰、准确,分毫不差。因此,我们说“Y染色体的非重组区”,是人类父系族谱的最忠实无误的记录文件。

我们可以根据家系、古DNA估算出这种突变率。通过突变率、突变数量,不仅可以推算出我们共同的老祖先生活在多少年以前,还能推算出我们的基因内还存在着哪些民族成分。【4】


23魔方-父系基因祖源迁徙路线

不难看出,本宝宝的曾曾曾曾曾曾…曾祖父是从东非高原翻山越岭,一路上跨越红海,在西亚地区安营扎寨,继而向中亚、南亚次大陆等地区扩散迁移,又经中亚不断向亚洲其他地区和美洲迁移,最后各自安定下来。

20世纪初,科学家们观察了由19个单核苷酸多态位点(SNP)组成的Y染色体单倍型在我国22个省市汉族人群中的分布。结果表明,我国南北人群的Y染色体单倍型组成有较大差异,南方人群的多态性明显高于北方人群, 而后者中的单倍型仅包含前者的一部分, 其中单倍型H7, H11, H12仅出现在南方汉族.同样,其他民族也可由基因中存在的不同单倍型来区分开来。【1】【3】【9】也就证明可以通过基因型分别民族成分。


Where are you come from?

想知道个体的基因祖源,需要把基因组与一个已知明确种群分类的参考样品集合做比对,通过其相似度来推断出检测者基因组民族祖源成分。

目前有很多方法可以估算基因组的种族民族成分(genetic ethnicity),但几乎都要依赖一个成型参考集合数据库,所以这个参考集合数据库的质量对祖源民族成分准确度起到了至关重要的作用。

举个例子:

为了获得优质的参考基因组,23魔方祖源民族数据库一共会经历四个步骤:1)参考样品选取2)亲缘关系过滤3)PCA过滤 4)panel参考集性能测试。

1)参考样品选取

难道参考集不应该用每个民族始祖的DNA进行定义吗?

没错!

但不是每个民族都有古DNA样本的,考虑到近百年来迁徙频率加快,为了保证参考集的客观性,23魔方设定了一个选取参考集的标准——三代同宗

(即从自己往上推三代祖先中都必须同一个民族,同一个省份),最大限度的保证了参考集的特异性。

2)亲缘关系过滤

有亲缘关系的样品因为在基因组上格外相似,会引起频率计算的偏向,如果一个参考祖源中的亲缘关系样品比较多,在某些SNP上的频率就会额外偏高,所以对于参考集合第一步质控就是过滤有亲缘关系的样品。【5】

3)PCA过滤

PCA(Principal Components Analysis)主成分分析是在群体遗传学上一个常用的基因组聚类方式。简要地说,23魔方的芯片有70万个位点,相当于从70万个维度定义一个样本,PCA就是把70万维降维到2维平面(如下图),一般情况下同一个地区的人群样本往往会如图中一样聚集在一起,通过这种方式可以快速排除离群的样本,使得参考集更纯。

4)Panel参考集合性能测试

最后,需要对过滤后的参考集合做进一步的训练测试。可以通过Leave-One-Out分析来对参考集合进一步筛查。对一些异常或者“不纯”的参考样品进行删减,最终使我们祖源参考集合性能达到最优。

23魔方通过以上四步建立他们的民族数据库,之后只要将数据导入数据库进行计算就可以得到大家各自的民族成份了。

所以啊,虽然我们共同的祖先是起源于非洲,但是经历过这么二十多万年的风风雨雨的迁徙,我们的遗传基因也随之发生了突变,继而分化出了形形色色的不同的“种族”,而这些变化的信息,也都一一被记录在了我们的基因密码内,在基因检测的时候,就会全部被显现出来,呈现我们现在每个人不同的民族血统成分。

民族成分的检测可以让我们更加了解自己的祖源,然而基因检测这件事儿可以为我们做的却远不止这样。每个人体内的基因都秉承着从远古祖先一代一代遗留下来的特质,对基因秘密的破译和深入了解,能让我们从各个维度都更加了解自身,不仅仅是一些遗传疾病的风险预见,更多的是我们可以通过基因检测的结果去找到更适合自己的生活方式,更好的审视生命。



参考文献

1.俞建昆 应用30个常染色体STR位点研究中国6个民族群体的遗传关系 遗传学报 2001年第八期

现代中国人起源于非洲 《Science》2001,292:11511153

2..Y染色体遗传学证据支持现代中国人起源于非洲 科学通报 第46卷 第五期

3.赵桐茂 免疫球蛋白同种异型Gm因子在四十个中国人群中的分布 《人类学学报》,1987(1):1-9

4.Genomic dissection of population substructure of Han Chinese and its implication in association studies. Xu S, et al. Am J Hum Genet. 2009.

5..Genetic structure of the Han Chinese population revealed by genome-wide SNP variation. Chen J, et al. Am J Hum Genet. 2009.

6.分子遗传学在染色体起源研究中的应用进展 国外医学遗传学分册 第十八卷 第二期

7.钱亚屏, 初正韬, 褚嘉祐. 现代人类的起源和迁移:来自母性遗传的证据[J]. 遗传,2000(04):59-62.

8.RL Dorit, H Akashi and W Gilbert,1995. “Absence ofpolymorphism at the ZFY locus on the human Y chromosome.” Science268:1183–1185).

9. 柯越海 Y染色体单倍型在中国汉族人群中的多态性分布与中国人群的起源及迁移 doi:0.3321/j.issn:1006-9259.2000.06.008

10. 俞建昆 应用30个常染色体STR位点研究中国6个民族群体的遗传关系 遗传学报 2001年第八期

11. 赵桐茂 免疫球蛋白同种异型Gm因子在四十个中国人群中的分布 《人类学学报》,1987(1):1-9

12.柯越海, 宿兵, 李宏宇,等. Y染色体遗传学证据支持现代中国人起源于非洲[J]. 科学通报, 2001, 46(5):411-414.



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多