分享

分子人类学基础知识(一)

 我是皮卡丘 2021-11-22

图片

单倍群、STR、SNP、Y全序等等是分子人类学爱好者最常提及的专业名词,然而对于他们的科学定义,对于一串串测序数字背后的意义,你是否真的了解呢?

01

什么是人的Y染色体

1. Y染色体是一种遗传物质,只有男性才有Y染色体。Y染色体和X染色体是决定性别的染色体,正常男性会拥有一条来自母亲的X染色体和一条来自父亲的Y染色体,正常女性会拥有来自父母的各一条X染色体。

图片

男性的Y染色体由他的男性祖先代代相传得来,因此可以说是名副其实的“祖传染色体”

2. Y染色体很“小”。在人的所有染色体中,Y染色体是倒数第三小的,仅大于21染色体和22号染色体。

图片

在电子显微镜镜下实际观察,Y染色体缩成一团,看起来萌萌的就像兔子的尾巴,比它旁边的X染色体要小得多。

3. Y染色体虽然“小”,但是内容丰富。根据来源和特性的不同,男性的Y染色体可以分成如下几个不同的区域。

图片

3.1 拟常染色体区,总长约为2.5M个碱基。位于Y染色体两端,在减数分裂时与X染色体发生重组。因为这个性质,这个区域不是男性Y染色体特有的,所以不在我们的研究范围内。

3.2 除了拟常染色体区之外的其他区域是男性Y染色体特有的,所以称为Male-Specific Y-chromosome Region男性特异区,简称 MSY区。

3.3 MSY区中的扩增区、异染色质区、着丝粒区域以及其他一些区域,主要包含大量的重复序列和回文序列。这些序列会频繁发生平行突变、回复突变和重组,即使被测到了,也完全不会呈现出上下游的谱系结构。这些区域,对于我们研究男性Y染色体的谱系是无用的,因此也不在我们的研究范围内。

3.4 剩下的区域X转座区和X退化区,总长约15M bp,不与X染色体重组,序列的特异性较好。这些区域上的突变,能被后代稳定地遗传下去,这些区域才是我们测试和研究的区域,下文提到的SNP、STR限定于这些区域。我们通常所说的“测Y全序”,就是指测试X转座区和X退化区的全部序列。

同时,因为Y染色体上的大部分序列(特别是我们研究的X转座区和X退化区)不实现生理功能,所以它们在进化上是中立的,不受常规的自然选择的影响。因此,在这些区域上的DNA的突变速率大致是稳定的,因此可用来研究父系祖源。

图片

木村资生(上图左一,Kimura Motoo,1924—1994)在1968年提出了“分子进化中性理论(neutral theory of molecular evolution )”,被视为现代综合进化论奠基人(霍尔丹、赖特和费舍尔)之后最伟大的进化遗传学家之一。J.L.King和T.H.Jukes(上图右一)充实了这一学说。

02

Y染色体上的突变

1.什么是SNP?

SNP是单核苷酸多态性(Single Nucleotide Polymorphism)的简称。DNA序列由A、C、G、T这四个碱基组成,Y染色体上单个位点碱基被任意其他一种碱基替换,即构成一个Y-SNP突变。

如果把Y-DNA序列比作一串项链,那么Y-SNP突变就是项链上的某一颗宝石被其他颜色的宝石替换了。这就好比两位男士买了同样的项链,其中一位对某颗珠子进行了“更换”,那么“更换珠子”的男士相对不更换的就多了一个Y-SNP。

图片

Y染色体单倍群与Y-SNP

在Y 染色体非重组区发生的突变(假设为Mutation A,A 只是一个代码,如上图的红色珠子)会被该男性个体的男性后代一直继承下去。在子代身上不断出现新突变的同时,在所有子代的Y 染色体DNA 序列上都会仍然保留着突变A(红珠子变成“传家宝”)。于是,所有这些保留着突变A 的子代,都可以被看作属于“Y染色体单倍群A”,也可称为“父系单倍群A”。也就是说,我们可以将“Y染色体单倍群”简单理解为“源自同一个父系祖先的一大群男性的统称”。由于跟Y-SNP关系密切,Y染色体单倍群又称为Y-SNP单倍群。

某个单倍群的分布,代表着自从这个单倍群诞生开始以后的扩散。在父系社会中,大规模的人口迁徙往往是男性主导的,因此父系遗传的Y 染色体单倍群的分布有助于理解历史上的人口迁徙事件。从各个单倍群的起源地、起源年代、扩散状态以及它在当代/古代人群中的分布,可以推测历史事件发生的过程。

Y-SNP突变的详细案例展示:

图片

根据上图的序列(A/C/T/G)的对比,可以看到:相对于男性1和2,其他男性在第20个碱基上都带有 A->T的突变,而男性4和男性5在第23个碱基上都有T->G的突变。

进一步在所有的样本中比较,确定上述突变只在这些男性上测到,所有其他人都没有这个突变。就可以确认这些突变是可靠的、可稳定遗传给下一代。因此,可以判断,男性3/4/5相对其他两个男性关系更近,拥有共同男性始祖。而男性4/5的亲缘关系又更近。可以构建五位男性的谱系图,如下:

图片

2. 什么是Y-STR?

STR是指短串联序列重复(Short Tandem Repeat ),STR的数值,是指一个重复单元(比如 TCCG)的重复次数。

与SNP反应的单位点碱基类型改变不同,STR的突变,是指重复单元的重复次数的变化,相当于一辆火车后拖着的车厢的数量变少或者变多了(见下图)。这是DNA复制错误导致的——生物体虽然有着精妙的构造,但也无法保证每一次DNA复制都准确无误,这也是SNP产生的原因。

STR突变的详细案例展示

例如,三个男性在DYS000(STR名称)上的DNA的序列是下图这样的,我们可以将一串序列形象地想象成“火车车厢”的样子:

图片

就像同一班次的列车,但是这一列车不同时期(不同男性)拉了不同数量(STR数值)的相同车厢(重复单元TCCG)

那么,测到的STR数值就是这样的:

不同男性

DYS000

男性1

7

男性2

6

男性3

8

为什么有的时候Y-STR的数值会出现小数点

为什么有的时候Y-STR的数值会出现小数点比如DYS458=20.2。出现小数点的原因是:核心重复单元(比如TCCG)不完整,少了几个碱基。

仍使用上面的案例,假设:有六个完整的重复单元(比如TCCG),而第七个重复单元少了一个碱基(比如变成TCC),剩下三个碱基。那么,STR数值就写为 6.3。如果少了3个碱基,剩下一个碱基,STR数值就写为6.1。

图片

那么,测到的STR数值就是这样的:

不同男性

分析

STR数值

男性1

6个完整单元,加3个碱基

6.3

男性2

5个完整单元,加2个碱基

5.2

男性3

7个完整单元,加1个碱基

7.1

为什么有时同一个STR位点会有多个数值?

大部分Y-STR位点只会测到一个数值,但有些STR位点会测到2个或两个以上的位点。这是因为这个位点的序列在Y染色体上的不同地方有两个或两个以上的同源序列(拷贝),但每一个位置上的重复单元数量可以不同。

示例:DYS385在Y染色体上的19,260,844-19,261,212位置有一份拷贝,在19,301,724-19,302,104位置上也有一份拷贝。因此,实际上测到了两个片段。如果在前一个位置(DYS385a)上的重复单元的数量(GAAA)是13个,后一个位置(DYS385b)的重复单元的数量是20个,那么,就写为DYS385a/b=13/20。如果两个位置的数值一样(比如都是12),就写成 DYS385=12/12。

图片

图中这个样本的DYS722只有一个数值19, DYS385有两个数值,DYS385a/b=12/22。

Y染色体单倍群与Y-STR

基于以往积累数据,研究机构和祖源检测公司总结了不同Y-SNP单倍群的Y-STR的数值的特点。因此,我们可以通过检测STR数值推测受试者的Y-SNP单倍群。但是这种推测结果可能比较准,也可能有大的偏差,十分考验分析人员的分子人类学水平和其背后拥有的Y-SNP数据库体量。此外由于具体的Y-SNP无法确定,因此也就无法准确推测受试者父系家族起源。

分子人类学基础知识(一)完结

分子人类学基础知识(二)内容预告

  1. 测Y全序、“Y高通”的意义

  2.  “上树” ,上父系谱系树的意义

  3. 英莱盾的“树”长得怎么样了

作者简介:韦兰海,复旦大学人类生物学博士,主要研究人类的父系Y染色体谱系树、东欧亚地区族群及其文化传统的起源和演化历史。于2010年开始创办“分子人类学论坛” (后更名为“人类生物学在线”),现已成为具有较高知名度的、专业的分子人类学科普平台和活跃的个人DNA测试数据讨论社区

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多