川西羌语支人群的遗传结构

问道加油站 2016-03-10

展开全文

川西羌语支人群的遗传结构

汉藏语系包含汉语、藏缅语族这两个分支的400多种语言，使用人数超过10亿，是仅次于印欧语系的第二大语系。汉语和藏缅语族之间的语言学关系已经非常清楚了，原始汉语和原始藏缅语有300多个同源词。基于词汇证据以及系统进化原理，王士元曾估算汉语与藏缅语约在6千年前分开。羌语支语言被认为是汉藏语系中最古老的类型，可能是其他汉藏语的源头。考古学证据也揭示汉藏族群的祖先至少6千年前就生活在中国西部。

尽管有众多的语言和考古学研究，我们对汉藏群体在中国西部的起源和迁徙过程还是知之甚少。过去二十年里，遗传学研究，特别是母系线粒体DNA和父系Y染色体，为汉藏群体的源流历史提供了非常有价值的参考。在母系方面，藏族中高频的北亚特有mtDNA单倍群A，D， G和M8揭示其可能的北亚起源。但是也有证据显示南部藏缅族群的遗传混合有性别差异，南部藏缅群体的遗传结构主要由两个亲本群体形成：北方移民和南方土著居民。在混合中，男性和女性世系是有差异的，在现存南部藏缅中北方移民对男性世系影响力更强（～62%），南方土著居民对女性世系做出的贡献更多（～56%）。同样的，南方土著在母系上对南方汉族的遗传贡献也更大。在父系Y染色体方面，宿兵等发现几乎全部的汉藏人群都有一个共同的遗传特征，那就是高频出现的Y染色体O3-M122支系，包括了O3*-M122，O3a2c1*-M134和O3a2b-M7等单倍群。他们指出在黄河中上游的有高频O3支系、使用原始汉藏语的氐羌族群是现代汉藏人群的祖先。但他们没有合理解释为什么Y染色体Alu插入（YAP）也在藏族中高频出现。YAP突变在日本和安达曼群岛高频分布，但在东亚的其他群体中几乎没有出现。单倍群D-M174是YAP+下的一个子单倍群，石宏等认为D-M174是南方起源并在6万年前向北迁徙。我们现在看到的D-M174的零散分布可能是带有高频O3支系的原始汉族群在新石器时代大规模扩张的结果。另外，宿兵等论文中的O3-M122众多支系中的一支O3a2b-M7后来被发现是孟高棉和苗瑶人群的代表类型。单倍群O3a1c-002611在宿兵等当时的研究中被归为O3*-M122这一未识别类群，现在我们发现其占到汉族的17%，但这一单倍群在藏缅族群里的频率极低，暗示这一支系并没有参与藏缅族群的形成。我们最近的研究还发现羌族的Y染色体STR多样性在藏东的汉藏族群里是最高的，揭示了羌人群可能是汉藏扩张的产物。

羌语支语言在汉藏语系中是一支比较保守的语言，也是保留古老面貌比较多的一些语言，主要分布在四川西部的河谷地区，这个地区被称为“藏彝走廊”，连接着黄河中上游和藏东，极有可能是汉藏群体起源和迁徙的通道，是汉藏族群乃至整个东亚人群起源的关键地区。羌语支包括羌语、嘉戎语、尔龚语、拉坞戎语、普米语、木雅语、扎巴语、却域语、贵琼语、尔苏语、史兴语、纳木依语等活着的语言及其文献语言西夏语，这么多羌语支语言在川西起源、交流和融合让藏彝走廊在解析汉藏源流上意义更重大。

材料和方法

我们按照知情同意的原则在川西采集了407个健康无关个体的血样。我们的研究由复旦大学生命科学学院伦理审查委员会审核通过。受试者均获得了相关研究的充分信息，并签署了知情同意书。这407份样本分属四个群体：47份取自丹巴县尔龚语人群，43份样本取自道孚县八美镇尔龚语人群，124份样本取自新龙县康藏人群，193份样本取自雅江县河口镇的康藏人群。使用天根生化DP-318试剂盒进行全基因组DNA提取。

Y染色体遗传标记

本项目所选取的100个SNP位点如下：版1 (单倍群O内), M175,M119, P203, M110, M268, P31, M95, M176, M122, M324, M121, P201, M7, M134,M117,002611, P164, L127 (rs17269396),KL1 (rs17276338); 版2 (单倍群O外), M130,P256, M1, M231, M168, M174, M45, M89, M272, M258, M242, M207, M9, M96,P125,M304, M201,M306; 版3 (单倍群C), P54, M105, M48, M208, M407, P33, M93, P39, P92, P53.1, M217,M38, M210, M356, P55,M347; 版4 (单倍群D), P47, N1, P99, M15, M125, M55, M64.2, M116.1, M151, N2,022457; 版5 (单倍群N), M214,LLY22g, M128, M46/Tat, P63, P119, P105, P43,M178; 版6 (单倍群R), M306,M173, M124, M420, SRY10831.2, M17, M64.1, M198, M343, V88, M458, M73, M434,P312, M269,U106/M405; 版7 (单倍群Q), P36.2, M3, M120, MEH2, M378, N14/M265, M25, M143, M346,L53,M323.

这些位点涵盖了最新Y染色体谱系树上的东亚所有单倍群[11]。基因分型采用SNaPshot (ABI SNaPshot? 多重试剂盒)和荧光引物PCR相结合的方法[15]。对古DNA样本进行了17个位点的STR检测，我们采用了AppliedBiosystems公司的AmpFLSTR?YfilerTM PCR扩增试剂盒，所检测的位点包括：DYS19、DYS385a、DYS385b、DYS389I、DYS389II、DYS390、DYS391、DYS392、DYS393、DYS426、DYS437、DYS438、DYS439、DYS448、DYS456、DYS635和YGATA H4。PCR产物纯化后在ABI 3730测序仪(Appliedbiosystems, Carlsbad, CA)上分析。

mtDNA遗传标记

线粒体DNA的HVS-I区用引物L15974 和H16488扩增[23]，纯化的PCR产物使用BigDyeTerminator循环测序试剂盒和ABI3100遗传分析仪（Applied Biosystems）进行测序。用软件Sequence Analysis 3.3 （Applied Biosystems）读取序列。根据修订的剑桥标准序列，使用软件DNASTAR（DNASTAR, Madison, WI, USA）对HVS-I序列进行编辑和排列。编码区上的22个多态（3010、7598、663、10 400、10 310、4216、4491、12 308、10 646、11 719、4715、4833、8271、5301、70 287、13 263、14 569、5417、5178、12 705、15 607、9824）根据谱系使用SNaPshot（ABI SNaPshot Multiplex Kit; Applied Biosystems）进行分型。PCR产物也在3730xl遗传分析仪（AppliedBiosystems）上电泳分离。每段mtDNA的单倍群谱系关系根据HVS-I基序和编码区多态综合分析推断得出。另外，我们还对三个有代表性的样本(BM024, DBB005, 和DBB006)进行了mtDNA的全测序。mtDNA单倍群的命名是依据van Oven和Kayser的方法，并参考Phylotree上的最新信息。mtDNA的高变区序列都提交到了Genbank(检索号KJ783504-KJ783899)。

统计分析

将线粒体DNA和Y染色体单倍群频率用SPSS18.0软件进行主成分分析，主成分分析的结果用前两个主成分的坐标系表示。Y染色体STR和mtDNA的HVS-I基序的网络结构根据median joining方法，使用软件Network version 4.510 （http://www.Fluxus-engineering.com）构建。使用Arlequin 3.11计算Y-STRs的Slatkin线性Fst（Rst）遗传距离、分子多样性以及群体遗传结构。使用DNASP5.0来计算mtDNA高变一区的Tajima’s D, Fu and Li’s D, D*, F and F*等参数来检验是否偏离中性。使用ρ统计方法以及新近校正的高变一区（16090-16365）的点突变率（18845年/每突变）来计算mtDNA单倍群的共祖时间。Y染色体和线粒体用于比较的数据引用于已发表的论文。Y染色体支系的共祖时间是用BATWING软件由15个STR位点（除去DYS385a/b）在指数增长模型下计算得出。BATWING软件计算中的参数设置依照薛雅丽等的方法，还参考Wei等的论文使用了四种不同的Y-STR突变速率，有常用的进化突变率（EMR），两种直接观察到的家系突变率（OMRB和OMRS），以及用逻辑斯蒂模型根据群体变异而校正的家系突变率（lmMR）。在所有的一万次模拟采样过程中，前3000个作为预采样(burn-in)而被舍弃。最近共祖时间是由估算出的有效群体大小（N）和系谱树的长度相乘的到，每个世代的时间为25年。Y染色体D1和D3a的地理分布图是由Golden Software Surfer8.0软件做出。

结果

Y染色体单倍群频率分布

根据Y染色体协作组的命名法则，我们对127个男性样本进行了单倍群划分。Y染色体单倍群D1-M15及其下游支系在东亚的藏缅、壮侗和苗瑶人群中广泛分布，也在川西的四个群体里大量出现，比如占到了丹巴尔龚语人群的44.44%，道孚尔龚语人群的12.5%，也新龙和雅江的藏族中也分别占到了8.7%和6.38%。单倍群D3a-P47可以说仅在藏缅人群中出现，也高频分布于道孚尔龚人群、新龙和雅江的藏族，但未在丹巴尔龚人群中发现。单倍群O1a1-P203是在中国东南沿海的壮侗和台湾原住民中高频出现的类型，却也高频分布于雅江（21.28%），中频分布于道孚和新龙（分别是6.25%和8.7%），但未在丹巴发现。中南半岛的主要父系类型O2a1-M95及其下游支系也在川西的四个群体中有出现。单倍群O3-M122是中国最常见的父系类型，这一类型高频分布于东亚和东南亚，也在我们此次研究的四个羌语系人群中占到了25-37%。O3a1c-002611, O3a2c1-M134, 和O3a2c1a-M117是O3-M122下的三个主要支系，分别占到了汉族的12-17%，但它们的频率在羌语群体中差异较大。O3a1c占到了新龙藏的15.22%，但在其他三个群体中未发现。O3a2c1*在丹巴、新龙和雅江三群体中约占到6%，但却在道孚尔龚人群中没有分布。在其他藏缅群体中高频分布的O3a2c1a也在丹巴尔龚和雅江藏中高频出现（分别占到22.22%和19.15%），在道孚尔龚和新龙藏中中频分布（分别占到12.5%和10.87%）。单倍群C-M130在东亚广泛分布，可能代表了东亚最早期的迁徙定居人群之一。单倍群C*(M130+, M105-, M38-, M217-, M347-, M356-)低频分布于东亚大陆的南部沿海地区以及东南亚岛屿。尽管C*分布如此零散，但它们都有这相近的STR单倍型(DYS19, 15; DYS389I, 12; DYS389b, 16; DYS390, 21; DYS391,10; DYS392,11; DYS393)。我们在丹巴尔龚人群和新龙藏族中也各发现了一例C*样本，也与上述提到的STR单倍型一致。单倍群C3-M217是C-M130下的最广泛分布的支系，以极高的频率分布于东亚的北部特别是蒙古人群中。单倍群C3在雅江藏族中达到了10.64%，但没有在其他三个群体中发现。单倍群N-M231在欧亚大陆的北部有着广泛且特殊的分布，在乌拉尔语系和阿尔泰语系人群中频率极高。单倍群N1c1a-M178是单倍群N下的主要支系且被认为是产生于中国。N1c1a在道孚尔龚和新龙藏中的频率分别是12.5%和2.17%，其中道孚尔龚N1c1a样本的17个STR单倍型与俄罗斯的一些科米人完全一致，但新龙的N1c1a样本却与周围人群中的N1c1a样本的单倍型更近。另外，中亚和南亚相关的单倍群J-M304和R2-M124也低频出现于川西羌语系人群中。

主成分和STR遗传距离分析

我们整合已发表数据来进一步理清羌语人群和藏缅以及东亚其他族群的父系遗传关系。我们使用51个群体的Y染色体单倍群频率数据来进行主成分（PCA）分析。PCA的结果由其前两个主成分来作图表示，这前两个主成分共可解释31.31%的Y染色体变异。第一主成分清晰地描绘出了阿尔泰与汉藏、壮侗和苗瑶之间的南北地理格局。单倍群C3-M217, G-M201, J-P209, 和R-M207对北方的阿尔泰组分有主要贡献，而O-M175则对南方组分贡献较大。汉藏、壮侗和苗瑶在第二主成分上有不同。丹巴和道孚的尔龚、新龙和雅江的藏族与汉藏群体聚为一组，这与语言学分类一致。单倍群O3a1c-002611, O3a2c1*-M134, 和O3a2c1a-M117对汉藏组分的贡献最大，而单倍群O3a2b*-M7 和O2a1-M95则对壮侗和苗瑶的贡献大。我们研究中的四个川西群体与其他藏缅群体，例如羌、云南藏族、彝族和土家族等由于高频的D3a-P47, O3a2c1a-M117, D1-M15和O3a2c1*-M134而紧密聚类。在用STR遗传距离构建的邻接树上，道孚尔龚、雅江和新龙的藏族也是与藏缅群体紧密聚类，而丹巴尔龚却与汉族和苗瑶更近。

网络图分析和时间估算

为了更详尽解析藏缅和其他相关人群的关系，我们使用中介邻接法对Y染色体单倍群D3a-P47, O3a2c1a-M117, D1-M15, 和O3a2c1*-M134绘制了STR网络图。在单倍群D1-M15的网络图上，我们可以看出汉藏群体与壮侗、苗瑶之间有清晰的分界，尽管也有零星的单倍型是共享的。另外，在汉藏群体内部，D1在羌语群体、北方汉以及西藏藏族之间也有不同的STR单倍型，揭示了D1可能经历了一系列的奠基者效应或很强的瓶颈效应并在汉藏群体里有过二次扩张。在D3a-P47的网络图中，羌藏与其他藏缅群体有着明显的差异，其他藏缅群体仅有羌藏人群里的一部分单倍型。D3a网络图的星状结构也是人群扩张的信号。在单倍群O3a2c1*-M134网络图里，藏与北方群体（北方汉和阿尔泰）也有着明显的差异。南方汉和壮侗样本在网络图的中心，起到了连接藏和北方人群的作用，这也支持了O3a2c1*的南方起源和北方扩张。大多数属于O3a2c1*的羌语样本与北方人群共享单倍型，揭示了由北方群体到羌语人群的近期的基因流入。在单倍群O3a2c1a-M117里，我们也发现了人群的星状扩张，但这一支系的单倍型在东亚各群体里是广泛共享的，没有发现明显的群体特异类型。

我们接下来估算了羌语人群里Y染色体支系的共祖和扩张时间。使用进化突变率算出的时间约是用家系突变率得出时间的2到3倍。因为家系突变率得出的时间与Y染色体全测序数据得出的最匹配，我们在下文中重点讨论由家系突变率得出的时间。单倍群D可追溯到旧石器时代晚期，而其他单倍群更像是共祖到新石器时代。支系的扩张时间也落在新石器时代，从4200到7500年前。

MtDNA

mtDNA单倍群频率分布、群体遗传参数以及PCA分析

四个羌语支群体中共有396个个体的线粒体高变一区被成功测序，共发现134个多态位点可将这396个样本分为214种单倍型。这四个群体的单倍型多样性是由0.978到0.994，道孚尔龚的多样性最低，而丹巴尔龚的多样性最高。与单倍型多样性类似，两两序列比较的平均碱基差异数和核苷酸多样性也是在丹巴尔龚中最高而在道孚尔龚中最低。然而，雅江藏族的单倍型多样性却比新龙藏族高，但两两序列比较的平均碱基差异数和核苷酸多样性却比新龙藏族低。Tajima’s D, Fu’s Fs, Fu and Li’s D*, 和Fu and Li’s F*等检测群体增长的参数在此次研究的四个群体里都是负值，但Tajima’s D, Fu & Li’s D* and F*在道孚尔龚里统计学上不显著。道孚尔龚在统计学上不显著的群体增长参数以及较低的多样性可能是由于其较小的样本量或遗传漂变造成的。

依据mtDNA高变一区测序以及编码区的SNP分型数据，有397个样本被成功划分为了79个单倍群，这些单倍群都属于出非洲的两大超级单倍群M和N（包括R）。超级单倍群M及其下游支系占到了此次研究的羌语支人群母系基因库的59.70%，超级单倍群N及其下游支系占到了49.30%。单倍群D和G是超级单倍群M下最常见的类型，分别占到了全部样本的18.14%和13.60%。在超级单倍群N下，单倍群A和F是最常见的类型，分别占到了全部样本的13.60%和10.58%。大部分的单倍群属于欧亚东部特异类型，包括东北亚常见的A, D4, D5, G, C, 和Z，以及中国南部和东南亚常见的B, F, M7, 和R9等。只在雅江藏族里发现了两例单倍群U的样本，可能追溯到欧亚西部或南部，仅占到全部样本的0.5%。中国南部和东南亚特异单倍群在丹巴尔龚、道孚尔龚、新龙藏、雅江藏里的比例分别是26.09%, 22.50%, 27.73% 和21.35%，然而东北亚支系在雅江藏、丹巴尔龚、道孚尔龚鹤新龙藏里分别占到了56.77%, 56.52%, 55.00%和43.70%。与青藏高原上的其他藏族群体类似，川西羌语支人群在母系上也与东北亚人群很相近。

我们用羌语支人群和其他已发表的68个族群的mtDNA的单倍群数据进行PCA分析。第一主成分将北方群体（阿尔泰和北方汉）与南方群体（南方汉、壮侗和苗瑶）可以很好地分开，羌语支人群因高频A和G单倍群而被聚在了北方群体中。汉族和藏缅群体在第二主成分上有很大差异，而羌群体因M9a’b和M13而被聚到藏缅群体中。

超级单倍群M及其下游支系是羌语支母系的主要组成成分，其频率从丹巴尔龚的65.22%到新龙藏的57.98%。单倍群D4和G是羌语支人群最常见的类型，各自占到13.60%。单倍群D4在中亚、东北亚和中国西南广泛分布，在丹巴尔龚、雅江藏、新龙藏和道孚尔龚中分别占到17.39%、13.54%、13.45%以及10.00%。D4*的高变一区的单倍型在羌、藏、汉以及阿尔泰人群中被广泛共享。特别是D4的下游支系D4j3在丹巴尔龚和道孚尔龚中都有一定的比例，分别占到了4.35%和5.00%。羌语支中的D4*和D4j3的共祖时间约是1.5万年，并且其Fu’s Fs都是显著的负值，揭示了这两个支系在末次冰期后经历过人群扩张。单倍群G在西伯利亚的东北部高频分布，也在日本和朝鲜半岛很常见，还占到了尼泊尔的塔鲁人母系基因库的20%，占到了那曲、昌都、拉萨、甘孜和门巴这些地区藏族的10%。在本研究中，单倍群G及其下游支系G2a, G2b1b, G3和G3a1共占到道孚尔龚的20%，在其他三个群体中的频率也超过了10%。G2a共有三种不同的高变一区单倍型：16129–16223–16278–16362 (I), 在藏族和南方汉族中常见，但在阿尔泰族群内中基本上没有发现；16223–16227–16278–16362 (II), 在藏、南方汉和阿尔泰族群中都很常见，且在阿尔泰族群中可能经历了人口扩张；16193–16223–16278–16362 (III), 这一类型仅在南亚发现。道孚尔龚中的所有G2a样本都属于单倍型II但还多了16304这个突变。新龙藏族里有一半的G2a属于单倍型I。单倍型G2b1b首先在印度东北部被发现，在西藏及其周边地区也有少量分布，分别占到了雅江藏、道孚尔龚、新龙藏的4.69%、2.50%、0.84%。与其他藏族样本相比，羌语支里72.73%的G2b1b样本都还在16356位点有突变，这样就在网络图分析中形成了一些独有的分支。单倍群G3分别占到了雅江藏、道孚尔龚、新龙藏和丹巴尔龚的6.77%, 5.00%, 3.36%和2.17%。两个雅江的样本因在16215上有突变而被进一步细分为G3a1单倍群。另外，我们还在丹巴尔龚里发现了两例G2a样本既有G2a的代表性突变位点16278又有G3的特异性突变16274，所以无法准确进行单倍群划分。G*、G2b1b和G3的共祖时间都在2万年左右，而G2a的共祖时间竟达到3.4万年。这里需要特别指出的是这些支系到达青藏高原的时间可能比它们的共祖时间更晚近，因为除G2b1b之外的所有的G支系在进入青藏高原前就已经出现分化了。G2a和G3在网络图中形成的独有支系以及显著的Fu’s Fs的负值都表明这两个单倍群可能经历了隔离及群体的二次扩张。

单倍群M8有两个下游支系C和Z。单倍群C在东亚和西伯利亚广泛分布，还是美洲土著的奠基支系之一。单倍群C占丹巴尔龚和雅江藏的8-10%，但新龙藏和道孚尔龚人群中频率极低。有60%的C单倍群样本的高变一区是 16093–16298–16327这一单倍型，可被划分为C4d。一个丹巴尔龚样本的单倍型是16298–16327，经线粒体全测序也被划分为C4d。C4d被认为是藏族所独有的，在西藏各群体中的频率占到1.6%到5.0%。但C4d在雅江藏中的频率达到6.25%。西藏和青海的所有被报道的C4d样本都是上述的16093-16298-16327这一单倍型，但25%的雅江C4d样本还在16111上有突变。另外，约有23%的C单倍群的样本带有16357这个突变，可被划分为C4a2’3’4，这一单倍群也是仅在藏缅群体中出现的。单倍群Z在羌语支人群里的频率极低。

单倍群M9a’b在东亚大陆和日本广泛分布，但其频率和多样性在西藏及其周边地区（包括尼泊尔和印度东北部）达到最高。最近的研究表明M9a’b最可能是在中国南部或东南亚大陆起源的，并在末次冰期之后开始在东亚大陆上向北迁徙。M9a’b在丹巴尔龚、道孚尔龚、新龙和雅江藏族中的频率分别是4.35%, 10%, 13.45%和6.77%。羌语支人群里62.5%的M9a*样本的单倍型与其他藏缅群体在网络图中聚类的大簇的单倍型一致，M9a*的年龄也相对晚近，仅有7千年。M9b则多在中国南方和西南一些非藏群体中出现。我们在丹巴尔龚和新龙藏中发现了极低频率的M9b, 仅分别占到两群体的2.17%和0.84%。在单倍群 M9a1a和M9a1b的网络图中，大部分的羌语支样本的单倍型是西藏样本的衍生型，清晰地表明了这两个单倍群是经西藏迁徙而来的。羌语支里M9a1a和M9a1b的共祖时间约在1.2-1.3万年前，也与之前报道的M9a’b的末次冰期后的迁徙相一致。

单倍群M13a的频率和多样性在西藏是最高的，但M13a也在西伯利亚的布里亚特、雅库特、阿尔泰哈萨克、鄂温克以及中亚吉尔吉斯中极低频出现。羌语支中M13a的频率占到3.27%。在M13a1和M13a2的网络图中，羌语支和其他藏缅样本形成了几乎独有的分支，这充分表明这些单倍群是在藏族群体内部产生的。羌语支里70%的M13a1b样本的单倍型是一致的。M13a1b的共祖时间也只有5.7千年，揭示了这一支系很晚近的走出西藏的迁徙和扩张，这一支系进入北亚的时间也当然更晚近。

羌语支人群里也发现了欧亚mtDNA的基部支系。比如说，M62首先在印度东北被发现，然后在西藏的一些群体里也陆续被报道。Zhao等认为M62可能是旧石器时代（2.1万年前）青藏高原上最早迁居者的遗存下来的。我们在雅江藏族里发现了三例M62b的样本，这三例样本在16305上有突变，这一单倍型与以往报道的M62均不一致。同样地，一例新龙藏样本属于单倍群M74a，这一样本在16274位点上有突变，仅与一个毛南样本、一个壮族样本和一个海南汉族样本的单倍型一致。雅江藏里有一例样本是单倍群M33c，其单倍型与一些苗瑶样本相同。

超级单倍群N下的主要支系是单倍群R及其下游分支B和F，分别占到了丹巴尔龚、道孚尔龚、新龙和雅江藏的母系基因库的26.09%, 22.50%, 28.57%, 和23.44%。B4*是单倍群B中频率最高的支系，占到了全部样本的4.53%。在B4*的网络图中，组成其根部的几乎全是非藏缅的样本，藏缅样本只是形成了一些小簇或共享一些末端单倍型，这表明B4*在进入西藏前就已经分化了。F1*是单倍群F下频率最高的支系，占到全部样本的5.54%，在道孚尔龚中竟高达12.5%。羌语支中F1*样本的共祖时间约在5千年前，其在网络图中形成的独有分支簇表明其在向青藏高原的迁徙中可能经历了较强的瓶颈或奠基者效应，且显著负值的群体增长参数揭示了F1*在适应高原过程中可能有群体扩张或受到选择作用。

羌语支样本中的单倍群N*几乎都可划分到单倍群A。单倍群A在北亚和东亚广泛分布，在各群体中的比例在5%-10%之间。单倍群A在青藏高原上的平均频率是在9%左右。单倍群A4*主要分布在亚洲中部、东北部和西南部，也是羌语支单倍群A下的主要支系，分别占到了丹巴和道孚尔龚人群、新龙和雅江藏族人群的2.17%, 5.00%, 4.20%, 和12.50%。单倍群A4*的网络图分析也发现了星状结构，表明其在高原上经历过群体扩张，而且其他群体增长参数也支持其经历过扩张。单倍群A11是很早就从单倍群A的基部分出的，其下的两个分支A11a和A11b有着不同的分布模式。西藏的大部分A11样本属于A11*或A11a，只有一小部分在高变区有16234突变的样本属于单倍群A11b，但云南的藏缅和汉族中的A11样本都可被划分为A11b。在我们的羌语支样本中，有3个A11样本属于A11*，另外2个是A11b。

讨论

汉藏语系包含了广泛分布在东亚、东南亚、南亚部分地区的近460种语言，有汉语和藏缅语两个分支。尽管在语言学、考古学和遗传学上针对汉藏族群已有大量研究，但汉藏群体从哪里来、经历了怎样的迁徙扩散仍是有待进一步厘清的问题。现阶段被广泛接受的假说是汉藏族群源自新石器时代在黄河中上游的氐羌族群。氐族自后凉政权衰败之后逐渐演变成了汉族和羌语支人群。在本研究中，我们通过分析川西羌语支人群父系Y染色体和母系mtDNA来进一步阐明汉藏族群的源流历史。

从父系Y染色体角度，单倍群D*-M174在其向东亚大陆迁徙过程中分出了D1-M15。在大约5-6万年前，单倍群D*-M174和D1-M15的一部分开经由川西走廊北上达到现今的青海省，而后很可能经由藏彝走廊进入喜马拉雅山区。单倍群D*-M174很可能在西藏分化出了D3a-P47。单倍群D3a-P47在青藏高原经历了近期的人口扩张之后可能经由川西走廊南下并逐渐成为了现今四川、云南和广西等地去藏缅族群的主要遗传组分。单倍群D很可能代表了旧石器晚期青藏高原上人类活动的证据。在母系mtDNA方面，我们也发现了旧石器时期的遗传，比如单倍群M62b。同样，青藏高原上一系列的旧石器考古遗址也是2-3万年前早期人类活动的强有力证据。

在2-4万年前，一个带有高频O3-M122单倍群（包括O3a1c-002611,O3a2c1*-M134, O3a2c1a-M117以及其他O3支系）的族群达到了黄河中上游地区，并形成了氐羌族群。在新石器时代，氐羌族群经历了强烈的人口扩张。氐羌中的带有高频O3a2c1*-M134和O3a2c1a-M117的一支，也就是现在所称呼的原始藏缅族群，很可能也经由藏彝走廊经大规模西迁到达现今的青海省而后南迁至喜马拉雅山区，并非常可能经由川西走廊南下到云南和广西等地，而后和那里的D-M174混合形成了藏缅族群。有一点需要说明的是，从O3a2c1*-M134的STR网络图上判断，其很可能在上述与O3a2c1a-M117一起南迁到西藏之前就已经在西藏了。氐羌的另外一支，带有高频O3a1c-002611的人群在5-6千年前向东迁徙到中部大平原、黄河中下游地区，并逐渐与当地的土著（很可能是单倍群C和D的人群）融合。其后，黄河中上游带有高频O3a2c1*-M134和O3a2c1a-M117的氐羌人群形成了现今熟知的炎黄部落，而向东迁徙的带有高频O3a1c-002611的人群演变成了东夷部落。炎黄部落和东夷部落逐渐融合最终形成了现今的汉族，随着汉族的不断南迁并与南方土著壮侗、苗瑶等族群融合，汉族成为了中国最大的族群。

单倍群O3-M122在藏缅族群起源中的作用揭示了北方族群对藏缅有着大量的遗传贡献，已有的常染色体STR、Y染色体和mtDNA研究也都支持这一观点。羌语支群体的母系基因库有大量北方族群的贡献，例如单倍群A、C、D和G等，其实这并不奇怪。黄河中上游特有的文化形式，比如彩陶、粟（小米）以及瓮棺藏等在川西的新石器遗址中很常见，这很可能就是由人经川西走廊传播来的。