分享

人類學雜記——50. 趙宋皇族的Y染色體,徵集樣本中

 徒步者的收藏 2018-08-16

(溫馨提示:簡化字版本見後。此外文章裏面有一些偏技術性的內容,暫時看不懂的話先忽略就好,以後接觸到了再去理解不遲。)


目前,中國歷代皇族裏,愛新覺羅家族的Y染色體已經確定,是C2b1b2a-F14751下面的,屬原先的C3北支即現在的C2b-F1396,和成吉思汗以前的黃金家族C2b1b1-F3796較近(見《人類學雜記 39》)。除此以外,朱明皇族和耶律家族目前已知有一些證據,但仍然沒有定論。


我接下來希望能確定的是趙宋皇族的Y染色體。趙宋皇族指太祖趙匡胤和太宗趙光義之父趙弘殷的後代。北宋自太宗之後,直到徽宗、欽宗的歷代皇帝,以及南宋的開國皇帝高宗,都是太宗的後代。但太宗支在靖康之難後所剩無幾。高宗無嗣,南宋從孝宗開始,皇位分屬於太祖趙匡胤的兩個兒子德芳、德昭兩人的後代。宋朝皇室普遍人丁不很興旺,皇位父子相傳最多三代,之後就需要由旁支入繼。此外太祖和太宗的弟弟,魏王趙廷美也有較多的後代傳承到現在。也即,現有的宋朝皇室後代根據家譜,主要屬於太祖後代的德昭、德芳,及魏王廷美這三派,另外也有一些家族自稱是太宗的後代。


我幾年前就開始與德昭派(譜上接近宋理宗)的趙誼夫先生(分子人類學論壇和新浪微博的 @Greenbrothers )合作,探尋趙宋皇族的Y染色體。因爲至今仍沒有合適的古DNA樣本,我們仍然是試圖通過活人的樣本來解謎的。2015年趙宋宗親在浙江諸曁農村一所祠堂舉行了一次祭祖大會,趙誼夫先生帶着我去對多位宗親採了血樣。除了這次採到了諸曁的多個家族以外,我還採到過譜記爲趙宋皇族的福建泉州(原南外宗正司所在地);浙江紹興越城,杭州富陽、蕭山,寧波餘姚;安徽太湖;山東棗莊等地的趙宋皇族(依自述,不都有完整家譜)。


以上自稱爲趙宋皇族的,去除最近的重複樣本(同村或者不同村但譜記清代或以後共祖,且STR相差2步以內),共有27支,測下來是這樣的情況:


O1a1a-P203: 16支

Cα-F1271: 3支

N-M231: 2支

O2a1a1a1a1-M121、Oγ-F11、O2a2a1a1-M159、Oβ-F46、Oα1a1a-F155、R1a1a-M17各1支


從以上數據來看,似乎結果是明確的,O1a1a-P203單倍羣是絕對的候選。但問題在於,以上27支中有16支的籍貫是浙江紹興,其中包括了12支O1a1a-P203。而且其中也發現了一些DNA不符合晚近家譜及族內過繼的情況。這樣,除掉紹興以外的樣本,就是11支樣本,其中只有4支是O1a1a-P203了。因爲趙家唐代時源於河北涿郡,而我手裏的數據O1a1a-P203在河北只有2%左右。而且O1a1a-P203又是在浙江比例最高的單倍羣(超過20%),推測可能主要來源於古代百越土著,北方分佈較少,不能排除是多支紹興當地的土著分別進入了趙宋的族譜。


除此之外,我們把所有自稱趙宋後裔的O1a1a-P203的樣本的15 Y-STR(傳統17 STR去掉DYS385a/b)拿出來,做了一下网絡圖:

 

圖裏面的一個圓圈代表一個15 Y-STR的單倍型,圓圈的直徑和該單倍型的樣本數量成正比,連接圓圈的線段的長度正比於單倍型之閒15 Y-STR相差的突變步數。圓圈的顏色,黃色爲浙江紹興(主要爲諸曁),綠色爲福建泉州,其它顏色各是不同地方的。


現在問題來了:趙宋的擴張時閒應該在1100年之內(太祖生於公元927年),以上所有O1a1a-P203樣本從Y-STR來看,應該遠遠超出了這個年代(同樣是15 Y-STR,對比愛新覺羅,600多年,兩兩之閒最多差3步;嚴嵩家族,600多年,兩兩之閒最多差4步),上圖的兩個大黃圈之閒相差都已經有6步了,而且並不是一個晚近擴張的星簇的形狀(因爲年代較新的支系,通常還會有較多的現代後代維持始祖的Y-STR單倍型,保留在原處形成一個較大的圓圈,和其它有所突變的單倍型共同構成一個星狀結構)。如果只看左邊的那部分,倒確實滿足一個1000年左右的擴張,但問題是都是紹興的樣本,盡管依族譜也分作德昭、德芳、太宗派下,但因太平天國時人丁銳減,之後出現了較多的族內過繼,以我的角度來說,仍是孤例不能作證,就算他們確實構成一個單系羣,也不足以說明宋初的情況。


另外,上圖中每一個單倍型在我數據庫裏面搜,17 STR差2步之內都能有大量其它姓氏的樣本匹配,因爲O1a1a-P203下游F78+支系本身就在近4000年內在中國南方有急劇擴張。也就是說,我認爲以現有的證據,還無法確認趙宋皇族的Y染色體屬於O1a1a-P203這支。


因爲用Y-STR估算時閒是非常不準的,我後面準備用自己的科硏經費測一些上面圖裏的樣本的Y染色體高通量測序,通過Y-SNP數量計算相對準確一些的分離年代(10 Mbp以上區域能到100年左右一個突變)。同時,把整個O1a-M119這一大支的Y高通量樹整個算一下,看看其中各層級的相對準確的分化年代,以及拓撲結構和族羣分佈的特點。


爲了以上的目的,我們現在向大家重點徵求兩樣東西:一個是譜記趙宋皇族後代的樣本,一個是在復旦和源基因以外的其它機構檢測得到的屬於O1a-M119這個支系的Y染色體高通量測序的bam文件。


因爲我目前在實驗室沒有學生能夠穩定做實驗(學生做這種簡單實驗太浪費,也太耽誤時閒,還是處理數據、寫文章能人盡其用),現在我這裏的樣本都是送到源基因( www.yoogene.com )去測的,對個人的服務,有個网站也遠比我個人小作坊要好很多,所以感興趣的人可以去源基因的网站上下個單,購買相應的產品,然後寄唾液過去就可以,就別非要跑到我實驗室裏來找我抽血了。


如果有趙宋後代是有家譜的,並且希望能被免費檢測Y-STR(源基因的“父系基礎版”),可以將自己的以下情況發送私信給新浪微博上的 @Greenbrothers :1. 屬於趙宋三支的哪一支;2. 譜系源流(XX趙氏、堂号);3. 字輩和族內上下各五代人的字輩;4. 南宋時屬於哪一支宗正司,等等。Greenbrothers可能會向您詢問更詳細的內容,以判斷您是否可以免費參與我們的測試,能的話,會發給您一個源基因測試的免費碼,您拿着這個碼在源基因下單就可以了。不能的話,您也仍然可以像一般人一樣付費參與我們的測試。以愛新覺羅家族檢測的經驗來看,有詳細族譜的人的Y染色體確認爲努爾哈赤同宗的概率更高,但確實也有一些族譜不全、僅有家族記憶的人被證實爲生物學意義的愛新覺羅的。


另外就是因爲我打算後面處理O1a-M119的Y染色體高通量譜系樹,找新的突變、計算年代等等,希望大家能把在其它機構測到的Y染色體高通量的bam文件上傳給我來做分析。這個是免費的,而且結果會返給大家。其實不論哪個支系我都是需要的,前一陣算過C2a-F1067的,最近在重新算O2a2b1a1-M117(含Oα-F5)的,下一步計畫就是O1a-M119的了。因爲Y染色體高通量測序的分析需要花費的計算量和人工校正的成本都是巨大的,只能一支支輪着來算,能趕上這一波就盡量。自然對於Y染色體高通量測序來說,我最希望各位能在源基因做父系尊享版測序(質檢通過後就能提供bam文件下載),這樣能保證捕獲區域、測序深度的一致性,後面時閒估算都會更準確一些,而某些其它公司由於捕獲區域和我們很不一致,直接拿那個算出的分離年代肯定會更不精確,以至算時閒的時候只能把這些樣本的數據去掉(但樹形還是能用盡量用的)。而且我也碰上過其它一些公司的結果會在一些特定位點系統性地出現大量不符合樹形的突變,這些都需要我手工一一排除。


如果是要給我上傳其它機構得到的Y高通量數據,我仍然是把這個上傳接口放到源基因网站了,但後面的做樹的計算是我來做的,也會和復旦的其他同事合作,搜集盡可能多的全序數據一起來算樹。您可以在源基因註冊一個帳号,裏面能找到“數據上傳”按鈕。首先一定要是二代測序的結果,大多數商業測試機構用芯片得到的位點數據只是對已知位點作分型,對於找新位點和計算年代是沒用的。我只接受bam文件,要求大小在50 Mb – 700 Mb範圍內(偶爾可以放寬到1 Gb),是專門捕獲測Y染色體的數據測得的數據,或者全基因組數據把Y染色體拆出來的bam文件。不接受vcf文件,因爲其中只包含突變位點,而沒有序列信息,也沒法取得某個位點是沒測到還是沒有突變的信息,其它機構call vcf的過程中也可能出一些錯誤。fastq文件如果在500 Mb – 1 Gb之閒的話也許是可以用的(也要看捕獲的情況,具體請和客服確認。我將大小限制在50 Mb – 700 Mb這個範圍,一來是我們的硬盤和數據量攷慮,另外也是爲了數據質量,因爲數據量小於50 Mb的肯定測序深度過低,覆蓋範圍不夠;而數據量大於700 Mb的如果是正常十幾Mbp的捕獲範圍,都超出必要的捕獲深度了,有幾種情況:1. 測到的數據量(乘數)本身過多,那麼建議只拿測到的一部分數據給我們;2. 沒有去除重複序列,這種應該由測序服務機構去除重複後再給我們;3. 測的不是只捕的Y染色體,比如測的是全基因組(希望有30x以上,但略少於此也可以收),有幾十Gb以至上百Gb的數據,這樣的情況下,可以請測序服務機構用'samtools view -bh chrY > '命令先把Y染色體部分提出來再傳給我們。另外,捕獲的全外顯子組數據,因爲其中的Y染色體部分過少,我也是不需要的。另外,其它Y染色體支系的測序bam文件如果您有的話也歡迎先上傳了,我不能保證什麼時候會開始分析,但如果要分析的話,如果再臨時上傳、做質檢等等,周期可能要兩周以上,我不一定等得及。總歸上傳bam文件、做樹分析這事,我是把它作爲我在復旦的科硏而不是在源基因的商業服務來做的,目前也不收錢,因爲數據來源、質量參差不齊,我沒法做一個結果分析質量的保證,但會在力所能及的情況下盡量給一個好的分析(分析的結果還是會掛在源基因的网站上的)。


然後是錢的事。做測試、分析這些事本身需要錢,歡迎有對中國人父系祖源感興趣的人能夠贊助我們的項目或者投資源基因。之前C2a的項目就是有人花20万元贊助源基因和另一個公司測了一百多個Y高通量測序,要求就是把樹盡快(不要求等文章發表)無償公佈,最終結果還是很理想的,我們把C2a下游定出了上百個支系。但沒有更多的資助的話,趙宋這件事現在以我們目前的資源也能做下去。


最後也是最重要的,每一位來測祖源的人,在得到自己結果的同時,都是爲我們的祖源數據庫貢獻一份樣本。有了更大的樣本量和數據量,對中國人的祖源纔能做得更好,尋根工作也纔有更豐富的資源。


希望通過這一波樣本收集和Y染色體高通量測序,我們能確定趙宋皇族的Y染色體類型。


=========以下爲簡化字版本=========


目前,中国历代皇族里,爱新觉罗家族的Y染色体已经确定,是C2b1b2a-F14751下面的,属原先的C3北支即现在的C2b-F1396,和成吉思汗以前的黄金家族C2b1b1-F3796较近(见《人类学杂记 39》)。除此以外,朱明皇族和耶律家族目前已知有一些证据,但仍然没有定论。


我接下来希望能确定的是赵宋皇族的Y染色体。赵宋皇族指太祖赵匡胤和太宗赵光义之父赵弘殷的后代。北宋自太宗之后,直到徽宗、钦宗的历代皇帝,以及南宋的开国皇帝高宗,都是太宗的后代。但太宗支在靖康之难后所剩无几。高宗无嗣,南宋从孝宗开始,皇位分属于太祖赵匡胤的两个儿子德芳、德昭两人的后代。宋朝皇室普遍人丁不很兴旺,皇位父子相传最多三代,之后就需要由旁支入继。此外太祖和太宗的弟弟,魏王赵廷美也有较多的后代传承到现在。也即,现有的宋朝皇室后代根据家谱,主要属于太祖后代的德昭、德芳,及魏王廷美这三派,另外也有一些家族自称是太宗的后代。


我几年前就开始与德昭派(谱上接近宋理宗)的赵谊夫先生(分子人类学论坛和新浪微博的 @Greenbrothers )合作,探寻赵宋皇族的Y染色体。因为至今仍没有合适的古DNA样本,我们仍然是试图通过活人的样本来解谜的。2015年赵宋宗亲在浙江诸暨农村一所祠堂举行了一次祭祖大会,赵谊夫先生带着我去对多位宗亲采了血样。除了这次采到了诸暨的多个家族以外,我还采到过谱记为赵宋皇族的福建泉州(原南外宗正司所在地);浙江绍兴越城,杭州富阳、萧山,宁波余姚;安徽太湖;山东枣庄等地的赵宋皇族(依自述,不都有完整家谱)。


以上自称为赵宋皇族的,去除最近的重复样本(同村或者不同村但谱记清代或以后共祖,且STR相差2步以内),共有27支,测下来是这样的情况:


O1a1a-P203: 16支

Cα-F1271: 3支

N-M231: 2支

O2a1a1a1a1-M121、Oγ-F11、O2a2a1a1-M159、Oβ-F46、Oα1a1a-F155、R1a1a-M17各1支


从以上数据来看,似乎结果是明确的,O1a1a-P203单倍群是绝对的候选。但问题在于,以上27支中有16支的籍贯是浙江绍兴,其中包括了12支O1a1a-P203。而且其中也发现了一些DNA不符合晚近家谱及族内过继的情况。这样,除掉绍兴以外的样本,就是11支样本,其中只有4支是O1a1a-P203了。因为赵家唐代时源于河北涿郡,而我手里的数据O1a1a-P203在河北只有2%左右。而且O1a1a-P203又是在浙江比例最高的单倍群(超过20%),推测可能主要来源于古代百越土著,北方分布较少,不能排除是多支绍兴当地的土著分别进入了赵宋的族谱。


除此之外,我们把所有自称赵宋后裔的O1a1a-P203的样本的15 Y-STR(传统17 STR去掉DYS385a/b)拿出来,做了一下网络图:

 

图里面的一个圆圈代表一个15 Y-STR的单倍型,圆圈的直径和该单倍型的样本数量成正比,连接圆圈的线段的长度正比于单倍型之间15 Y-STR相差的突变步数。圆圈的颜色,黄色为浙江绍兴(主要为诸暨),绿色为福建泉州,其它颜色各是不同地方的。


现在问题来了:赵宋的扩张时间应该在1100年之内(太祖生于公元927年),以上所有O1a1a-P203样本从Y-STR来看,应该远远超出了这个年代(同样是15 Y-STR,对比爱新觉罗,600多年,两两之间最多差3步;严嵩家族,600多年,两两之间最多差4步),上图的两个大黄圈之间相差都已经有6步了,而且并不是一个晚近扩张的星簇的形状(因为年代较新的支系,通常还会有较多的现代后代维持始祖的Y-STR单倍型,保留在原处形成一个较大的圆圈,和其它有所突变的单倍型共同构成一个星状结构)。如果只看左边的那部分,倒确实满足一个1000年左右的扩张,但问题是都是绍兴的样本,尽管依族谱也分作德昭、德芳、太宗派下,但因太平天国时人丁锐减,之后出现了较多的族内过继,以我的角度来说,仍是孤例不能作证,就算他们确实构成一个单系群,也不足以说明宋初的情况。


另外,上图中每一个单倍型在我数据库里面搜,17 STR差2步之内都能有大量其它姓氏的样本匹配,因为O1a1a-P203下游F78+支系本身就在近4000年内在中国南方有急剧扩张。也就是说,我认为以现有的证据,还无法确认赵宋皇族的Y染色体属于O1a1a-P203这支。


因为用Y-STR估算时间是非常不准的,我后面准备用自己的科硏经费测一些上面图里的样本的Y染色体高通量测序,通过Y-SNP数量计算相对准确一些的分离年代(10 Mbp以上区域能到100年左右一个突变)。同时,把整个O1a-M119这一大支的Y高通量树整个算一下,看看其中各层级的相对准确的分化年代,以及拓扑结构和族群分布的特点。



为了以上的目的,我们现在向大家重点征求两样东西:一个是谱记赵宋皇族后代的样本,一个是在复旦和源基因以外的其它机构检测得到的属于O1a-M119这个支系的Y染色体高通量测序的bam文件。


因为我目前在实验室没有学生能够稳定做实验(学生做这种简单实验太浪费,也太耽误时间,还是处理数据、写文章能人尽其用),现在我这里的样本都是送到源基因( www.yoogene.com )去测的,对个人的服务,有个网站也远比我个人小作坊要好很多,所以感兴趣的人可以去源基因的网站上下个单,购买相应的产品,然后寄唾液过去就可以,就别非要跑到我实验室里找我抽血了。

如果有赵宋后代是有家谱的,并且希望能被免费检测Y-STR(源基因的“父系基础版”),可以将自己的以下情况发送私信给新浪微博上的 @Greenbrothers :1. 属于赵宋三支的哪一支;2. 谱系源流(XX赵氏、堂号);3. 字辈和族内上下各五代人的字辈;4. 南宋时属于哪一支宗正司,等等。Greenbrothers可能会向您询问更详细的内容,以判断您是否可以免费参与我们的测试,能的话,会发给您一个源基因测试的免费码,您拿着这个码在源基因下单就可以了。不能的话,您也仍然可以像一般人一样付费参与我们的测试。以爱新觉罗家族检测的经验来看,有详细族谱的人的Y染色体确认为努尔哈赤同宗的概率更高,但确实也有一些族谱不全、仅有家族记忆的人被证实为生物学意义的爱新觉罗的。


另外就是因为我打算后面处理O1a-M119的Y染色体高通量谱系树,找新的突变、计算年代等等,希望大家能把在其它机构测到的Y染色体高通量的bam文件上传给我来做分析。这个是免费的,而且结果会返给大家。其实不论哪个支系我都是需要的,前一阵算过C2a-F1067的,最近在重新算O2a2b1a1-M117(含Oα-F5)的,下一步计划就是O1a-M119的了。因为Y染色体高通量测序的分析需要花费的计算量和人工校正的成本都是巨大的,只能一支支轮着来算,能赶上这一波就尽量。自然对于Y染色体高通量测序来说,我最希望各位能在源基因做父系尊享版测序(质检通过后就能提供bam文件下载),这样能保证捕获区域、测序深度的一致性,后面时间估算都会更准确一些,而某些其它公司由于捕获区域和我们很不一致,直接拿那个算出的分离年代肯定会更不精确,以至算时间的时候只能把这些样本的数据去掉(但树形还是能用尽量用的)。而且我也碰上过其它一些公司的结果会在一些特定位点系统性地出现大量不符合树形的突变,这些都需要我手工一一排除。


如果是要给我上传其它机构得到的Y高通量数据,我仍然是把这个上传接口放到源基因网站了,但后面的做树的计算是我来做的,也会和复旦的其他同事合作,搜集尽可能多的全序数据一起来算树。您可以在源基因注册一个账号,里面能找到“数据上传”按钮。首先一定要是二代测序的结果,大多数商业测试机构用芯片得到的位点数据只是对已知位点作分型,对于找新位点和计算年代是没用的。我只接受bam文件,要求大小在50 Mb – 700 Mb范围内(偶尔可以放宽到1 Gb),是专门捕获测Y染色体的数据测得的数据,或者全基因组数据把Y染色体拆出来的bam文件。不接受vcf文件,因为其中只包含突变位点,而没有序列信息,也没法取得某个位点是没测到还是没有突变的信息,其它机构call vcf的过程中也可能出一些错误。fastq文件如果在500 Mb – 1 Gb之间的话也许是可以用的(也要看捕获的情况,具体请和客服确认。我将大小限制在50 Mb – 700 Mb这个范围,一来是我们的硬盘和数据量考虑,另外也是为了数据质量,因为数据量小于50 Mb的肯定测序深度过低,覆盖范围不够;而数据量大于700 Mb的如果是正常十几Mbp的捕获范围,都超出必要的捕获深度了,有几种情况:1. 测到的数据量(乘数)本身过多,那么建议只拿测到的一部分数据给我们;2. 没有去除重复序列,这种应该由测序服务机构去除重复后再给我们;3. 测的不是只捕的Y染色体,比如测的是全基因组(希望有30x以上,但略少于此也可以收),有几十Gb以至上百Gb的数据,这样的情况下,可以请测序服务机构用'samtools view -bh chrY > '命令先把Y染色体部分提出来再传给我们。另外,捕获的全外显子组数据,因为其中的Y染色体部分过少,我也是不需要的。另外,其它Y染色体支系的测序bam文件如果您有的话也欢迎先上传了,我不能保证什么时候会开始分析,但如果要分析的话,如果再临时上传、做质检等等,周期可能要两周以上,我不一定等得及。总归上传bam文件、做树分析这事,我是把它作为我在复旦的科硏而不是在源基因的商业服务来做的,目前也不收钱,因为数据来源、质量参差不齐,我没法做一个结果分析质量的保证,但会在力所能及的情况下尽量给一个好的分析(分析的结果还是会挂在源基因的网站上的)。


然后是钱的事。做测试、分析这些事本身需要钱,欢迎有对中国人父系祖源感兴趣的人能够赞助我们的项目或者投资源基因。之前C2a的项目就是有人花20万元赞助源基因和另一个公司测了一百多个Y高通量测序,要求就是把树尽快(不要求等文章发表)无偿公布,最终结果还是很理想的,我们把C2a下游定出了上百个支系。但没有更多的资助的话,赵宋这件事现在以我们目前的资源也能做下去。


最后也是最重要的,每一位来测祖源的人,在得到自己结果的同时,都是为我们的祖源数据库贡献一份样本。有了更大的样本量和数据量,对中国人的祖源才能做得更好,寻根工作也才有更丰富的资源。


希望通过这一波样本收集和Y染色体高通量测序,我们能确定赵宋皇族的Y染色体类型。



polyhedron

2018.06.27 首發於新浪博客


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多