3 月 31 日,Science 连发 6 篇论文,公布迄今为止最完整的人类基因组测序结果,这也是第一个完整无间隙的人类基因组序列,将彻底改变我们对人类基因组变异、疾病和演化的理解。
(来源:Science)
该人类参考基因组被命名为 T2T-CHM13,是因为该基因组代表的是完全性葡萄胎细胞系 13(complete hydatidiform mole, CHM13) 的“单倍体”基因组。该基因组包含 22 条常染色体和 X 染色体的无缝组装, 共含有 30.55 亿对碱基。比之前的人类模版基因组(GRCh38)增加了近 2 亿碱基的遗传信息,约等于整个基因组的 8% 的序列信息。该增加的碱基数目近乎相当于一条人类染色体能够包含的遗传信息,其中大部分序列是重复序列或复杂区域的序列。
(来源:Science)
借助该成果,过往人类基因组序列里的错误也得到纠正,人类基因组中结构最为复杂的部分区域也得以解锁。研究团队还以该完整的基因组序列为参考,在已发表的人类基因组中发现 200 多万新的变异位点,借此可提供 622 个基因组变异的更准确信息。
据悉,该系列研究主要由国际科学团队端粒到端粒联盟(T2T,Telomere-to-Telomere)完成,联盟成员包括美国国家人类基因组研究所、加州大学圣克鲁兹分校、华盛顿大学等。与此同时,Nature Methods 也发表了多篇相关论文。
(来源:Science)
一日连发 6 篇 Science 和多篇 Nature 子刊论文 
这一系列工作起始于 2018 年,并在 2019 年官宣。而今天发布的是一个葡萄胎细胞系的 22 条常染色体加 X 性染色体基因组。在本次全基因组之前已经发表了两条染色体完整基因组。X 染色体的完整基因组相关论文于 2020 年发表在 Nature 上;即将加入上海交通大学担任长聘教轨副教授的毛亚飞,参与了第一条常染色体(8号染色体)的部分工作,相应论文于 2021 年发表在 Nature 上。
此次成果,得益于 DNA 测序技术的发展。过去十年间,两种新型长读长 DNA 测序技术问世,它们均能产生更长的序列读取。牛津纳米孔 DNA 测序方法可以一次读取多达 100 万个碱基序列,而 PacBioHiFiDNA 测序方法可以读取大约 20000 个碱基序列。 T2T 联盟主要使用这两种 DNA 测序方法辅以其他测序手段,最终组装出完整的人类基因组序列。T2T-CHM13 完整基因组构建是基因组学上的又一个里程碑。
打包发表 6 篇 Science 论文的背后,是一个 long story。2021 年,论文就已放在预印本平台上。本来希望在庆祝 2001 年人类基因组计划完成 20 周年之际发表,但是由于审稿等因素,直到今天才正式发表。
研究人员分别来自不同团队,但是各团队成员相互交叉,即同时隶属于 T2T 联盟。T2T 联盟由美国国立卫生研究院和加利福尼亚大学圣克鲁兹分校的两位科学家主持,后又邀请到华盛顿大学医学院基因组科学系教授埃文·E·艾希勒(Evan E. Eichler)的加入,而埃文正是毛亚飞的博后导师。上述三位科学家将联盟组织起来之后,又联合美国人类遗传学方面的各个实验室一起公关,通过不同视角去解读该完整基因组。
(来源:Science)
6 篇论文中,第一篇是主论文、并由三位联盟牵头人担任通讯作者。其他 5 篇论文分别从 5 个方面探讨了该完整基因组在人类遗传学上的重要性。5 篇论文中的第一篇主要研究 segmental duplication 等复杂区域;第二篇论文重点介绍中心粒的结构和其表观图谱;第三篇讨论的是该完整基因组如何提高对人类遗传变异多样性的分析;第四篇介绍了人类基因组重复序列中的基因表达和其表观图谱;第五篇主要介绍该完整基因组的表观图谱。这些分析都离不开方法学上的创新,所以研究人员同时在 Nature Methods 上发了多篇伴随论文。
西北工业大学生态环境学院教授王文表示,这项研究补齐了人类 DNA 遗传密码图的缺损部分,意味着“有个完整的图了”,可帮助人类更深刻地理解染色体的结构、着丝粒区、端粒区、高重复异染色质区的结构组成等。
图 | 王文(来源:王文) 但是,即便如此这依然是一个“旷日持久”的研究。
为何时隔 21 年人类基因组测序领域才迎来新里程?

浙江大学生命演化研究中心求是讲席教授张国捷表示,2000 年美、英、日、法、德、中等六国同时宣布人类基因组“工作框架图(草图)”,当时大概只覆盖人类基因组 90% 左右的区域。尽管在第二代测序技术出现之后,可对一些用第一代测序技术不能检测的序列进行补全,可仍然有至少 8% 的序列漏洞。详细来说,每个人含有两套基因组,每套含有 23 条染色,即 22 条常染色体 +1 条性染色体 X/Y。每条染色体就是一条有 ATCG 四种碱基组成的字符串,理想的完整基因组应该从头到尾把 23 条染色体完整的排序出来。但是,基因组上弥散着许多相同字符串组成的重复序列,由于过去测序读长比较短,很难一次性把这些重复序列测出来,通过计算分析也很难把重复序列的完整序列进行完整排序。 图 | 张国捷(来源:张国捷)
西北工业大学教授王文表示,通过原来的一代和二代测序技术无法读通着丝粒等重复序列区。直至最近,高保真的长读长三代测序技术出现之后,才基本解决上述问题。
张国捷同时指出,即便测序技术出现革新性进步,有些超长的重复序列仍然很棘手,因此需要借助计算机组装算法、对测序数据进行精准排序。所以,该工作综合了多种测序技术、以及新型组装算法,才完成了所有常染色体和 X 染色体的组装。他还表示,在过去人类基因组草图存在的 8% 的未测区域,影响了我们对染色体完整结构的认识,比如对于端粒和着丝粒等区域的认识,而它们对维持基因组稳定、染色体复制和许多细胞过程都有着至关重要的意义。这些区域往往含有许多重复序列,因此大部分没有被解析出来。基因组上的重复元件往往在人群里存在广泛的拷贝数差异,对现代人类的分化和人类疾病有深远影响。此外,这些未测的区域含有大量过去未知的基因、或者调控基因表达的调控元件。因此,解析出完整的基因组,为我们全面理解人类基因组结构和功能奠定重要基础。
但是张国捷表示,这次公布的人类基因组并非真正意义完整的基因组,因为这个工作所用的材料是个女性来源的细胞系,Y 染色体的完整序列仍未被被解析出来。而且,一个个体完整的基因组序列应该包含两套基因组信息,一个来自父本一个来自母本,也即我们每个人身上有 2 套染色体:23X2。而这次公布的序列也没有将父母本基因组分开。因此,未来还有很长的路要走。
王文也表示,目前仍然难以读通一些物种中重复序列较长的区域,而本次成果亦是使用一个人类葡萄胎衍生的单倍体细胞系。这说明,直接测通二倍体正常人的高度重复染色体区域还需更多努力。
(来源:Science)
填补最后 8% 的空白,解锁最复杂的区域 
在人类基因组中,大约 50% 的片段都由重复序列构成。部分重复序列聚集的基因组片段(如:端粒,中心粒和segmental duplication等)具有相当复杂的结构。如前所述,在该研究中,研究人员利用最新三代测序技术解决了之前未能解决的 8% 的人类基因组复杂区域。
那么,为什么要关心复杂区域?因为很多人类遗传性疾病或癌症,它们的真正致病位点恰恰和这 8% 的基因组片段息息相关。如果没有这部分的人类基因组模板序列,自然无法对其进行研究。同时,我们也不可能真正的理解这 8% 基因组片段的遗传多样性和演化历史。因此,该 8% 的重复序列在遗传学和演化生物学上都至关重要。
举例来说,人类 1q21.1 基因组上有一段极为复杂的人类特有基因组片段。如果该基因片段出现丢失或重复,可能会导致小脑症等疾病。我们之前对该片段在人类基因组的多样性和复杂性都不甚了解。但是,有了该完整的基因组,就能进一步研究该片段在人类种群中的多样性以及它导致疾病的精细遗传位点。所以本次工作的意义之一,在于通过长读长测序技术去解决复杂区域的序列结构,为后续的精准医疗和分子诊断提供更为精细的蓝图。
(来源:Science)
未来还将完成 350 个人类基因组测序 
该完整基因组的构建不仅仅是一个人类基因组模板,更重要是该技术手段将迅速被应用到以基因组学为手段的生物学研究中。
(来源:Science)
对于演化基因组学研究来说,此后可拥有较好的人类基因组学模板来研究人类特有的基因片段和人类复杂区域的遗传多样性。特别是对于灵长类演化研究来说,对于我们理解人类和非人灵长类在复杂区域的基因组异质性,有着重要的意义。同时,对于演化研究和基因组学研究来说,研究人员以后可以在单核苷酸水平上去观察中心粒的完整结构,理解中心粒的结构变异和演化。进一步探究中心粒在基因组稳定性中的作用,以及不同疾病中基因组不稳定性和这些复杂区域的关系。
中科院北京基因组研究所博导蒋岚表示,国家二孩三孩政策的相继推出,使得提高人口出生率和人口健康成为国民关注的问题。高龄产妇生育能力下降、难受孕、易流产,与卵细胞和早期胚胎的着丝粒区域异常的表观遗传学状态密切相关。着丝粒区域富含复杂的高度重复序列,在之前的基因组参考序列中留下许多空洞。因此,我们对于人类基因组着丝粒区域的表观遗传学的理解是不完整的。而此次报道的无缝隙人类基因组参考序列,结合三代测序等新技术来研究表观遗传学修饰特别是 DNA 甲基化,有望克服这个瓶颈。故该成果对于推动辅助生殖技术的发展,也具有重要意义。
对于植物农业基因组学研究来说,该成果也可得到相关应用。作为重要的农业生产国,中国的农业基因组及作物基因编辑都在全球处于领先地位。如果利用该技术去组装棉花基因组、水稻基因组等会能帮助到未来的分子育种。
此外,科学家也能免费使用该数据去研究其他生物学问题。事实上,在本论文正式发表之前,就已经惠泽更多课题组,日本科研团队已使用 T2T 联盟此前发表在预印本上的论文数据做出了研究成果。
同时毛亚飞表示,该 6 篇论文还是其次,主要是这些研究加强了我们对于人类基因组的基本认识,同时该技术的创新给我们带来更多的研究方向。未来通过获得不同人类种群 T2T 基因组来进一步精细研究人类起源和人类基因组多样性将会是很重要的课题。因此,美国国立卫生研究院专门拨款 3000 万美元经费支持研究团队完成 350 个人类 T2T 水平的二倍体基因组测序组装工作。该工作将构建非洲、亚洲、欧洲和美洲等各个不同人群的泛基因组图谱。这个一泛基因组图谱将会极大影响我们对人类演化和人类遗传多样性的理解,同时该图谱也会对各类疾病的研究起到至关重要的作用。
-End- 特别鸣谢:中科院基因组所研究员赵文明、中国科学院动物所研究员张勇 参考: S.J. Hoyt et al. From telomere to telomere: The transcriptional and epigenetic state of human repeat elements. Science. Vol. 376, April 1, 2022, p. 57. doi: 10.1126/science.abk3112. S. Aganezov et al. A complete reference genome improves analysis of human genetic variation. Science. Vol. 376, April 1, 2022, p. 54. doi: 10.1126/science.abl3533. S. Nurk et al. The complete sequence of a human genome. Science. Vol. 376, April 1, 2022, p. 44. doi: 10.1126/science.abj6987. N. Altemose et al. Complete genomic and epigenetic maps of human centromeres. Science. Vol. 376, April 1, 2022, p. 56. doi: 10.1126/science.abl4178. M.R. Vollger et al. Segmental duplications and their variation in a complete human genome. Science. Vol. 376, April 1, 2022, p. 55. doi: 10.1126/science.abj6965. A. Gershman et al. Epigenetic patterns in a complete human genome. Science. Vol. 376, April 1, 2022, p. 58. doi: 10.1126/science.abj5089. A.M. McCartney et al. Chasing perfection: validation and polishing strategies for telomere-to-telomere genome assemblies. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01440-3. G. Formenti et al. Merfin: improved variant filtering, assembly evaluation and polishing via k-mer validation. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01445-y
|