分享

6篇Science齐发:缺失20年,人类DNA未知的8%终于被揭开

 法中医家小馆 2022-04-02

美国当地时间 3 月 31 日,由近百名国际学者组成的“端粒到端粒”(Telomere to Telomere, T2T)联盟宣布,本世纪初就已宣告完成的人类基因组测序,终于在二十多年后迎来了一直缺失的 8%,迄今最完整的人类基因组序列由此诞生。4 月 1 日出版的《科学》(Science)专门为此推出了一期特刊,同时发表了 6 篇相关论文。

Image

荧光显微镜下的人类染色体。Steffen Dietzel,CC BY-SA 3.0,https://commons./w/index.php?curid=1369763

编译 李佳仪

编辑 魏潇

人类基因组由超过 60 亿个 DNA 碱基组成,分布在 23 对染色体中。但在过去的二十多年中,“完整的人类基因组”一直是一个相对概念。2001 年,人类基因组计划(Human Genome Project, HGP)发布了第一版人类基因组图谱,其中存在大约 2 亿个碱基缺失,占整个基因组的 8%。缺失的区域主要位于染色体的着丝粒和端粒区域,都包含高度重复的序列;还有部分染色体的短臂,其中包括编码核糖体的功能性基因。

如今,科学家们终于填补了我们遗传密码中这 8% 的空白。这个迄今最完整的人类参考基因组被命名为 T2T-CHM13。和旧版本相比,位于染色体两段的端粒序列,以及大多处于染色体中间、在细胞分裂过程中协调复制染色体分离的着丝粒序列都清晰可见。此外,包含有大量编码核糖体骨架基因的 5 条人类染色体短臂也被探明。这些“新序列”的 2 亿碱基中,包含了 99 个可能编码蛋白质的基因和近 2000 个需要进一步研究的候选基因。除了端粒和着丝粒等一些基因组中最复杂的区域,T2T-CHM13 还纠正了当前参考序列中的数千个结构错误,对现有的人类参考基因组(GRCh38)形成了补充。

Image

迄今最完整的人类基因组 T2T-CHM13。来源:论文

技术突破

令二十年前的人类基因组图谱出现“空白”的重要原因之一,是其中的大量重复序列。此前人类基因组测序的方法是先将染色体 DNA 切断成短片段,再进行测序,然后将测序结果拼合回去。但着丝粒、端粒或核糖体 DNA 区域中存在大量重复序列,它们过于相似,令科学家难以区分,无法将这些碎片拼接在一起获得正确序列。因此 2003 年 HGP 公布的人类基因组序列并不完整,只覆盖了约 92% 的人类基因组。

另一个障碍是人类细胞染色体由来自父母双方的两套基因组组成。当研究人员试图组装所有片段时,来自父亲或母亲的序列将会混合在一起,从而掩盖了每个单独基因组中的实际变异。

科学家首先找到了第二个问题的解决方案:一种只含有父亲基因组的罕见细胞系。该细胞系取自二十多年前从一名女性子宫切除下来的葡萄胎(hydatidiform mole)组织,是一种发育异常的人类受精卵——与精子结合的是一个缺失母体基因组的卵子。仅拥有精子遗传物质的受精卵无法发育成胚胎,但精子带来的性染色体刚好是 X 而不是 Y,这让细胞保留了复制能力。这类细胞的 23 对染色体中的每一对都来自父亲,序列相同,刚好符合了 T2T 组织的期望。相比之下,第一版人类基因组图谱是由多人基因拼接而成的,结果可能产生错误和误差。

在上世纪 HPG 开始的时候,测序技术还无法完成对长 DNA 的准确读取,因此科学家只能切割染色体,这也导致了高度重复序列区域无法被正确地拼合。在过去十年中,长片段 DNA 的测序能力的提升令一次性读取一整个染色体成为可能。现在,测序长度可达百万碱基对且准确度适中的牛津纳米孔技术(Oxford Nanopore),以及测序长度达到 2 万碱基对且的高度准确的 PacBio HiFi 技术,令研究人员能够跨越重复区域测序并确保装配的高度准确,从而成功生成完整的人类基因组序列。

开启“新地图”

T2T-CHM13 能更准确地评估遗传变异。研究人员在临床研究疾病的遗传变异或遗传多样性时,会将测序结果与参考基因组进行比较,而新的序列由于在“在碱基水平上非常准确”,能精确定位之前被错误理解的数十万个变异,从而极大改进遗传变异的识别和理解。

同时,新序列也为研究人类染色体中的着丝粒区域提供了帮助。在形成精子或卵子的减数分裂过程中,着丝粒是成对染色体分离时附着的地方。这个区域结构独特,包含长段重复序列,而且 DNA 和蛋白质似乎在这一区域缠绕得格外紧凑(因此被定义为缺乏转录活性的异染色质)。研究显示,着丝粒及其周围的新 DNA 序列约占整个基因组的 6.2%(约 1.9 亿个碱基)。美国加利福尼亚大学伯克利分校(University of California, Berkeley)的研究者 Nicolas Altemose 和他的团队使用新技术在着丝粒内找到了一个称为动粒(kinetochore)的大蛋白质复合物,这个复合物通过固定在染色体上,促使了染色体的分裂。如果在减数分裂中这一过程出现问题,将导致染色体异常,出现自然流产或先天性疾病。如果这个问题发生在体细胞中,则会令细胞基因表达失调,进而导致癌症。

除此之外,该团队还在着丝粒和其他区域发现了出乎意料的高水平遗传变异。他们发现,着丝粒及其附近存在各种序列的堆叠,通常是新序列层覆盖着旧序列层。旧序列通常有更多的随机突变和缺失,说明这一段已被细胞弃用;而新序列中突变和甲基化都更少,说明正在被使用。同时他们还发现着丝粒内部和周围区域都含有大量的重复长度片段。该重复序列是基于一个约 171 个碱基(约为绕核小体一圈的 DNA 长度),通过重复串联相同的结构在着丝粒周围形成了一个大的重复序列区域。

着丝粒的另一个谜团是位置的固定性。美国加利福尼亚大学戴维斯分校(University of California, Davis)的研究团队通过对比新的参考基因组和其他已发表的着丝粒序列,发现人类着丝粒可能也会移动。类似的现象之前已在其他物种中被发现。

美国加利福尼亚大学圣克鲁兹分校(University of California, Santa Cruz)的研究团队则将研究集中在卫星 DNA——一种主要分布在端粒和着丝粒附近的长重复序列上。研究人员表示,着丝粒已经被发现在各种人类疾病中表现失调,但之前缺乏在序列水平的研究方法。通过新的参考基因组,科学家终于可以首次“逐个碱基”研究其中的卫星 DNA 序列,并真正了解它的工作原理。

未来计划

成功补完人类的单个基因组并不是结束。T2T-CHM13 序列来自一名欧洲白人,而且它不包含 Y 染色体。尽管 T2T 联盟用一位美国哈佛大学生物学家捐献的样本将 Y 染色体序列补充了进去,但他们仍需要从更多样化的人群中以类似手段获得更多的完整基因组序列。《科学》新闻称,T2T 联盟计划从不同血统的人类个体中提取 350 个基因组,用测序结果创建一个新的“人类泛基因组参考”,来寻找可能与疾病或遗传性状有关的染色体短臂中的变异和难读区域,从而更全面地理解人类多样性。

目前,T2T 团队已经开始了70 多个基因组的解密工作。T2T 联盟的领导者之一、美国加利福尼亚大学圣克鲁兹分校生物分子工程副教授 Benedict Paten 表示:“泛基因组学将研究人类种群的多样性,并确保我们得到的基因组的准确性。如果缺少这份包含复杂区域基因图谱的跨个体研究,大量的人口基因变异将会被我们错过。”

6 篇《科学》论文:

· The complete sequence of a human genome. SERGEY NURK, SERGEY KOREN, ARANG RHIE, et al. SCIENCE. 31 Mar 2022.Vol 376, Issue 6588,pp. 44-53.DOI: 10.1126/science.abj6987

https://www./doi/10.1126/science.abj6987

· A complete reference genome improves analysis of human genetic variation. SERGEY AGANEZOV,STEPHANIE M. YAN, XDANIELA C. SOTO, et al. SCIENCE. 1 Apr 2022.Vol 376, Issue 6588.DOI: 10.1126/science.abl3533

https://www./doi/10.1126/science.abl3533

· Segmental duplications and their variation in a complete human genome. MITCHELL R. VOLLGER, XAVI GUITART, PHILIP C. DISHUCK, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abj6965

https://www./doi/10.1126/science.abj6965

· Complete genomic and epigenetic maps of human centromeres. NICOLAS ALTEMOSE, GLENNIS A. LOGSDON, ANDREY V. BZIKADZE, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abl4178

https://www./doi/10.1126/science.abl4178

· From telomere to telomere: The transcriptional and epigenetic state of human repeat elements. SAVANNAH J. HOYT, JESSICA M. STORER, GABRIELLE A. HARTLEY, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abk3112

https://www./doi/10.1126/science.abk3112

· Epigenetic patterns in a complete human genome. ARIEL GERSHMAN, MICHAEL E. G. SAURIA, XAVI GUITART, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abj5089

https://www./doi/10.1126/science.abj5089

参考来源:

https://www./content/article/most-complete-human-genome-yet-reveals-previously-indecipherable-dna

https://www./news-releases/947729

https://www./news-releases/947718

https://www./news-releases/947629

https://www./news-releases/947636

https://www./news-releases/947657

https://www./news-releases/947910

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多