人类生命“天书”终于完整！将改变多种疾病治疗方式

医学abeycd 2022-08-12 发布于湖北

展开全文

国际科学团队端粒到端粒联盟（T2T）宣告第一个完整的、无间隙的人类基因组序列问世，这本人类生命“天书”终于完整了。其首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异，这是对标准人类参考基因组，即2013年发布的参考基因组序列（GRCh38）的重大升级。

人类的基因组常常被比作生命的“天书”——A、T、G、C四种碱基构成了DNA，却配对出超过60亿种可能，足见其纷繁复杂。

研究人员正在检查DNA测序器的输出结果。图源：美联社

在由中、美、英、法、德、日6国科学家共同参与研究的人类基因组序列草图正式发布20多年后，国际科学团队端粒到端粒联盟（T2T）宣告第一个完整的、无间隙的人类基因组序列问世，这本人类生命“天书”终于完整了。它首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异，这是对标准人类参考基因组，即2013年发布的参考基因组序列（GRCh38）的重大升级。

图源：《科学》杂志官网

4月1日，《科学》杂志连发6篇论文报道了这一成果。

这一成果将从根本上改变我们治疗多种疾病的方式。随着新冠病毒新变种的频繁出现，科学家们可以使用完整的基因组测序来寻找与该疾病相关的突变，他们还可以更详细地利用其来研究人类遗传变异的进化，或将彻底改变人们理解人类进化的方式。

8%的“空白区”不是“垃圾”

2001年2月12日，国际人类基因组计划首次公布人类基因组图谱及初步分析结果；2003年4月15日，人类基因组序列草图正式公布。然而，由于技术条件限制，当初的人类基因组图谱留下了大约8%的空白间隙。这一很难被测序的部分，由高度重复的DNA序列组成，包含染色体末端的端粒和染色体中心节点的着丝粒。

着丝粒背后的异染色质序列位于染色体的关键部位，在人类基因组序列草图中，它们都被标记为N的长序列，表示“未知的碱基”。13、14、15、21和22号染色体的短臂序列也同样被忽略。

美国国立卫生研究院下属的国家人类基因组研究所（NHGRI）所长、医学博士埃里克·格林称，缺少片段的基因组“就像缺少句子的段落”一样不完整。

华盛顿大学霍华德·休斯医学研究所研究员埃文·艾希勒说，对DNA进行测序就像解决拼图游戏一样。科学家们必须首先将DNA分解成更小的部分，然后使用测序仪以正确的顺序将其拼凑在一起。

现在，新的T2T基因组图谱补足了拼图盒图片上8%的空白，并更正了此前拼图中存在的数千个错误。大多数新添加的DNA序列位于重复端粒和着丝粒附近。

人类基因组解析装置输出的图像。图源：美联社

新的无间隙版本被称为T2T—CHM13，由30.55亿个碱基对和19969个蛋白质编码基因组成，增加了近2亿个碱基对的新DNA序列，包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因。这些候选基因大多数是失活的，但其中115个仍然可能表达。研究团队还在人类基因组中发现了大约200万个额外的变异，其中622个出现在与医学相关的基因中。此外，新序列还纠正了GRCh38中的数千个结构错误，消除了每个样本中数以万计的假阳性变异，包括269个与疾病相关的已知或疑似基因的变异。

根据艾希勒的说法，事实证明，许多研究人员认为是“垃圾或无关紧要”的那些重复序列实际上非常重要。

由于之前的GRCh38模型（称为参考基因组）是多个个体基因组的组合，基本上将一个人的基因组与另一个人的基因组“缝合在一起”，因此存在一些错误和重叠。而新的、完整的版本消除了这些缝隙，更能代表一个人的实际基因组的样子。

助力破解最后的“黑匣子”

由于重复区域的复杂性，剩下的8%的人类基因组多年来一直困扰着科学家。一方面，它包含具有多次重复的DNA区域，这使得使用以前的测序方法以正确的顺序将DNA串在一起具有挑战性。

早期，被称为“短读长”的DNA测序技术一次只能读取相对较短的序列，也就是提供数百个DNA碱基序列。这是20年前唯一可用的基因组图谱技术。例如，假设基因组的一部分由连续重复9次的句子“只工作不玩耍，聪明孩子也变傻”组成。该技术只会显示其中的一部分，例如“只工作”“聪明”“孩子也”等。研究人员将这些简短的部分拼凑在一起，组成了这句话，但他们无法知道它被重复了9次。因此，运用该技术仍然会在组装的基因组序列中留下部分空白。

对于10000块拼图，当它们看起来相似时，很难正确排列小块的区域，就像对重复DNA的小片段进行测序一样。但是对于500块拼图，正确排列大范围区域，即较长的DNA片段，要容易得多。因此，“长读长”技术应运而生。技术的巨大进步使得研究人员能够对那些难以阅读的重复序列进行排序。

在过去的10年中，出现了两种新的DNA测序技术——“长读长”技术，可在不影响准确性的情况下生成更长的DNA序列读数，甚至可一次阅读整个“句子”或“段落”。

牛津纳米孔（Nanopore）的DNA测序方法（超长读长）一次可读取多达100万个DNA字母，准确度适中；而太平洋生物科学公司（PacBio HiFi）的DNA测序方法（高保真读长技术）可读取约20000个字母，准确度近乎完美。这两种测序的结合使T2T研究人员能够避开区域的重复，并确保装配的基因序列高度准确。

还有一种工具是默芬（Merfin），研究人员用它来清理人类基因组中一些最困难的序列。默芬使准确测试序列成为可能，它可以感测可能不正确的代码并自动纠正错误。因为生成现代序列的技术更加准确，所以默芬仅用于最棘手的情况。例如，现有的技术很难评估像AAA这样的完全相同的碱基对，而默芬纠正了这种序列错误。

换句话说，科学家们曾经以为，重复区域的拼图有着几乎一样的颜色和形状，比如看起来都像蓝天。但现在，更先进的测序技术使科学家们发现，这些重复的碎片图案实际不仅仅是蓝天，还有草地和太阳。

破解生命“天书”最后“黑匣子”的第二个挑战是寻找仅包含一个基因组的细胞。标准的人类细胞包含两组DNA，一组是母系DNA，另一组是父系DNA，但T2T团队使用的是一组被称为完全性葡萄胎的细胞的DNA，其中仅包含父系DNA的副本。完全性葡萄胎是一种罕见的妊娠并发症，由来源于胎盘的细胞异常生长引起。

这种方法简化了基因组，因此科学家只需对一组DNA进行测序，而不是两组DNA。

基因组学一个关键里程碑

新序列补齐了人类基因组最后一块拼图，标志着基因组学领域的一个关键里程碑。

新序列揭示了关于着丝粒周围区域的前所未见的细节。这将大大增加人们对染色体的了解，尤其是着丝粒及其作用。因为该区域对于了解人类进化和遗传多样性以及对许多疾病的抵抗力或易感性至关重要。

同时，新序列揭示了以前未被发现的节段重复，即在基因组中重复的长DNA片段。在人类基因组中的20000个基因中，大约950个起源于节段重复。这些人类特有的节段重复是新基因的储存库，这些基因会在发育中的大脑中驱动更多神经元的形成，并增强额叶皮质突触的连接性——可能与人类特有的高级思维、推理、逻辑和语言功能有关。

而更准确的5条染色体臂图谱的呈现，或帮助科学家开辟新的研究方向，有助于回答有关染色体如何正确分离和分裂的基本生物学问题。

“生成真正完整的人类基因组序列代表了一项令人难以置信的科学成就，提供了人类基因蓝图的第一个全面视图。”格林说，“这些基础信息将推进许多正在进行的努力，帮助我们了解人类基因组的细节，这反过来又将为人类疾病的基因研究提供支持。”

除了完成组装拼图的医学研究意义之外，它还有助于回答：我们的基因组中包含什么使我们成为了人类？与其他猿类相比，原始基因组中的一些空白基因现在被认为对于帮助人类制造更大的大脑至关重要。着丝粒的变异性也可能为人类祖先如何进化提供新证据。

现在，科学家能够随时间变化跟踪这些新的基因组区域，从而能够对一代又一代、不同起源的人或物种进行更严格的比较。

例如，艾希勒实验室的研究生哈维·吉塔特对与人类前额叶皮质扩张相关的基因家族TBC1D3的分析显示，在灵长类动物进化的不同点上发生了反复和独立的扩张。最近一次发生在约200万到260万年前，大概是人属出现的时候。令人惊讶的是，人类的TBC1D3基因家族在一部分样本中显示出显著的大规模结构变异。

研究人员在其论文中解释说，不同的人有着截然不同的TBC1D3基因家族的互补和排列方式。对于一个被认为对大脑功能如此重要的基因来说，这是令人意想不到的。科学家们还发现了LPA基因复杂结构的多样性，这种脂蛋白基因部分的变异性是血液中血脂水平异常导致心血管疾病的最重要的遗传风险因素。

此外，许多疾病与着丝粒中的结构重复有关，因此，新序列有助于科学家研究与基因相关的疾病。

众所周知，着丝粒在细胞繁殖时在DNA复制中发挥作用，如果显著改变它们在染色体中的位置，就可以产生全新的物种。当某些异染色质着丝粒基因过度表达时，癌细胞会疯狂分裂；细胞分裂和细胞之间遗传物质分配出错也可能导致产前发育的异常，如唐氏综合症或罗伯逊易位，而对着丝粒基因组的全面了解可能为治疗这些疾病打开新大门。

基于这些和其他发现，科学家们指出，新的参考基因组“揭示了对神经发育和人类疾病很重要的基因中人类遗传变异的前所未有的水平”。

这不是结束而是新的开始

此次，T2T团队使用的葡萄胎细胞只保留了XX染色体——一组重复的染色体，缺失了Y染色体。而完成单倍体基因组测序并不是“人类基因组计划”的最终目标和结果，更是一个新的开始。

艾希勒称：“我们已经完成了一个基因组。在接下来的几年里，将会有数百甚至数千个基因组。我认为我们对人类彼此不同的看法将发生转变，更复杂的遗传变异不仅对了解什么使我们成为人类很重要，而且对了解什么使我们与众不同也很重要。”

下一阶段，科学家们将对多个不同个体的基因组进行测序，以充分掌握人类的多样性、疾病以及人类与其他灵长类动物的关系。

好消息是，研究人员也即将发布来自不同来源细胞的Y染色体的完整序列。对这一新Y染色体序列的分析将出现在未来的出版物中。

此外，T2T联盟还有一个新目标——从不同种族或血统的人中提取350个基因组（目前已破译了70个基因组）。NHGRI基因信息学部门负责人亚当·菲利普博士说，该项目将总共花费数百万美元或更多。但与2003年人类基因组计划完成最终测序所花费的近4.5亿美元相比，这只是一个零头。随着新技术的出现，测序只会变得越来越便宜。

就目前而言，对每个人来说，测序自己的基因组仍然过于昂贵和耗时，但使用全新基因组序列来确定某些基因差异是否与特定癌症有关的研究已经在路上。

菲利普博士表示，在未来几年内，对一个人的整个基因组进行测序应该会变得更便宜、更简单。

相关链接：基因测序计划知多少

1、国际千人基因组计划(1KGP)

了解基因型和表型之间的关系是生物学和医学的核心目标之一。

2008年1月开始的国际千人基因组计划（1KGP）是一项旨在建立迄今为止最详细的人类遗传变异目录的国际研究工作，其收集了来自四个不同洲的数千人的遗传多样性基因组序列，可帮助解决与疾病相关的遗传变异。

2010年，该计划试验阶段已完成，取得丰硕成果。第一是获得了迄今最详尽的人类基因多态性图谱，第二是探索出了研究基因多态性的新技术手段。2012年，该计划完成1092个基因组的测序。2015年，《自然》杂志的两篇论文报告了该项计划的完成情况以及未来研究方向。

通过概述所有人类遗传变异，该计划将为生物科学的所有领域，特别是遗传学、医学、药理学、生物化学和生物信息学等学科提供有价值的工具。

科学家们计划在接下来的3年内使用新开发的更快、更便宜的技术，对来自多个不同种族的至少1000名匿名参与者的基因组进行测序。

2、万种脊椎动物基因组计划（VGP）

大约十年前，科学家们开始开发新的技术来产生更长的序列读数，填补人类和其他物种基因组的空白。其中一项倡议是由美国霍华德休斯医学研究所（HHMI）研究员埃里希·贾维斯领导的万种脊椎动物基因组计划（VGP），旨在生成71657种现存脊椎动物物种的近乎无错误的参考基因组组合，并使用这些基因组来解决生物学、疾病和生物多样性保护中的基本问题。

研究人员在2021年4月28日出版的《自然》杂志上宣布，该计划为25种动物制作了第一个几乎没有错误和近乎完整的参考基因组。这些物种包括第一批濒危脊椎动物的高质量基因组，例如大马蹄蝠、加拿大猞猁、鸭嘴兽和鸮鹦鹉等。

科学家们正利用VGP的新数据研究使蝙蝠对新冠肺炎免疫的基因，并对基础科学中长期存在的惯例提出了质疑，例如在人类、鸟类、爬行动物和鱼类中发现的催产素及其受体之间是否存在显著差异。

该计划下一步将对所有1000个脊椎动物属进行测序，然后是所有10000个脊椎动物科，最后是每一个脊椎动物物种。

3、人类泛基因组参考联盟（HPRC）

人类参考基因组是人类遗传学中使用最广泛的资源。其目前的结构是来自20多个人的合并单倍型的线性组合，单个个体构成了大部分序列。它并不代表全球人类基因组变异，存在一定偏差和错误。因此，需要一份具有全球代表性的高质量的参考基因组，包括单核苷酸变体、结构变体和功能元件等常见变体。

人类泛基因组参考联盟（HPRC）的目标是为代表95%以上人类遗传多样性的350人或更多人创建一个更高质量、近乎完整和近乎无错误的基因组，以图形为基础，以端粒到端粒的方式表示全球基因组多样性。端粒到端粒联盟（T2T）现已加入该联盟。

该联盟利用技术创新、研究设计和全球合作伙伴关系，构建尽可能高质量的人类基因组参考。其目标是改进数据表示和简化分析，以实现完整二倍体基因组的常规组装。随着对伦理框架的关注，HPRC将包含对全球基因组变异的更准确和多样化的表示，改善跨人群的基因与疾病关联研究，将基因组研究的范围扩大到基因组中最重复和最多态的区域，并作为未来生物医学研究和精确医学的最终遗传资源。