Nature｜首个高质量二倍体人类参考基因组！PacBio、Nanopore、Bionano、Hi-C技术各显神通

医学abeycd 2022-11-17 发布于湖北

展开全文

导语

2001年，人类参考基因组草图正式发布，这是人类基因组计划（HGP）经十余年努力的结果，成本超27亿美元（按当今价值计算超50亿美元）。目前，人类参考基因组已更新到GRCh38版本，补充完善了全基因组序列数据，反映出参考基因组联盟（GRC）及其他机构在纠正初级组装方面又一个十年的努力。GRCh38是现有的最完整的人类参考基因组之一，但其仍存在许多空白和错误，未能充分捕捉人类全部基因组的变异信息。

2019年，美国国家人类基因组研究所（NHGRI）成立国际人类泛基因组参考联盟（HPRC），其目标是为代表人类遗传多样性的泛基因组创建高质量、具有成本效益的二倍体基因组组装。为捕获人类体细胞每一个染色体单体的完整序列，HPRC自2020年起便在一个人类样本HG002上测试了当前的测序技术和自动组装算法并评估了大约24种组装方法。

近日，HPRC在Nature上发表了题为“Semi-automated assembly of high-quality diploid human reference genomes”的文章，报道了其评估结果。研究人员确定了目前可以实现最完整和最准确的二倍体基因组组装的基因组测序和组装方法组合，且人工整理的工作量最小；组装了第一个高质量的二倍体参考基因组；发现了更多单倍型之间的遗传变异，约48%的蛋白质编码基因在单倍型间存在非同义氨基酸变化，其中中心粒区多样性最高。为实现自动化、完整、无错的二倍体基因组组装，研究人员还确定了需要改进的部分。总之，该研究为大规模组装接近完整的二倍体人类基因组提供了基础，能捕获从单核苷酸到结构重排的全局遗传变异。

文章发表在Nature

主要研究内容

研究人员使用PacBio HiFi读取、Oxford Nanopore Technology超长读取、Bionano Genomics光学图谱和Hi-C数据构建了二倍体参考基因组，并展示了基于最优组装方式而观察到的新生物学发现：在给定的细胞中，有一半的遗传多样性可以在着丝粒中找到。

洛克菲勒大学研究员Erich Jarvis表示：“我们组装了迄今为止最完整的二倍体基因组之一，每个染色体平均只包含约四个缺口，这些缺口大多位于着丝粒和端粒上，一些重复的区域很难组装。虽然这不是我们的最终组装，但它接近端粒到端粒，有助于我们确定深入研究中所需的算法和数据类型。”Erich Jarvis是HPRC方法评估工作的联合领导。

加州大学圣地亚哥分校教授、基于图谱的基因组组装算法专家Pavel Pevzner表示：“这项研究结果表明了端粒到端粒组装方法的能力和优势。但即便该方法采用了多种技术，也依旧需要一些人工工作。如果最终目标是为每个实验室带来'完整的基因组学’，那么下一步就是把这个过程变成一个自动化的过程，即排除人工分析，并尽可能最小化附加技术的数量。”

图1. 不同组装方法的分析与比较。来源：Nature

文章主要作者之一Giulio Formenti表示:“我认为我们一直在使用的参考基因组仍是不完整，但这一点并没有得到有关科研工作者应有的重视。每个人的细胞中都有两个基因组，当你说'一个人的基因组’时，实际上是在谈论两个基因组，这两个基因组可能完全不同。现有的基因组组合已经能够将这些单倍型'压碎’在一起，但分离或区分它们却是一个巨大的挑战。”

PacBio的生物信息学家、该论文署名作者Aaron Wenger说道：“总而言之，这项研究为人们未来的组装设定了目标。组装技术评估中最高质量的程序集都使用PacBio-HiFi读取，表明其能达到产生这种高质量水平的关键数据类型的标准。”

Erich Jarvis还指出：“由于PacBio HiFi需要多次更新迭代，目前仍难以估计最终生成二倍体基因组的成本。如果必须给一个数字，用我们现在所拥有的技术的做同样的过程，我估计成本将不到2万美元。”

新组装的基因组还揭示了一些新的生物学发现。基于前期参考基因组的研究揭示了约2.1%的碱基在一个单倍型与另一个单倍型之间是不同的；而在目前的研究中，这个数字增长到3.3%，包括约260万个单核苷酸变体，631,000小型结构变异和11,600个大型结构变异（大于50个碱基对）。这些额外增加的变异主要出现在重复的区域，如着丝粒等。上述研究结果提示，人类基因组或任何动物基因组中尚未开发的遗传多样性是十分惊人。

图2. HPRC-HG002特性汇总。来源：Nature

研究小组还发现，单倍型之间的基因复制数量存在巨大差异。其中，一些大脑中高度表达的基因的复制只存在于灵长类动物中。

Erich Jarvis说：“这一研究结果会让你思考：如果这是灵长类动物特有的复制并在大脑中表达，那它对人类大脑的影响是否不同？它是否会以某种方式影响不同人的大脑功能？”此外，研究人员还研究了口语的分子和遗传基础。

研究人员将其组装方法描述为“半自动化”，因为最终的组装结果还是需要一些手动错误校正。目前，在生成最好的组装效果和拥有完全自动化的流程之间仍需要权衡。组装的自动化部分仅花费几天时间，但手动错误纠正却耗时数周。目前的组装方法依赖于三组数据来对单倍型进行相位分析，这便使得所需的测序量增加了三倍。

Jarvis和Formenti一致认为：在不需要人工劳动或三重测序的前提下，目前的组装方法已经能够组装较高质量的基因组，甚至质量更好。当然，更好的测序数据质量也会有所帮助。“如果你得到了完美的解读，那么你就不需要花费时间和经历纠正它们，reads 越长，需要组装的东西就越少。”Formenti补充到。

参考文献

1. Jarvis, E.D., Formenti, G., Rhie, A. et al. Semi-automated assembly of high-quality diploid human reference genomes. Nature (2022).

2. Porubsky, D. et al. Fully phased human genome assembly without parental data using single-cell strand sequencing and long reads. Nat. Biotechnol. 39, 302–308 (2021).

3. Guarracino, A., Heumos, S., Nahnsen, S., Prins, P. & Garrison, E. ODGI: understanding pangenome graphs. Bioinformatics 38, 3319–3326 (2022).