分享

T2T基因组测序的那些事儿

 凌恩生物 2022-04-12

       最近被Science特刊连续6篇长文发布的端粒到端粒(T2T)联盟的最新人类的参考基因组(T2T-CHM13)刷屏了。该成果包含了除Y染色体外,人类所有22条常染色体和X染色体的无缝组装,完成了人类基因组计划中8%尚未解决的具有挑战性的任务。至此,人类完整基因组测序计划正式完成,全球科学家近40年的努力也终收获一个满意的成果,是人类基因组测序研究的重大里程碑。

图1 人类基因组结构特征

 

这项近3年研究项目的关键进展,在于应用长读长(PacBio sequencing and Oxford Nanopore)测序技术填补人类基因组遗留的gap区域,完成端粒到端粒(T2T)的组装。

那么什么是T2T基因组测序呢?它的组装为什么这么难?今天我们就来和大家聊一聊T2T基因组测序的那些事儿~

人类基因组存在的GAP区域

首先我们了解一下什么是端粒。端粒(Telomere)是真核生物线性染色体的末端部分,这一特殊结构区域对于染色体的结构和稳定起重要作用。端粒DNA是由简单的DNA高度重复序列组成的,组装存在难度。

许多研究表明,在新细胞中,细胞每分裂一次,染色体顶端的端粒就缩短一次,当它不能再缩短时,细胞就无法继续分裂了。因此,端粒被科学家们视为“生命时钟”

图片
图2 端粒结构特征


人类基因组图谱的最新版本于2013年发布,被称为GRCh38。从那时起,它就被反复修补,至今仍然存在gap——缺少超过8%(包括所有着丝粒区域卫星阵列、端粒、基因组大段重复以及rRNA区域)长期以来都处于序列不明或未知的状态。这些缺失的基因组藏于大量重复基因拷贝的长序列中,短读长技术以及组装技术是无法完善的。

图片
图3 不同版本人类基因组释放时间


什么是T2T(Telomere-to-telomere)基因组?

三代测序技术的发展,特别是高准确性的PacBio HiFi测序和高连续性的ONT ultra-long 测序强强联合,克服了着丝粒或高重复区域的组装困难问题,染色体的连续性和完整性大大提高,为T2T基因组组装奠定了基础。

因此,T2T基因组就是获得高准确性、高连续性、高完整性的端粒到端粒的高质量基因组

本次发布的人类T2T-CHM13新基因组填补的空白包括:所有的着丝粒卫星阵列,近端重复区域以及5个端中心染色体的短臂,解锁这些复杂基因组区域可以进行变异和功能研究。在这张人类基因组完成图中,研究者新增加或修正了238Mb的序列,其中182Mb是全新的序列,并注释到2,226个新基因。因此,该结果消除了每个样本中数以万计的假阳性变异,包括使269个医学相关基因检测的假阳性降低了90%以上。

对着丝粒相关序列的分析揭示,着丝粒的位置与其周围DNA的分层重复扩增进化之间存在较强关联。此外,对不同个体X染色体着丝粒的比较表明,在这些复杂且快速进化的区域内存在着结构、表观遗传和序列的高度差异。

图片
图4 基于HiFi数据组装的人类CHM13 genome


图片
图5 T2T-CHM13的基因组特征和资源


图片
图6 无间隙组装阐明着丝粒的进化


T2T基因组组装为什么那么难?

目前,T2T基因组组装依赖于三代测序技术的发展,高深度的高精准PacBio HiFi、ONT ultra-long以及HiC测序技术,通过结合Hi-C技术获得基因在染色体上的相对位置信息完成基因组染色体水平的组装。对于复杂区域更需要丰富的组装经验进行手动调节,最终获得高质量的T2T参考基因组序列。

但是,仍然难以读通一些物种中重复序列较长的区域以及着丝粒区域,而本次人类基因组新成果亦是避免了对正常人细胞中的两个不同的X染色体进行测序。相反,通过使用一个人类葡萄胎衍生的单倍体细胞系——具有两个相同的X染色体,规避了组装二倍体基因组的两个单倍型的复杂性

图片
图7 人类染色体二倍体


因此,直接测通二倍体正常人的高度重复染色体区域还需更多研究,以及更加深入完整的组装。当然,对于其他并没有像人类基因组研究那么透彻的物种来说,组装“钉子户”着丝粒以及高重复区域导致的拼装缺口,组装难度会更大。因此,要得到一个物种完整高质量的T2T基因组还是具有相当大的难度

参考文献

[1]The complete sequence of a human genome. Science, 2022.

[2]A complete reference genome improves analysis of human genetic variation. Science, 2022.

[3]Segmental duplications and their variation in a complete human genome. Science, 2022.

[4]Complete genomic and epigenetic maps of human centromeres. Science, 2022.

[5]From telomere to telomere: The transcriptional and epigenetic state of human repeat elements. Science, 2022.

[5]Epigenetic patterns in a complete human genome. Science, 2022.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多