分享

《Nature》杂志:基因组测序20周年的里程碑事件!

 医健趋势 2021-11-14

2021精选二十大生物医学领域热门行研报告

2020不该错过的四十大医学领域热门行研报告

2021全球新一代测序 (NGS)临床应用及市场报告

2021全球肿瘤诊断市场报告

导读

如果想知道之所以每个人都是独一无二个体的原因,首先,就要获得构成人类的 “遗传密码”(DNA),也就是四种碱基A、G、C、T排列顺序;其次就是找到“破译本”——从DNA到蛋白的基因表达图谱。这样的破译过程已经可以通过基因组测序及一系列相关的技术实现。

《Nature》杂志上发表了一系列文章,浓墨重彩地描述了“基因测序20年的各个里程碑”,主要介绍在过去的20年中,那些令人激动的基因测序相关技术的发展史,以及不断扩大的科学与社会应用。
图1 基因序列是指组成DNA的四种碱基A、G、C、T排列顺序

基因测序技术的巨大潜力从诞生就被科学界迅速认可,之后成为了生物医学研究领域中最具影响力的工具之一。1997发明了Walter Gilbert测序法和Sanger测序法。仅仅3年之后,1980年诺贝尔化学奖就被授予了Walter Gilbert和Frederick Sanger。而到80年代末,自动化Sanger测序仪已经可以实现每天1000个序列的基因测序。在测序技术和生物信息学的发展推动下,90年代科学家们首次实现了对特定细菌、单细胞和多细胞真核生物的全基因组测序。

图2 第一代sanger测序技术

从被发明到20世纪初,Sanger测序法在很长一段时间内都是基因测序的主流技术。利用此方法科学家取得了非常耀眼的成绩——包括测得了人类基因组全序列和表达谱的“人类基因组计划”。我们选择了“人类基因组计划”作为“基因测序20年里程碑系列”的开篇。在高通量、并行化的第二代测序技术(Sanger测序法被称为第一代测序技术)被发明并实现商业化之后(里程碑2),基因测序技术被逐渐普及到更多的实验室和企业中,并正式步入了腾飞时代。在此系列中,测序技术和信息技术共同推动了一些关键应用研究项目的落地实施。

回望过去,我们也认识到科学是人类团结合作的成果。每一个突出的里程碑式成果都是建立在如山如海般的前人努力之上。技术的突破和科学的发展与应用也是相辅相成的。感谢所有对基因测序技术做出贡献的科学工作者们。


新世纪基因测序技术20年大事件年表

01


2001年,人类基因组序列草图首次发布(里程碑1)

2001年人类基因组草图的发布是一项具有里程碑意义的成就。科学家们第一次可以逐个碱基地研究每个人类染色体链。研究人员便可以开始理解各个基因的排序方式,以及周围非蛋白质编码DNA的结构和组织方式。尽管取得了令人惊奇的进步,但基因组草图仍然不完整,缺少了1.5亿个碱基。在过去的几年中,技术的进步使研究人员得以加入到基因组草图中,并最终在2020年完成对染色体的完全测序。


02


2004年,宏基因组学的诞生(里程碑2)

传统微生物的研究通常需要通过培养来分离单个菌株。然而,微生物学家很早就发现,很多种自然界中存在的微生物无法在实验室中培养,这意味着,使用培养的研究策略,只能够捕捉到自然界中微生物多样性的1%,那么用什么手段才能够研究那剩余的99%?在2004年,两项划时代的研究通过对环境中采集的包含多种不同微生物的样本进行测序,成功构建了样本中包含的不同微生物的基因组序列。这两项研究表明,不用单独分离和培养一种微生物,就可以通过DNA测序技术,对复杂微生物群体中不同微生物进行分类,并且发现未知的微生物。它们揭示了宏基因组学(metagenomics)的巨大潜力


03


2005年,新一代基因测序技术(里程碑3)

新一代测序技术应运而生。454公司于2005年推出Genome Sequencer 20 System,这是第一个基于焦磷酸测序原理的高通量基因组测序系统,这也是核酸测序技术发展史上里程碑式的事件。以2005年454技术发布为标志,新一代测序技术开始登上舞台。

目前,数千台新一代测序仪分布在全球逾百家科研机构与公司,被广泛应用于生物学、医学、农学等各个领域的科研、教学与应用中。


04


2007年,结合位点分析法(ChIP-seq)—从基因到蛋白质的研究方法(里程碑4)

染色质免疫沉淀(Chromatin immunoprecipitation ,ChIP)技术诞生很早,由Orlando等人创立于1997年,发表于2000年,先利用Microarray技术 ChIP-chip,后2007年利用DNA sequencing技术 ChIP-seq。ChIP-seq的目的是研究感兴趣蛋白在基因组上的结合位点,可以用来鉴定转录因子(transcription factor, TF)的结合位点或者转录后更广范围的组蛋白修饰(histone marks),一般与调控元件有关。


05


2008年,一种新的测序方法被应用于人类基因组测序(里程碑5)

2008年,在《自然》杂志上发表的两篇论文使用下一代基因测序技术(NGS),生成了一名非裔个体和一名亚裔个体的基因组。在这两项研究中,研究人员使用了称为Solexa测序的下一代测序技术。而在2001年发布的第一版人类基因组图谱耗资3亿美元,耗时十几年。而使用下一代测序技术,在2008年可以在几周内完成对一个人类基因组的测序,将测序成本降低到50万美元。

06


2008年,癌症相关的基因测序揭示了基因突变与癌症的相关性(里程碑6);

2008年,人类发布了首个急性髓系白血病(AML)样本的全基因组序列。在这项研究中,对一名50多岁的AML患者的肿瘤细胞和正常皮肤细胞样本进行了全基因组测序。科学家使用下一代测序技术,通过将癌细胞的基因组序列和正常细胞的基因组序列进行比较,研究人员发现了在癌细胞中的8个全新基因突变。


07


2008年,从基因短序列到整个基因组的重建—基因组装配技术的发展(里程碑7)

基因组蕴藏着生命的奥秘,人类自从发现DNA,发明DNA测序手段,就在孜孜不倦的破译各种生物的基因组。一个完整的、精确的参考基因组能够为人类疾病研究、动植物遗传育种研究等方面打下坚实的基础。Contig N50可以作为基因组组装结果好坏的一个最直接的评判标准。随着测序技术的发展,基因组组装最明显的变化是Contig N50指标的提升。在二代测序组装时代,Contig N50一般几kb-几百kb,三代测序技术的发展,使其提升到数Mb乃至上百Mb的水平。


08


2009年,长序列基因测序技术的出现与发展(里程碑8)

理想的测序方法应该是对原始DNA模板进行直接、准确的测序,并且不受读长限制。早在20世纪80年代,研究人员就开始为了实现这个目标而努力,随着纳米、芯片、精密加工、光学电子、酶工程等技术的有效发展,以不经扩增的单分子、长读长的新一代测序逐渐走进大众视线。

09


2009年,全外显子组测序被首次应用于单基因疾病(里程碑9)

简单来说,外显子组就是遗传代码中蛋白质编码的组分,占整个基因组的1%-2%。测序仪每跑一次仅能读取一定数量的碱基,但通过测序外显子组,研究人员能更快地生成更多的碱基。与全基因组相比,它也可以用更低的成本做出更好的分辨率。2009年,第一次应用外显子组测序在Freeman-Sheldon综合征患者中发现致病基因MYH3突变。

10


2009年,高通量测序为基础的染色质构想捕捉技术(Hi-C)揭示了基因组的三维架构(里程碑10)

随着高通量测序的发展,我们对于生物的基因组序列及其上的功能元件都有了比较深入的了解。人类的基因组一共只有23对染色体,却由总共30亿个碱基对串联而成,如此长的DNA必然要经过层层折叠才能塞到细胞核中,然而我们对于基因组的高维结构却知之甚少。基因组并不是散乱地分布在细胞核中,而是有序地层层折叠,这使得线性距离非常远的DNA片段可能在空间上相互作用。高维基因组的研究目前最成熟的技术则是染色质构象捕获(Chromosome conformation capture, 简称3C)及其衍生技术,2009年,由3C技术的发明人Dekker教授课题组提出了3C的高通量版本Hi-C,于是才有了成熟的全基因组范围的染色质互作分析方法,同时也为染色体高维结构的分析提供了可能

11


2009年,单细胞测序技术提供了增加了细胞异质性研究的新视角(里程碑11)

基于对组织样本的基因表达检测只能够发现不同细胞类型产生的平均结果,这可能导致研究人员忽略特定细胞类型的表现。单细胞测序(Single-cell sequencing)是指获取单个细胞遗传信息的测序技术,即对单个细胞水平上,对基因组或转录组进行提取扩增和高通量测序分析,在2009年,Nature Methods发布了首个对单个小鼠卵裂球(blastomere)进行的全转录子组研究。

12


2010年,古代DNA测序技术及应用(里程碑12)

由于传统PCR技术很难正确扩增含量极低的内源DNA片段,导致部分古DNA实验结果不可重复,所以针对人类的古DNA研究方法在该阶段依旧受到极大的质疑,随着二代测序技术的诞生,古DNA研究迎来了高速发展的时代。由于二代测序技术能够得到极短的DNA片段信息(这与古DNA的特征相似),所以实验人员可以进行测序,并通过生物信息技术进行拼接,来获得可靠的古DNA数据。实验方法也在这一阶段不断被革新,2010年拉斯马森(M. Rasmussen)等报道了4000多年前的爱斯基摩人基因组,格林(R. E. Green)等依据3个尼安德特人样品绘制了尼安德特人的基因组草图。随后,越来越多的古人类基因组被公布出来,如丹尼索瓦人、早期现代人(包括田园洞人、Ust'-Ishim和Oase1)等,研究也逐渐深入化和多元化。这些研究共同推动了古人类DNA研究不断前进,为古人类迁徙路线及人群间基因交流的探索提供了遗传学支持。


13


2012年,通过大规模的基因测序对人类遗传变异进行编码研究(里程碑13)

人类基因组计划(Human Genome Project, HGP)是科学家揭秘人类基因组图谱、为人类遗传以及相关疾病的研究提供了先驱力量以及蓝图的里程碑式工作,被誉为生命科学的“登月计划”。人类基因组既包括蛋白质编码基因,也包括控制这些基因何时表达以及表达到何种程度的调控信息。虽然人类大多拥有相同的基因和调控元件,但潜在的基因序列和地球上的人一样多样化,每个个体的基因组都是独一无二的。

14


2012年,DNA元件百科全书(ENCODE)构建人类基因组全面的功能元件清单,包括在蛋白质和RNA水平上起作用的元件,以及控制基因活跃的细胞和环境的调控元件(里程碑14)

在2003年,名为DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)的研究项目开始启动。在2012年,这一项目的第二阶段(ENCODE 2)完成,研究团队在《自然》,Genome Research和Genome Biolgoy上发表了30篇论文。他们不但确认了20687个编码蛋白的基因,而且在147种不同的细胞类型中描绘了它们的表达模式。研究人员还发现了超过7万个启动子和接近40万个增强子区域,为基因组中接近80%的序列找到了至少一种功能。

15


2014年,泛基因组捕获一个物种的许多代表的遗传变异(里程碑15)

泛基因组包括了一个物种所含有的核心基因组(Core genome)和非必须基因组(Dispensable genome)。其中,核心基因组由所有样本中都存在的序列组成,一般与物种生物学功能和主要表型特征相关,反映了物种的稳定性;非必须基因组由仅在单个样本或部分样本中存在的序列组成,一般与物种对特定环境的适应性或特有的生物学特征相关,反映了物种的特性。泛基因组(Pan-genomes)的开发可以更全面的捕获物种基因库中包含的基因组变异信息,有利于物种育种及相关研究的进行。

16


2017年,多种测序技术结合得到完整基因组序列(里程碑16)

人类基因组图谱的最新版本于2013年发布,被称为GRCh38。从那时起,它就被反复修补。至今,它仍然缺少5%-10%的基因组,包括所有的着丝粒和其他困难区域,如编码核糖体RNA序列的大量基因。这些缺失的基因组藏于大量重复基因拷贝的长序列中。两种长读长测序技术正在填补这些缺口。加州生物技术公司太平洋生物科学(Pacific Biosciences,以下简称PacBio)使用一种成像系统来直接读取数十万甚至数百万条平行DNA链,每条链包含数千个碱基。另一种技术是由英国公司牛津纳米孔技术(Oxford Nanopore Technologies)现商业化,它将DNA链穿过微小的蛋白孔或纳米孔,测量核苷酸穿过孔道时电流的细微变化,进而读取数万至数十万个碱基。

17


2020年,人类染色体首次无间隙得以端粒对端粒的方式进行组装(里程碑17)

整整20年前,2001年,人类基因组工作草图发布。这是人类基因组计划的重要里程碑之一,也是我们了解人类基因组的关键时刻,它为我们对人类生物学和疾病基因组基础的理解铺平了道路。自此,我们迈入了基因组学的时代。

但是,当时科学家的任务还没有结束:还有一部分基因组没有被测序,也存在一些序列信息可能不准确的问题。技术限制意味着,人类基因组序列的原始草图只涵盖了基因组“常染色质”的部分。人类基因组中有约92%为常染色质,大多数基因都是在这里发现的,是制造RNA和蛋白质等基因产物最为活跃的部分。到2013年,基因组参考联盟(GRC)发布了更新的人类参考基因组GRCh38。尽管经过数十年的努力,它已经是迄今为止最精确和完整的脊椎动物基因组之一,但它仍不是一个“一字不差”的完整基因组,大约还差8%的序列尚未被测序。

直到2020年,遗传学家Karen Miga带领团队借助新的技术和方法,首次成功挑战了对人类X染色体的“从头到尾”(从端粒到端粒)的完整测序,其中不存在任何缺口,其精确度达到了前所未有的水平。


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多