分享

Nature深度综述:下一代基因测序的十年

 解螺旋 2020-08-27


作者:伯豪生物

导语

自2003年人类基因组计划完成后,基因测序技术已经取得了非凡进展,每兆碱基测序成本大幅下降,相对的,基因测序的数量和多样性大幅增多。一些方法可以在最短的时间内最大化所测序碱基数量,产生了大量数据帮助我们理解日益复杂的表型。总而言之,下一代基因测序( next-generation sequencing,NGS)可谓是一场数据游戏,那么,这场游戏我们现在玩到第几级了,未来又应该怎么升级?

NGS的竞争/互补技术
基因测序技术和其他策略给研究者和临床医生提供了各种工具来深度探测基因组,帮助我们揭秘临床疾病表现下的基因组序列变异基础。但这些技术进步并不是所向无敌,随着新技术的出现,会加剧已存在问题或出现新问题。比如NGS平台虽然提供了大量数据,但对比传统的Sanger测序平台,相关的错误率(~0.1-15%)更高,读取的长度一般较短(短阅读是35-700 bp),所以特别是对于发现变异和临床应用来说,研究人员需要仔细检查结果。

另外尽管长阅读测序克服了其他NGS方法的长度限制,但它仍然相当昂贵,并且比其他平台的通量小很多,从而限制了此类方法的普及。最后,NGS还面临着市场内许多其他低成本技术的挑战,这些技术有的是其直接竞争者,另外一些则对NGS进行完善和补充:

短读长(read)的NGS测序
短阅读测序方法可以归为两种类型:通过接合测序(sequencing by ligation,SBL)和通过合成测序(sequencing by synthesis,SBS)。
 

1.SBL方法

在这个方法中,带有荧光基团的探针与DNA片段杂交,并且与临近的寡核糖核酸连接从而成像。荧光基团的发射光谱可以确定碱基或者在探针内与特定位点互补的碱基序列。目前主要使用的是下面两种策略

2.SBS方法

在这个方法中,使用聚合酶和一个信号(比如荧光基团或者离子浓度变化)可以确定延伸链中的核苷酸序列。SBS中依然包括了各种不同的测序原理,本文中SBS方法被分为循环可逆终止(Cyclic reversible termination, CRT)以及单核糖核酸增加(single-nucleotide addition, SNA):
 

CRT:


图注:从左往右依次是a. 带有荧光基团的核苷酸通过碱基互补配对添加到延伸链中 b. 通过二/四通道进行成像 c. 荧光基团断裂并被洗脱,形成新的-OH基团进入新一轮循环。在绝大多数Illumina平台上,每种dNTP结合一种荧光基团,因此需要四种不同的激光通道。而NextSeq和Mini-Seq则使用的是双荧光基团系统。


图注:GeneReader平台的技术原理与Illumina平台基本一致。GeneReader系统整合了QIAcube样本制备系统和Qiagen Clinical Insight平台用于不同的数据分析,以便实现从样本制备到数据分析,全部一站式解决的目的。然而,该平台并非让每个DNA模板都去结合带有荧光基团的dNTPs,而是只要足够的dNTPs结合到模板上就可以完成鉴定。


SNA:


SNA方法依赖于单信号标记dNTP来对链进行延伸。四种核糖核酸都必须反复添加到测序反应过程中。不仅如此,SNA不需要将dNTP屏蔽,因为测序反应过程中下一个碱基的缺失会阻止链的延伸。碱基的寡聚体则是一个例外,在这种情况下,信号的强度会随着dNTP数量的增加而成比例的增强。
纯系模板扩增策略
在大部分的SBL和SBS方法中,DNA都在一个固定的表面进行扩增。在特定区域有成千上万个DNA片段的拷贝可以确保方法的信号能够与背景噪音相区别。数以百万计的SBL或者SBS反应中心为大规模并行处理提供了便利,测序平台可以同时从数以百万计的反应中心收集信息,因此可以并行对数以百万计的DNA分子进行测序。测序的DNA模板如何生成?用于生成纯系模板有几种不同的策略:分别是基于磁珠、固相介质和DNA纳米微球技术。
 

DNA模板产生的第一步就是样本DNA的片段化,接着是连接到一个为了克隆和测序而设计的接头上。在磁珠法的准备过程中,一个接头和寡核糖核酸片段互补并且固定在珠子上(下图)。DNA模板通过使用油包水PCR(emulsion PCR,emPCR)得以扩增。单个珠子上被克隆得到的DNA片段可以达到上百万个。这些珠子可以被分为glass surface或者PicoTiterPlate(罗氏诊断)

固相介质扩增避免了油包水PCR,取而代之的是在固相介质上直接进行PCR。该方法中,正向和反向引物结合在芯片的表面,这些引物给单链DNA(single-stranded DNA,ssDNA)提供了末端的互补序列供其结合。最近,几个NGS的平台都是用了模块化的flow cells。
 

BGI使用的Complete Genomics technology测序技术是唯一一个在溶液中完成模板富集的技术。在这种情况下,DNA被多次连接,成环以及剪切从而为了产生一个包含4个不同接头的环状模板。通过旋转环状扩增(rolling circle amplification,RCA),可以最多产生超过200亿的DNA微球。微球混合物随后被分配到芯片表面上,使得每个微球可以占据芯片的一个位点。

长读长(read)的NGS测序
基因组是一个复杂的复合物,其中包含了多种重复序列,拷贝数变化,结构变异。这些与进化,适应以及疾病密切相关。然而,许多复合物元件过长,导致短读长测序不能完美的对其进行测序。长读长测序的reads可以达到几千个碱基,帮助我们对大的结构进行功能解析。此类的长读长测序产生的单一长序列可以跨越复合物或者重复序列。长读长的reads可以跨越完整的mRNA转录本而不需要拼接,从而在转录组测序过程中也大有益处,使得研究人员可以鉴定到更多的基因亚型等。
最近,人们开发出了两种长读长测序的实验方案,分别是单分子实时测序和体外构建长读长的合成法。
 
1.单分子实时测序(single-molecule real-time sequencing, SMRT ):单分子法与短读长测序完全不同,因为单分子法不需要对模板进行扩增来产生足够测序仪读取的信号,也不需要轮番添加dNTP。
 
SMRT中最常使用的是PacBio Biosciences(PacBio,见下图)。该设备使用了一个特制的流动单元,其中包含了成千上万的单独的底部透明的皮升孔(picolitre wells)——zero-mode waveguides(ZMW)。PacBio固定聚合酶在空的底部,让DNA链通过ZMW,该系统可以对单分子DNA进行测序。dNTP结合在每个孔的单分子模板上,通过激光或者成像设备记录ZMW底部标记在核糖核酸上的发射波长的颜色与持续时间来进行序列的读取。
 

聚合酶在结合dNTPs的过程中,切割dNTP结合的荧光基团,使得荧光基团在第二个标记的碱基进入ZMW前将前一个荧光基团去除。SMRT平台也使用了独特的环状模板,这种方式的模板可以使得聚合酶反复读取模板的序列。尽管这种方法不太容易对长度大于3kb的片段反复读取,但是短的模板却可以反复读取多次。由于多次读取同一序列,因此系统会产生多次测序后的保守序列(consensus sequence, CCS)。

SMRT 还包含了MinION在Oxford Nanopore Technologies(ONT)。nanopore测序仪并不监测模板DNA结合或杂交的核糖核酸。其它平台通过监测次级信号、光、颜色或pH等来进行碱基序列的读取,nanopore则直接对天然的ssDNA分子进行读取。

为达成此,DNA需要通过一个蛋白孔(protein pore,上图),孔也会因为DNA分子的通过导致的电压阻塞(voltage blockade)的发生。对这些电荷瞬时的追踪称为squiggle space,特定DNA序列通过孔会产生特定的电压改变,这被称为k-mer。nanopore拥有1000多种可能的k-mer,尤其是当天然DNA序列中存在修饰的碱基的时候。
 
最近的MK1 MinION流动单元由特殊应用的芯片组成,包涵了512个独立的通道,每秒可以读取70bp长度,到2016年预计能够增加到500bp/秒。新推出的PromethION设备是包含了48个独立流动单元的高通量平台。该项工作最多可以在2天内输出~2-4Tb的数据量,这使可能其成为HiSeq X系列的强力竞争者。
 
2.依赖于已有短读长技术体外构建长读长的合成法:并非产生原始的长读长的reads,而是通过利用barcodes来进行拼接获得长片段。该方法将大的DNA分子分割成若干个小片段到微孔中或者乳液中。每个微孔或者乳液中的模板被切割并且加上了barcodes。这种方法允许在短读长测序仪上使用,测序后数据被通过barcode分开按照barcodes的序列进行拼接。
应用和小结
全基因组测序(Whole-genome sequencing,WGS)正在成为NGS中最广泛的应用。通过该技术并且结合生物学应用,研究人员可以获得基因组信息中最值得注意的信息。最近的NGS平台的改进使得研究人员发现了一些几年前难以想象的新观点与机会。在2010年,1000基因组计划(1000 genomes project)开放了其从179个个体中获得的WGS原始数据以及697个个体的测序数据。到2015年,研究人员已经构建了26个不同人群的2504个人的基因组群体。给人们从种群的角度来观察人类的变异。但这还不是该项目的终点,越来越多的人的基因组正在被得以测序。
 
全外显子组测序(Whole-exome and targeted sequencing)同样也广泛应用于测序的研究中。受制于基因组材料大小的局限,很更多的个人样本可以在一个测序中实现,增加了基因组研究的宽度以及深度。

NGS同样在基因的调控研究中有广泛的应用。蛋白-DNA互作可以通过染色质免疫共沉淀结合NGS测序(ChIP-seq)来得以研究。利用NGS对修饰碱基的研究也是可行的。在对转录水平上的研究也因为NGS受益匪浅。今天,研究人员甚至能够使用NGS的深度测序对单个转录本进行研究。2014年,Treutlein等101使用了组织发育过程中不同细胞类群的单细胞RNA测序发现了用于鉴定细胞亚群的标志物。
 
表:NGS平台总结
 点击表格或者回复“测序”下载原文献查看大图

NGS现在已经成为了一个在生物学研究中广泛应用的技术,我们正处在其技术革命顶端。最新的超高通量测序仪已经将天方夜谭变成现实,比如首创的精准医疗(medicine initiatives)以及Illumina对循环肿瘤ctDNA进行测序的计划,每个计划都能够实现对数万个基因组样本进行测序。这种快速以及低成本的测序使内科医可以把基因组信息翻译为有用的临床诊断结果。
 
革命势必伴随着挑战,而NGS面临的最大问题就是时间。对于那些严重的神经性疾病或者极为危险的癌症患者而言,数周的WGS分析的等待时间足以使的患者错过最佳的治疗时间;对于急性感染而言,更是与时间赛跑。尽管研究人员已经做了最大努力的增速,但是绝大多数现有系统都不能完全满足快速模式下的足够产出。
 
另一个伴随着NGS的问题则是出来临床诊断领域外的生产力过剩(滥用?)。目前,已有超过14000个基因组序列上传到NCBI。2013年,Schatz与Langmead报道了全世界每年可以生产超过15pb的数据量,并且数量与通量依然在继续增加,数据量的富余对分析以及其下游提出了严峻的挑战。在临床诊断方面,通过NGS分析的数据产生的假阳性或者假阴性同样也是需要慎重考虑的问题。
 
最近,Illumina由于NGS与其周边产品获得了巨大的成功;BGISEQ-500以及Helicos technology的GenoCare在亚洲也有所斩获;ONT PromethION与Illumina HiSeq X系列则向着成本与产量的极限大步迈进。随着人们对临床诊断测序兴趣的增加,已有的NGS供应商正在提供各种快速的解决方案,如Ion Torrent S5以及Illumina的MiniSeq,还有新加入者Qiagen的GeneReader也来参与竞争。
      
今后的几年里,更多的玩家将会在这个市场厮杀。GenapSys (Sigma-Aldrich)的electronic ‘lunchbox’-sized sequencer; Genia (Roche)的新的nanopore测序方案; 以及单通道CMOS技术,都号称能够在临床应用上节约足够的时间。已有的和新的搅局者都有着科技革命的潜质,包括直接对RNA或者蛋白进行测序等,这些最近和未来的进步使得今天成为NGS发展的黄金时期。
 
参考文章:Coming of age: ten years of next-generation sequencing technologies
 
伯豪生物多样灵活的服务平台,系统的生物学研究解决方案,全力加速您组学研究的进程!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多