测序是把碱基一个一个读出来，一扫一大片不算

stingray928 2020-06-12

展开全文

绪论

DNA测序(DNA sequencing)是把碱基一个一个地读出来，一扫一大片的不算。一扫一大片的应用其实很多，其种类与基因测序细分技术的种类不相上下，而且全部属于广义的“基因测序”范畴。这种模棱两可经常导致人们头脑里的混淆，引起初学者的疑问。那么，扫一片与一个个测定的区别到底是什么呢？在“扫+瞄”类型的DNA技术中，比较著名的有两种：一是片段分析(fragment analysis)，一是基因芯片(microarray)。片段分析是简略化的桑格测序，基因芯片是大规模的探针杂交。比如，就拿高通量基因测序(NGS)与基因芯片来说，其区别主要有三点：第一、芯片成本低，NGS成本贵；第二、芯片只能检测基因的局部位点，NGS可以全基因或全外显子覆盖，也可以只检测局部位点；第三、芯片只能检测已知的变异，NGS既可以检测已知的变异，也有检测未知变异的潜力。就这简单的3点，可以廓清大部分人心中的迷雾。我们在这里着重指出基因测序与片段分析和基因芯片有区别，不是说片段分析和基因芯片技术不好。它们和测序一样，都是好技术，只是与基因测序存在差别而已。尺有所短，寸有所长。要把合适的技术运用在合适的地方。单纯比长短犹如儿童看电影把里面的各种人物分成好人坏人。片段分析技术解决了微卫星重复序列(STR)重复次数测定的问题和小规模SNP测定的问题，在身份鉴定和亲子鉴定领域发挥作用；基因芯片技术解决了大规模SNP测定的问题，在疾病诊断领域发挥作用。一种技术如果能够做好一件事，解决一个问题，就是好技术。

1、基因测序五十年

1.1

1970年代，两种一代测序技术先后被发明出来：Sanger等发明酶法，也叫链终止法；Maxam等发明化学法，也叫链降解法。酶法数据分析容易，化学法实验操作简单。Sanger法胜。1977年桑格测定噬菌体ΦX174的基因组序列，全长5375个碱基。这是人类测定的第一个完整的基因组序列。

1980年代，基于Sanger法发明了自动化测序仪，采用巨大的平板聚丙烯酰胺凝胶垂直电泳。先是用放射性核素标记，灵敏；后来改用荧光标记，安全；先是放射自显影，人工读图，真手艺；后来采用计算机软件自动识别图像序列，便捷。荧光和计算机胜。

1990年代，毛细管电泳兴起，平板电泳被淘汰。毛细管胜。

2001年，基于毛细管电泳完成首个人类基因组图谱的绘制。Craig Venter团队采用鸟枪法，绕开了分离目的基因的难点，大幅提高了基因测序的速度。鸟枪法胜。

这个时代的英雄是Frederick Sanger。

1.2

2000年代，两种二代测序技术先后被发明：先是454焦磷酸测序技术，被Roche收购；接下来是Solexa边合成边测序技术，被Illumina收购。然后，ABI眼看要落后了，急起直追，硬是攒出来第三种技术：SOLiD边连接边测序技术。就在魏、蜀、吴三国大战的当口，454焦磷酸测序技术发明人Jonathan Rothberg又发明了检测质子的Ion Torrent（激流）半导体测序技术，被Life Technologies收购。

在这个过程中，历史发生了一段小插曲：Life Technologies收购了鼎鼎大名的Applied Biosystems (ABI)，然后Thermo Fisher又收购了Life Technologies。

二代测序的时代没有英雄，只有大侠。Jonathan Rothberg一人发明了2种商用高通量测序技术，是群侠当中的郭靖。最近，都2020年代了，他又在测试第3种高通量测序技术：根据荧光衰减的图式来检测碱基序列。这位大侠的眼光与众不同，专攻旁门左道。三国大战的胜利者不是Rothberg，而是Illumina公司。

1.3

还是在2000年代，与二代测序的出现几乎同时，先后出现了Helicos Bioscience公司的真正的单分子测序(tSMS)技术、Pacific Biosciences公司的SMRT荧光测序技术和Oxford Nanopore公司的纳米孔测序技术等三代测序技术。经过市场竞争的大浪淘沙，Helicos 公司(仪器型号为HeliScope) 时运不济，于2012年破产。单分子测序剩下两株树苗：Pacific Biosciences和Oxford Nanopore，二者竞争中，不分胜负。

1.4

一代测序是毛细管测序，二代测序是高通量测序，三代测序是单分子测序。这一时期是基因科技的黄金年代，技术发明和应用成果不断涌现出来。

2、作为金标准的Sanger测序

2.1

一代测序的技术原理，以Sanger法为例简述如下：

在PCR反应体系中加入模板（即DNA分子）、引物（即DNA片段）、DNA聚合酶（即工人）、dNTP（即原料）和缓冲液（提供适合酶发挥作用的反应环境）。除此之外，再加入分别用不同荧光染料分子标记的A、T、G、C四种双脱氧核苷酸（即ddNTP）。在DNA链延伸过程中，ddNTP与dNTP竞争，随机加入延伸的DNA链中。如果dNTP加入，则该链继续延伸；如果ddNTP加入，则该链延伸终止。PCR完成后，模板DNA在测序引物之后的每一个位置都有被终止的链（即3’端的最后一个碱基为ddNTP），也有被延伸的链（即3’端为dNTP的链）。被终止的链3’端带有不同颜色的荧光，根据荧光的颜色（即波长）可以识别该DNA片段3’端的最后一个碱基是A、T、G、C四种碱基中的哪一种。所有被终止的DNA链在片段长度上只相差一个碱基（引物长度+n）。把测序PCR的产物走电泳，片段按从短到长的顺序排成一列，即可顺序读出模板DNA的碱基序列。

一代测序的性能指标，以毛细管测序仪为例撮要如下：

化学原理：双脱氧链末端终止法。

仪器类型：毛细管电泳仪。

主要厂商：Applied Biosystems (ABI)。

代表仪器：ABI 3730XL。

测序读长：800碱基/read。

测序通量：大约96k/run。

2.2

一代测序的两种方法其基本思路是一样的，都是拼图：先把好好的长链DNA分子造成短片段；再设法弄清楚每一个片段3’端的最后一个碱基是什么，或者至少弄清楚它是哪两种碱基的组合；再通过片段的重叠拼接，把完整的原始序列拼出来。

Sanger法的优点是，其所有片段的3’端最后一个碱基都是唯一的、明确的，只有一种可能，所以拼图容易；只要把所有片段从短到长按顺序排好，再把它们的最后一个碱基读出来就好了；至于DNA片段的排序，只要进行简单的电泳就可以完成。

Maxam法的优点是，操作简便，重现性好。它的缺点是有些片段的3’端最后一个碱基是唯一的，但是有些存在2种可能，需要运用不同试剂的切割数据进行比较和排除，拼图复杂一点。

一开始，测序全靠人力，纯手工操作，Maxam法胜；后来，人们发明了自动化的测序仪和碱基识别软件，试验操作麻烦一点那都不是事，Sanger法胜。

想当年，为了读出几十到100个碱基，一个技术高超的实验员要忙乎整整一个星期，通过PCR进行放射性核素掺入标记；配制大板的聚丙烯酰胺凝胶，重点是敲气泡；进行垂直电泳；在-20℃低温冰箱放射自显影过夜；在暗房里冲洗X光片，埋头把显影、定影的艺术家工作做好；最后，穿着白大褂，手拿直尺，在医用读片灯上把碱基序列一个一个地读出来，都不是轻巧活。是把碱基一个一个地读出来，而不是走个电泳瞄一眼片段有没有、有几条、长多少。

【云】这种先打碎再拼凑的片段化-拼图的思路，在此后的DNA测序技术中代代相传，一脉相承，从一代、二代一直延用到现代。这一思想的火花一开始看起来平平无奇，但是它先是在人基因组计划中闪耀了一次，这就是Venter带领民间团队、手拿霰弹枪，飞速地赶超NIH官方军团的著名事件；然后它又在高通量测序领域大放异彩，所有的二代和三代测序技术都离不开片段组装，以至于生物信息学成了一门学科。

2.3

借鉴二代测序对于Illumina技术的总结：边合成边测序，一代测序就是先合成后测序。它先通过PCR完成DNA链的终止和延伸，再通过电泳完成DNA链的分离和荧光信号的检测，整个过程分两步进行。

一代测序的优点是准确率高，其精确度高于二代测序和三代测序，至今仍然是DNA测序的金标准。如有必要，二代测序的检测结果可以用一代测序进行验证。一代测序还具有成本低、数据分析简单、不需要生物信息学的优点。

一代测序的缺点有两个。一是通量小。这就导致另一个缺点，尽管测序一个样本的成本不算高，但是平摊到每个碱基，单位成本高。二是重复序列测不通。无论是多碱基重复单元构成的微卫星重复序列(STR)，比如(AT)n、(GCT)n、(GCTA)n等，还是单碱基重复，比如polyA (即AAAAA……AAAA)，由于DNA聚合酶的滑移与脱落，不仅重复序列区域无法测通，而且还会导致重复区域后面的序列数据变得紊乱。

一代测序的灵敏度是>10%。与二代测序1%的灵敏度相比，差了1个数量级。

一代测序的应用可以大致分为以下几类：一是基因测序，目的是测定样本的基因序列及其异常，包括de novo测序、重测序、SNV（包括SNP和基因突变）检测、indel检测、CNV检测、验证等。二是基因分型，目的是鉴定谁是谁、谁不是谁，从大到小按顺序排列，有亲子鉴定（家系）、个体认定（个体）、HLA分型（器官移植）、真菌和微生物鉴定（细菌）、病毒分型等。三是比较特殊的应用，比如甲基化分析（重亚硫酸盐测序）。四是临床应用，市场是广阔无垠的蔚蓝大海，前途无限，比如生殖健康、肿瘤、遗传病（比如罕见病）、液体活检、新生儿筛查、病原体检测等。

3、一代测序常见故障排除

3.1 测序信号衰减，长度偏短，读长小于800碱基，是什么原因？

这种现象是由于DNA模板的碱基序列中存在困难区域造成的。

如果样品DNA所包含的碱基种类A、G、C、T无论含量还是分布都很均衡，含量分别接近25%，分布上不集聚；也没有复杂的空间结构，比如回文序列、发夹结构等，正常的一代测序反应是能够保证读长达到800碱基以上的。

有时候样本DNA中存在困难区域，比如Poly结构、重复序列、回文结构、发卡结构、GC rich、AT rich等情况，造成测序过程中部分DNA聚合酶的延伸反应意外终止，部分或全部样本DNA分子在困难区域的不同位置延伸终止，部分样本测序正常，综合表现为测序信号逐步减弱或突然消失。

这种情况是样品DNA本身的序列结构问题，无法优化，可以尝试进行反向测序，以期通过拼接获得完整的序列。

3.2 测序出现套峰/移码，是什么原因？

从原因来说，出现套峰的原因有两大类：

第一、由两种测序产物叠加造成的。比如，（1）测序引物在模板上有两个结合位点，从两个片段被同时测序，它们的测序图谱叠加形成套峰；（2）两种模板混合在一起，而它们又都含有测序引物结合位点，具体来说，如果样本是质粒或是菌液，原因就是非单克隆，如果样本是PCR产物，原因就是存在为非特异性扩增条带；（3）引物降解，导致测序起始位点不一样，或者引物不纯，导致引物结合到模板DNA的不同位置，各自进行测序。

第二、由于DNA聚合酶的打滑现象，部分模板DNA正常测序，部分模板DNA被漏掉部分碱基，二者的图谱重叠在一起，导致打滑区域之后的碱基序列形成套峰。

造成酶打滑的DNA序列特殊结构主要有两类，一是单碱基重复序列，如poly(A)和Poly(T)结构；一是发卡结构，如微卫星重复序列(GCG)n等。对于连续的长串A或T重复序列，DNA聚合酶在进行延伸反应时，难以牢固地识别每个A或T，出现打滑现象，少测一个或几个碱基，从而造成重复区域后面的测序数据紊乱，出现套峰。聚合酶打滑的位置不固定，有时候10多个A或T的重复就导致后面出现套峰，有时候60～70个A或T重复区域后面的序列也可以完整地读出来。

对于发卡结构，如果在测序过程中不是每一个模板DNA分子的高级结构都被完全打开的话，DNA聚合酶就从部分模板的发卡结构底部直接滑过去了，导致发卡的茎环部分序列被漏掉。漏掉与未漏掉的测序图谱叠加，形成套峰。

从表现形式来说，套峰可以分为以下几种情况：

（1）起始双峰：多引物结合位点，其中一套模板测序中断（质粒样品），多引物结合位点（PCR未纯化样品），引物二聚体或小片段干扰（PCR已纯化样品）；

（2）中间双峰：非单克隆（质粒样品），等位基因双模板（PCR未纯化样品）；

（3）末尾双峰：非单克隆（质粒样品），碱基缺失（PCR样品）；

（4）全部双峰：多引物结合位点（质粒样品），非特异性扩增（PCR产物）。

解决方法需要针对具体原因进行选择。一般而言，反向测序和克隆测序都是可以考虑的选项。