分享

测序是把碱基一个一个读出来,一扫一大片不算

 stingray928 2020-06-12

 
绪  论
 
DNA测序(DNA sequencing)是把碱基一个一个地读出来,一扫一大片的不算。一扫一大片的应用其实很多,其种类与基因测序细分技术的种类不相上下,而且全部属于广义的“基因测序”范畴。这种模棱两可经常导致人们头脑里的混淆,引起初学者的疑问。那么,扫一片与一个个测定的区别到底是什么呢?在“扫+瞄”类型的DNA技术中,比较著名的有两种:一是片段分析(fragment analysis),一是基因芯片(microarray)。片段分析是简略化的桑格测序,基因芯片是大规模的探针杂交。比如,就拿高通量基因测序(NGS)与基因芯片来说,其区别主要有三点:第一、芯片成本低,NGS成本贵;第二、芯片只能检测基因的局部位点,NGS可以全基因或全外显子覆盖,也可以只检测局部位点;第三、芯片只能检测已知的变异,NGS既可以检测已知的变异,也有检测未知变异的潜力。就这简单的3点,可以廓清大部分人心中的迷雾。我们在这里着重指出基因测序与片段分析和基因芯片有区别,不是说片段分析和基因芯片技术不好。它们和测序一样,都是好技术,只是与基因测序存在差别而已。尺有所短,寸有所长。要把合适的技术运用在合适的地方。单纯比长短犹如儿童看电影把里面的各种人物分成好人坏人。片段分析技术解决了微卫星重复序列(STR)重复次数测定的问题和小规模SNP测定的问题,在身份鉴定和亲子鉴定领域发挥作用;基因芯片技术解决了大规模SNP测定的问题,在疾病诊断领域发挥作用。一种技术如果能够做好一件事,解决一个问题,就是好技术。
 
 
1、基因测序五十年
 
1.1
1970年代,两种一代测序技术先后被发明出来:Sanger等发明酶法,也叫链终止法;Maxam等发明化学法,也叫链降解法。酶法数据分析容易,化学法实验操作简单。Sanger法胜。1977年桑格测定噬菌体ΦX174的基因组序列,全长5375个碱基。这是人类测定的第一个完整的基因组序列。
1980年代,基于Sanger法发明了自动化测序仪,采用巨大的平板聚丙烯酰胺凝胶垂直电泳。先是用放射性核素标记,灵敏;后来改用荧光标记,安全;先是放射自显影,人工读图,真手艺;后来采用计算机软件自动识别图像序列,便捷。荧光和计算机胜。
1990年代,毛细管电泳兴起,平板电泳被淘汰。毛细管胜。
2001年,基于毛细管电泳完成首个人类基因组图谱的绘制。Craig Venter团队采用鸟枪法,绕开了分离目的基因的难点,大幅提高了基因测序的速度。鸟枪法胜。
这个时代的英雄是Frederick Sanger
 
1.2
2000年代,两种二代测序技术先后被发明:先是454焦磷酸测序技术,被Roche收购;接下来是Solexa边合成边测序技术,被Illumina收购。然后,ABI眼看要落后了,急起直追,硬是攒出来第三种技术:SOLiD边连接边测序技术。就在魏、蜀、吴三国大战的当口,454焦磷酸测序技术发明人Jonathan Rothberg又发明了检测质子的Ion Torrent(激流)半导体测序技术,被Life Technologies收购。
在这个过程中,历史发生了一段小插曲:Life Technologies收购了鼎鼎大名的Applied Biosystems (ABI),然后Thermo Fisher又收购了Life Technologies
二代测序的时代没有英雄,只有大侠。Jonathan Rothberg一人发明了2种商用高通量测序技术,是群侠当中的郭靖。最近,都2020年代了,他又在测试第3种高通量测序技术:根据荧光衰减的图式来检测碱基序列。这位大侠的眼光与众不同,专攻旁门左道。三国大战的胜利者不是Rothberg,而是Illumina公司。
 
1.3
还是在2000年代,与二代测序的出现几乎同时,先后出现了Helicos Bioscience公司的真正的单分子测序(tSMS)技术、Pacific Biosciences公司的SMRT荧光测序技术和Oxford Nanopore公司的纳米孔测序技术等三代测序技术。经过市场竞争的大浪淘沙,Helicos 公司(仪器型号为HeliScope) 时运不济,于2012年破产。单分子测序剩下两株树苗:Pacific BiosciencesOxford Nanopore,二者竞争中,不分胜负。
 
1.4
一代测序是毛细管测序,二代测序是高通量测序,三代测序是单分子测序。这一时期是基因科技的黄金年代,技术发明和应用成果不断涌现出来。
 
 
2、作为金标准的Sanger测序
 
2.1
一代测序的技术原理,以Sanger法为例简述如下:
PCR反应体系中加入模板(即DNA分子)、引物(即DNA片段)、DNA聚合酶(即工人)、dNTP(即原料)和缓冲液(提供适合酶发挥作用的反应环境)。除此之外,再加入分别用不同荧光染料分子标记的ATGC四种双脱氧核苷酸(即ddNTP)。在DNA链延伸过程中,ddNTPdNTP竞争,随机加入延伸的DNA链中。如果dNTP加入,则该链继续延伸;如果ddNTP加入,则该链延伸终止。PCR完成后,模板DNA在测序引物之后的每一个位置都有被终止的链(即3’端的最后一个碱基为ddNTP),也有被延伸的链(即3’端为dNTP的链)。被终止的链3’端带有不同颜色的荧光,根据荧光的颜色(即波长)可以识别该DNA片段3’端的最后一个碱基是ATGC四种碱基中的哪一种。所有被终止的DNA链在片段长度上只相差一个碱基(引物长度+n)。把测序PCR的产物走电泳,片段按从短到长的顺序排成一列,即可顺序读出模板DNA的碱基序列。
一代测序的性能指标,以毛细管测序仪为例撮要如下:
化学原理:双脱氧链末端终止法。
仪器类型:毛细管电泳仪。
主要厂商:Applied Biosystems (ABI)
代表仪器:ABI 3730XL
测序读长:800碱基/read
测序通量:大约96k/run
 
2.2
一代测序的两种方法其基本思路是一样的,都是拼图:先把好好的长链DNA分子造成短片段;再设法弄清楚每一个片段3’端的最后一个碱基是什么,或者至少弄清楚它是哪两种碱基的组合;再通过片段的重叠拼接,把完整的原始序列拼出来。
Sanger法的优点是,其所有片段的3’端最后一个碱基都是唯一的、明确的,只有一种可能,所以拼图容易;只要把所有片段从短到长按顺序排好,再把它们的最后一个碱基读出来就好了;至于DNA片段的排序,只要进行简单的电泳就可以完成。
Maxam法的优点是,操作简便,重现性好。它的缺点是有些片段的3’端最后一个碱基是唯一的,但是有些存在2种可能,需要运用不同试剂的切割数据进行比较和排除,拼图复杂一点。
一开始,测序全靠人力,纯手工操作,Maxam法胜;后来,人们发明了自动化的测序仪和碱基识别软件,试验操作麻烦一点那都不是事,Sanger法胜。
想当年,为了读出几十到100个碱基,一个技术高超的实验员要忙乎整整一个星期,通过PCR进行放射性核素掺入标记;配制大板的聚丙烯酰胺凝胶,重点是敲气泡;进行垂直电泳;在-20℃低温冰箱放射自显影过夜;在暗房里冲洗X光片,埋头把显影、定影的艺术家工作做好;最后,穿着白大褂,手拿直尺,在医用读片灯上把碱基序列一个一个地读出来,都不是轻巧活。是把碱基一个一个地读出来,而不是走个电泳瞄一眼片段有没有、有几条、长多少。
【云】这种先打碎再拼凑的片段化-拼图的思路,在此后的DNA测序技术中代代相传,一脉相承,从一代、二代一直延用到现代。这一思想的火花一开始看起来平平无奇,但是它先是在人基因组计划中闪耀了一次,这就是Venter带领民间团队、手拿霰弹枪,飞速地赶超NIH官方军团的著名事件;然后它又在高通量测序领域大放异彩,所有的二代和三代测序技术都离不开片段组装,以至于生物信息学成了一门学科。
 
2.3
借鉴二代测序对于Illumina技术的总结:边合成边测序,一代测序就是先合成后测序。它先通过PCR完成DNA链的终止和延伸,再通过电泳完成DNA链的分离和荧光信号的检测,整个过程分两步进行。
一代测序的优点是准确率高,其精确度高于二代测序和三代测序,至今仍然是DNA测序的金标准。如有必要,二代测序的检测结果可以用一代测序进行验证。一代测序还具有成本低、数据分析简单、不需要生物信息学的优点。
一代测序的缺点有两个。一是通量小。这就导致另一个缺点,尽管测序一个样本的成本不算高,但是平摊到每个碱基,单位成本高。二是重复序列测不通。无论是多碱基重复单元构成的微卫星重复序列(STR),比如(AT)n(GCT)n(GCTA)n等,还是单碱基重复,比如polyA (AAAAA……AAAA),由于DNA聚合酶的滑移与脱落,不仅重复序列区域无法测通,而且还会导致重复区域后面的序列数据变得紊乱。
一代测序的灵敏度是>10%。与二代测序1%的灵敏度相比,差了1个数量级。
一代测序的应用可以大致分为以下几类:一是基因测序,目的是测定样本的基因序列及其异常,包括de novo测序、重测序、SNV(包括SNP和基因突变)检测、indel检测、CNV检测、验证等。二是基因分型,目的是鉴定谁是谁、谁不是谁,从大到小按顺序排列,有亲子鉴定(家系)、个体认定(个体)、HLA分型(器官移植)、真菌和微生物鉴定(细菌)、病毒分型等。三是比较特殊的应用,比如甲基化分析(重亚硫酸盐测序)。四是临床应用,市场是广阔无垠的蔚蓝大海,前途无限,比如生殖健康、肿瘤、遗传病(比如罕见病)、液体活检、新生儿筛查、病原体检测等。
 

3、一代测序常见故障排除
 
3.1  测序信号衰减,长度偏短,读长小于800碱基,是什么原因?
这种现象是由于DNA模板的碱基序列中存在困难区域造成的。
如果样品DNA所包含的碱基种类AGCT无论含量还是分布都很均衡,含量分别接近25%,分布上不集聚;也没有复杂的空间结构,比如回文序列、发夹结构等,正常的一代测序反应是能够保证读长达到800碱基以上的。
有时候样本DNA中存在困难区域,比如Poly结构、重复序列、回文结构、发卡结构、GC richAT rich等情况,造成测序过程中部分DNA聚合酶的延伸反应意外终止,部分或全部样本DNA分子在困难区域的不同位置延伸终止,部分样本测序正常,综合表现为测序信号逐步减弱或突然消失。
这种情况是样品DNA本身的序列结构问题,无法优化,可以尝试进行反向测序,以期通过拼接获得完整的序列。
 
3.2  测序出现套峰/移码,是什么原因?
从原因来说,出现套峰的原因有两大类:
第一、由两种测序产物叠加造成的。比如,(1)测序引物在模板上有两个结合位点,从两个片段被同时测序,它们的测序图谱叠加形成套峰;(2)两种模板混合在一起,而它们又都含有测序引物结合位点,具体来说,如果样本是质粒或是菌液,原因就是非单克隆,如果样本是PCR产物,原因就是存在为非特异性扩增条带;(3)引物降解,导致测序起始位点不一样,或者引物不纯,导致引物结合到模板DNA的不同位置,各自进行测序。
第二、由于DNA聚合酶的打滑现象,部分模板DNA正常测序,部分模板DNA被漏掉部分碱基,二者的图谱重叠在一起,导致打滑区域之后的碱基序列形成套峰。
造成酶打滑的DNA序列特殊结构主要有两类,一是单碱基重复序列,如poly(A)Poly(T)结构;一是发卡结构,如微卫星重复序列(GCG)n等。对于连续的长串AT重复序列,DNA聚合酶在进行延伸反应时,难以牢固地识别每个AT,出现打滑现象,少测一个或几个碱基,从而造成重复区域后面的测序数据紊乱,出现套峰。聚合酶打滑的位置不固定,有时候10多个AT的重复就导致后面出现套峰,有时候6070AT重复区域后面的序列也可以完整地读出来。
对于发卡结构,如果在测序过程中不是每一个模板DNA分子的高级结构都被完全打开的话,DNA聚合酶就从部分模板的发卡结构底部直接滑过去了,导致发卡的茎环部分序列被漏掉。漏掉与未漏掉的测序图谱叠加,形成套峰。
 
从表现形式来说,套峰可以分为以下几种情况:
1)起始双峰:多引物结合位点,其中一套模板测序中断(质粒样品),多引物结合位点(PCR未纯化样品),引物二聚体或小片段干扰(PCR已纯化样品);
2)中间双峰:非单克隆(质粒样品),等位基因双模板(PCR未纯化样品);
3)末尾双峰:非单克隆(质粒样品),碱基缺失(PCR样品);
4)全部双峰:多引物结合位点(质粒样品),非特异性扩增(PCR产物)。
解决方法需要针对具体原因进行选择。一般而言,反向测序和克隆测序都是可以考虑的选项。
 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多