【原创】三种NGS技术的科普介绍illumina、roche、ABI

BIOINFO_J 2017-03-22

展开全文

转载于丁香园（苏格兰战士）

【illumina & solexa公司】
高通量测序原理并行合成测序技术 Sequencing-By-Synthesis(SBS)
可逆末端终结技术 Reversible Terminator Chemistry
新技术：Two-Channel SBS
技术原理：
样品准备：
将待测DNA(基因组DNA or 许多条DNA)用雾化或超声波随机切断成许多DNA短片段
文库制备(mate-pair lib,MP)：
用聚合酶和外切酶把DNA片段切成平末端，磷酸化并增加一个核苷酸黏性末端。在片段DNA两端连上接头(ligation)，制成DNA文库(mate-pair libraries)
PCR扩增：
(芯片有8个纵向泳道(lane)的硅基片。每个泳道内芯片表面有无数的被固定的单链接头。)
带接头的DNA片段变性成单链后与含有接头(单链引物)的芯片(flow cell)杂交，DNA两端接头互补匹配到芯片上的接头，形成"桥"。进行30轮桥式扩增，形成单克隆DNA簇(cluster generation)，是为了保证信号强度。簇形成后，使模板"桥"线性化(切断一个接头与芯片的连接)，并用ddNTP阻断模板
测序/图像采集：
加入4种有阻滞基团和不同荧光标记的dNTP。这些dNTP是"可逆终止子"，3'羟基带有可化学切割的阻滞基团，使每个循环只能掺入单个碱基。清除未反应的dNTP和试剂，此时用激光扫描芯片，读取每条模板第一轮聚合上去的核苷酸种类(拍摄4幅颜色的图像，新技术Two-Channel只需拍摄2幅图像)。接着将这些阻滞基团和荧光基团切割，恢复3'端粘性，继续聚合第二个核苷酸。如此循环，记录每个循环的荧光信息，最后得到序列信息
（怎么切？什么试剂？）
数据分析：
将各DNA片段的序列拼接起来，组成完整DNA的序列
测序仪：GA, MiSeq, NextSeq, HiSeq
指标：
output:   1Gb～1Tb (output = reads * read length)
run time:   5h～5d
reads/flow cell:  25*10e6～2*10e9
read length:2*150～2*300bp(双末端测序，两端测序长度相同)
flow cell:  1 or 2
barcode:  24
seq depth:  30X(10 human genomes)
产品越先进 reads越多 output越多 read length越短
早期产品通量低时间短 -- 目标基因小基因组测序
后期产品通量高时间长 -- 全基因组人群规模测序
【Roche & 454公司】
一个片段(fragment) = 一个磁珠(bead) = 一条读长(read)
焦磷酸测序 Pyrosequencing
技术原理：
1.样品输入并片段化：
大的样品如基因组DNA或BAC等利用超声或氮气雾化打断，然后采用琼脂糖凝胶电泳回收或磁珠纯化，选择300-800bp的DNA片段；对于小分子的非编码RNA或者PCR产物，这一步则不需要。
片段化的DNA末端的处理(polish)包括突出粘末端变平端(blunt-end)和磷酸化(phosphorylate)。通过E.coli DNA聚合酶I的Klenow片段的聚合酶活性对3'凹端补平,再利用T4 DNA聚合酶的3'→5'外切酶活性将3'凸端削平。通过T4 多聚核苷酸激酶使DNA片段5'末端磷酸化，使其可以和接头的3'末端连接
2.文库制备：
通过连接酶将A、B接头的3'末端连接到DNA片段两端，再用Bst DNA聚合酶大片段修复3'连接处的缺口，并补平A、B接头互补链的5'端。A、B接头都是44bp的双链寡聚核苷酸，由5'端20bp的PCR引物(5'端4个碱基突出)、20bp的测序引物、3'端4bp的barcode构成，其中B接头5'带有生物素，用于下一步纯化。
经过与磁性链霉亲和素磁珠结合分离，DNA变性(NaOH作用)之后，只有A+目的片段+B形式的连接产物得以富集(其实分离出来的是A5'→3'+目的片段+B的互补链5'→3'?)，另两种形式AA、BB的产物都被去除(AA不会被链霉亲和素磁珠结合，BB两条链都被链霉亲和素磁珠结合，解链了也留在磁珠上)。具有A、B接头的单链DNA片段组成了样品文库。
PCR产物可用带接头的引物进行扩增。接头也将用于后续的纯化，扩增和测序步骤
A接头序列:5'-CCATCTCATCCCTGCGTGTC CCATCTGTTCCCTCCCTGTC TCAG-3' (44)
     3'-GAGTAGGGACGCACAG GGTAGACAAGGGAGGGACAG AGTC-5' (40)
B接头序列:bio-5'-CCTATCCCCTGTGTGCCTTG CCTATCCCCTGTTGCGTGTC TCAG-3' (44)
       3'-AGGGGACACACGGAAC GGATAGGGGACAACGCACAG AGTC-5' (40)
捕获磁珠制备：
胺标记的六氧乙烯(HEG)捕获引物：5'-CCATCTGTTGCGTGCGTGTC-3' (20) 与A接头PCR位点相似
将捕获引物固定到磁珠上，用两层筛网挑选25～36um的磁珠
3.一个DNA片段 = 一个磁珠：
每一个单链DNA片段在DNA捕获磁珠上(磁珠数量远远大于DNA,>6倍)，A接头PCR位点与磁珠的接头互补退火结合。磁珠结合的片段被扩增试剂乳化(特定的矿物油和表面活性剂，振荡器剧烈振荡)，形成油包水的混合物，形成只包含一个磁珠和一条单链DNA的微反应器。(水相含有引物,PCR反应液)
PCR引物：
forward：5'-CGTTTCCCCTGTGTGCCTTG-3' (20) 0.625μM 序列与B接头PCR位点相似 CGTTTCCCCTGTGTGCCTTG
reverse：5'-CCATCTGTTGCGTGCGTGTC-3' (20) 0.039μM 序列与A接头PCR位点相似 CCATCTGTTGCGTGCGTGTC
reverse引物浓度较低，因捕获引物也可作为reverse引物
4.乳液PCR扩增：
每个DNA片段在自己的微反应器里进行独立的PCR扩增(热启动,扩增,延长)，以DNA文库片段为模板合成的互补链与捕获引物结合，捕获引物延伸又形成原片段(A5'→3'+DNA片段+B互补链5'→3')，每一个磁珠上将形成密集的DNA簇，包含几百万个拷贝。随后，乳液混合物被打破，加入NaOH使双链解开，去除第二链，获得结合单链DNA的磁珠。
磁珠筛选富集：
生物素标记的40bp六氧乙烯(HEG)富集引物：Bio-5'-CGTTTCCCCTGTGTGCCTTG CCATCTGTTCCCTCCCTGTC-3' (40) 序列与B接头相似
向磁珠溶液中加入富集引物退火结合到磁珠上DNA模板的B接头。将此生物素磁珠加入磁性链霉亲和素磁珠溶液，然后将试管放在磁铁里2分钟，然后弃上清液(多余的链霉亲和素磁珠和未结合DNA的空捕获磁珠)，留下链霉亲和素磁珠+生物素标记的富集引物+结合DNA的捕获磁珠。加入溶解溶液NaOH，并靠近磁铁，上清液即包含结合DNA的磁珠。
5.一个磁珠 = 一条读长：
测序引物：5'-CCATCTGTTCCCTCCCTGTC-3' (20) 序列与A接头测序位点相同
向结合DNA的磁珠溶液加入测序引物与待测DNA模板退火结合
光纤板与含有ATP酶的缓冲液一同孵育；DNA磁珠与含有SSB和Bst DNA聚合酶大片段的缓冲液一同孵育。
DNA磁珠与含有硫酸化酶和萤光素酶的微米颗粒混合，随后放入PTP板(PicoTiterPlate皮滴度板，含有160多万个由光纤组成的孔)进行后续的测序。PTP孔的直径(29um)只能容纳一个磁珠(20um)
将PTP板放置在GS FLX测序仪中测序：
放置在4个单独的试剂瓶里的4种碱基，依照T、A、C、G的顺序依次循环进入PTP板，每次只进入一种碱基
测序引物与B接头结合。如果有一个碱基和测序模板配对，就会释放一个焦磷酸。这个焦磷酸在ATP硫酸化酶和萤光素酶的作用下，经过一个合成反应和一个化学发光反应，最终将萤光素氧化成氧化萤光素，同时释放出一份子光信号。若聚合连续2个碱基，则放出2份光信号。由此一一对应确定待测模板的碱基序列
多余的dNTP在下一种dNTP加入前就被洗掉和降解
(R )5'-CCATCTGTTGCGTGCGTGTC-3'
(A )5'-CCATCTCATCCCTGCGTGTC CCATCTGTTCCCTCCCTGTC TCAG-3'-DNA片段 -5'-CTGA GACACGCAACAGGGGATAGG CAAGGCACACAGGGGATAGG-3'(B')
                                               3'-GTTCCGTGTGTCCCCTTTGC-5'(F )
(A")3'-GGTAGACAACGCACGCACAG GGTAGACAAGGGAGGGACAG AGTC-5'-DNA片段'-3'-GACT CTGTGCGTTGTCCCCTATCC GTTCCGTGTGTCCCCTTTGC-5'(B")
(C )5'-CCATCTGTTGCGTGCGTGTC+.............................DNA片段...................................................-3'
  3'-..................................................DNA片段.....GACT+CTGTCCCTCCCTTGTCTACC-5'(S)
(A、B接头；'互补链；"相似链；F、R正反引物；C捕获引物；S测序引物)
测序仪：GS Junior(+), GS FLX(+)
Kit:  GS FLX Titanium XL(+)
指标：
Read Length:400～1000bp(单末端测序)
Throughput:  0.035～0.7Gb
Reads:    10e5～10e6 shotgun, 7*10e4 amplicon(PCR产物)
Run time:  10h～23h
Barcode:  12～132
Gaskets:  1, 2, 4, 8, 16 regions
accuracy:  99.99%
1次运行产生100万条以上的有效序列，单末端读长在400bp以上，读取超过4～6亿bp，只需耗时10h
在读长上的优势明显胜于另两套系统，因此在从头测序(de novo seq)和宏基因组测序(meta genome)方面有着不可替代的地位。
【ABI & Life Tech公司】
SOLiD Sequencing by Oligo Ligation Detection 寡聚物连接检测测序
高保真连接酶
引物重置
两碱基编码
Exact Call Chemistry(ECC) 三碱基编码(1,2,4)
技术原理：
1.文库制备：
片段文库(fragment lib)：如果你想要做转录组测序、RNA定量、miRNA 探索、重测序、3',5'-RACE、甲基化分析、ChIP 测序等，就可以用片段文库，就是将基因组DNA打断，两头加上接头(P1,P2 adapter)，制成文库。
配对末端文库(mate-pair lib,MP)：如果你的应用是全基因组测序、SNP 分析、结构重排/拷贝数，则需要用配对末端文库。配对末端文库是将基因组DNA打断后，与中间接头连接，再环化，然后用EcoP15 酶切，使中间接头两端各有27bp的碱基，再加上两端的接头(P1,P2 adapter)，形成文库。
测序接头上标记有生物素，用于下一步纯化
2.一个DNA片段 = 一个磁珠：每一个单链DNA片段被固定在DNA捕获磁珠上(磁珠数量远远大于DNA,>6倍)。磁珠结合的片段被扩增试剂乳化，形成油包水的混合物，形成只包含一个磁珠和一个独特片段的微反应器。(水相含有1条DNA模板，1个P1磁珠，P1,P2引物,DNA聚合酶)
3.乳液PCR：水相中的P2引物和磁珠表面的P1引物所介导PCR反应，扩增后产生了数量巨大的拷贝。对模板3'端修饰
4.微珠沉积：乳液PCR 完成之后，变性模板，用亲和素富集带有延伸模板的微珠，去除多余的微珠。微珠沉积在一块玻片上glass slide(微珠上的模板经过3'端修饰，可以与玻片共价结合)。在微珠上样的过程中，沉积小室将每张玻片分成1个、4个或8个测序区域。SOLiD 系统最大的优点就是每张玻片能容纳更高密度的微珠，实现更高的通量。
5.连接测序：
SOLiD测序的独特之处在于没有采用惯常的聚合酶，而用了连接酶。
SOLiD连接反应的底物是8 碱基单链荧光探针混合物(3'-12nnnzzz-5'荧光)。连接反应中，1024种(4的5次方)探针按照碱基互补规则与单链DNA模板链配对。
探针的5'末端分别标记了CY5、Texas Red、CY3、6-FAM这4 种颜色(红黄绿蓝)的荧光染料。探针3'端1～5 位为随机碱基，可以是ATCG四种碱基中的任何一种碱基，其中第1、2 位构成的碱基对编码探针染料类型，而3～5位的"n"表示随机碱基，6～8位的"z"指的是可以和任何碱基配对的特殊碱基。
单向SOLiD 测序包括五轮测序反应，每轮测序反应含有多次连接反应。
第一轮测序的第一次连接反应(ligate)由连接引物"n"介导，连接引物结合在引物P1序列上。由于每个磁珠只含有均质单链DNA 模板，所以这次连接反应掺入一种8碱基荧光探针，SOLiD 测序仪检测到一种荧光颜色，记录下探针第1、2 位碱基，随后的化学处理断裂(cleave)探针3’端第5、6位碱基间的化学键，并除去6～8 位碱基及5’末端荧光基团，暴露探针第5 位碱基5’磷酸，为下一次连接反应作准备。
因为第一次连接反应使合成链多了5 个碱基，所以第二次连接反应得到模板上第6、7 位碱基，而第三次连接反应得到的是第11、12 位碱基…… (跳开5个碱基，获得2个碱基信息)
引物重置：在7次连接反应后，原先的连接引物n和连接的寡核苷酸链被脱掉(加热变性)，新引物n-1互补上去，互补位置不同
第二轮的测序：由于第二轮连接引物n-1 比第一轮错开一位，所以第二轮得到以0，1 位起始的若干碱基对的颜色信息。第三、四、五分别使用连接引物n-2,n-3,n-4
五轮测序反应后，按照第0、1位，第1、2位，第4、5位，第3、4位，第2、3位的顺序把对应于模板序列的颜色信息连起来，就得到由"0，1，2，3…"组成的SOLiD 原始颜色序列。
(三碱基编码ECC)第六轮测序，使用连接引物n-4，但三碱基编码颜色的探针集(probe set)进行测序，获得"2,3,5,7,8,10..."组成的原始颜色序列。
6.数据分析：
依靠reference序列，按照"双碱基编码矩阵"，辅以"三碱基编码矩阵"冗余校对，就可以"解码"碱基序列。错误情况有两种：
"单颜色不匹配"：由于每个碱基都被独立地检测两次，且SNP 位点将改变连续的两个颜色编码，所以一般情况下SOLiD 将单颜色不匹配处理成测序错误，这样一来，SOLiD 分析软件就完成了该测序错误的自动校正。
"两连续颜色不匹配"：连续两颜色不匹配也可能是连续的两次测序错误，综合考虑该位置颜色序列的一致性及质量值来判断该位点是否为SNP。
测序仪：SOLiD Sequencer 3, 4, 5500(xl)(W)
指标：
accuracy:    99.99%
Throughput:    90～300Gb
Read length:  75bp(fragment), 60*60bp(mate-pair), 75*35bp(paired-end)
Run time:    1d or 7d
Lanes:      6 or 12
Multiplex:    96 barcodes for DNA and RNA
Samples:    1152 or 2304
测序仪：Ion PGM
芯片：314，316，318(微传感器即微孔数量不同，摩尔定律)
read length:  200b(单向测序), 2*200b(双向测序)
throughput：  10M, 100M, 1G
run time:    2h
seq depth:    100～2000X(取决于研究目的)
barcode:    6～10b
技术原理：
Ion Torrent
1.文库制备：(以PCR扩增子制备测序文库)
1)PCR扩增子文库：在PCR时用含Ion Torrent测序接头的引物进行扩增，制成测序文库。或直接在PCR产物5'端加上测序接头
Forward primer(Primer A-key):
5'-测序接头(30b)+模板特异序列-3'
Reverse primer(Primer P1-key):
5'-测序接头(23b)+模板特异序列-3'
2)基因组DNA文库：DNA样品通过物理作用打碎成200～300bp的小片段，通过试剂盒在模板片段两端加上测序接头，完成文库的构建
测序接头上标记有生物素，用于下一步纯化
2.一个DNA片段 = 一个磁珠每一个单链DNA片段被固定在一个磁珠上，进行乳液PCR形成簇。
3.微珠沉积：乳液PCR 完成之后，富集带有延伸模板的微珠，去除多余的微珠(通过另一种标记了链亲合素的微珠)。将微珠点到芯片(chip)上，一个微孔里固定一个微珠
4.扩增子测序：
放置在4个单独的试剂瓶里的4种碱基，依照顺序依次循环进入芯片，每次只进入一种碱基。
在一个特定的微孔中，如果模板DNA分子上的掺入一个互补的核苷酸，就会释放出一个氢离子,导致局部溶液的pH值变化，并被离子传感器检测到，将该化学信号转变为数字信号。如果DNA链上有两个相同的碱基，检测到的电压双倍，芯片则记录两个相同的碱基