illumina SBS测序详解

生物_医药_科研 2019-06-22

展开全文

最近回头重新看了illlumina paired end sequence的测序原理视频，发现了以前没有注意的一些问题，而这些问题也是大家平时容易搞错的，因此花了几天时间将illumina 的paired end sequence 从构建文库到上机测序的整个过程以及原理较为详细的写了出来。

基础知识：illumina测序的核心在于利用可逆终止的、荧光标记的dNTP进行边合成边测序

Flowcell（流动池）是有着2个或8个lane（泳道）的玻璃板，。每个lane可以测一个样本或者多样本的混合物，且随机布满了能够与文库两端接头分别互补配对或一致的寡核苷酸（oligos，P7和P5接头）。一个lane包含两列，每一列有60个tile，每个tile会种下不同的cluster，每个tile在一次循环中会拍照4次（每个碱基一次）。

paried-end sequencing

一、Library Preparation文库的构建

1. 利用转座子（transposome）对双链DNA进行剪切以及接头（adapter）的连接

2. 接头连接成功后，利用低循环扩增技术在接头处进行修饰，分别在两端添加sequencing primer binding site1/sequencing primer binding site2（即测序引物结合位点）、index1/index2以及我们称之P5和P7的寡核苷酸序列

上图并没有将之前的adapter标志出来，下图是维基百科的示意图，详细一些。

这里要注意两点（1）P5和P7是不同的，它们分别和flowcell上的接头互补和相同。为了方便阐述，将与P5互补的接头称为P5’，与P7互补的接头称为P7’。（2）index1和index2也是不同的，与P5相连的是index2，与P7相连的是index1。

关于index，也叫barcodes，因为一个lane可以同时测多个样品，为了避免混淆样品的read products，每种样品的DNA由一种index修饰，这样测序得到的reads都是具有index标记的，在测序结果中，依据之前标签与样品的对应关系，就可以获得对应样品的数据。而这里的index1和index2是为了区分paired-end测序得到的双端reads。

二、Cluster generation 簇生成

1. Flowcell上随机分布了两种不同的寡核苷酸序列，分别与P5互补（即P5’），与P7一致（即P7）。

2. 待测sequence通过P5与folwcell上的P5’序列杂交互补，以待测sequence为模板进行互补链（即reverse strand）的延伸，互补链的两端为P5’和P7’。

3. 接下来模板链被切断并洗下

Reverse strand的P7’与Flowcell上的P7杂交互补，进行链的合成，这就是我们所熟知的桥式PCR

接下来合成的双链被解链，再分别与Flowcell上的接头杂交互补，延伸....解链，杂交，延伸，解链...如此重复35个循环

4. 桥式PCR完成后，使用NAOH将双链解链，并利用甲酰胺基嘧啶糖苷酶（Fpg）对8-氧鸟嘌呤糖苷（8-oxo-G）的选择性切断作用，选择性地将P5’与链的连接切断，留下与Flowcell上P7连接的链，也就是Forward strand。同时游离的3’端被阻断，防止不必要的DNA延伸

三、测序

1. 测序引物（sequencing primer）结合到靠近P5的测序引物结合位点1（sequencing primer binding site 1）上，在系统中加入四种dNTP和DNA聚合酶。这里的dNTP有两个特点：它是有荧光基团标记的，每种碱基标记的荧光基团不一样。它的3’末端连了一个叠氮基。这个叠氮基能够阻断后面的碱基与它相连

因此在聚合酶的作用下，与Forward strand相应位置碱基配对的dNTP就会结合到新合成的链上，而由于叠氮基的存在，后面的dNTP无法继续连接。这时用水将剩余的dNTP和酶给冲掉，将Flowcell进行扫描，扫描出来的荧光对应的碱基的配对碱基即是该链该位置的碱基。同时在这个Flowcell上有成千上万个cluster也在进行同样的反应，因此一个循环就能同时检测多个样本（这也是高通量的核心所在）。这个循环完成后，加入化学试剂把叠氮基和标记的荧光基团切掉，进行下一个循环（碱基的连接、检测与切除）。如此重复直至所有链的碱基序列被检测出。也就是Forward read 序列。

2. Index测序：所有循环结束后，read products 被洗掉，index1 primer与链上index primer1 结合位点杂交配对，进行index1的合成及检测

3. Index1测序完成后，洗脱测序产物。此时机器已通过荧光得到了index1的序列

4.Index2测序：Forward strand顶端的P5序列与Flowcell上的P5’杂交配对，进行index2测序。测序完成后洗脱产物

四、Paried-end sequencing（即对Reverse strand测序）

1. 洗脱index2测序产物后，以Flowcell上的P5’为引物，Forward strand为模板进行桥式扩增，得到双链

2. NAOH使双链变性为单链，并洗去已经测序完成的Forward strand

3. 类似的，readprimer2结合到靠近P7’的read primer binding site 2开始对Reverse strand的测序。测序完成后即可得到Reverse read序列。

总结：有两点需要重点注意：（1）DNA片段连接的两个接头P5和P7，它们与Flowcell上的两种寡核苷酸序列分别互补和相同，并不是都相同

（2）结合在DNA片段两端的index序列也不同，分别是index1和index2

前面介绍的都是paired-end的测序，而single-end测序方式是只将index，sequencing primer binding site以及P7/P5添加到 fragamented DNA片段的一端，另一端直接连上P5/P7，将片段固定在Flowcell上桥式PCR生成DNA簇，然后单端测序读取序列

最后给出illumina的官方视频

http://v.youku.com/v_show/id_XMTI1MjA5Mzg5Mg==.html?spm=a2h0k.8191407.0.0&from=s1.8-1-1.2