illumina测序的化学原理

谦谦君子一笑 2020-12-01

展开全文

illumina测序的化学原理

概览

illumina是当前最热的二代测序公司，它测序的特点是使用带有可以切除的叠氮基和荧光标记的dNTP进行合成测序，由于dNTP上的叠氮基的存在，每个链每次测序循环只会合成一个碱基，由于A、C、G、T四种碱基所携带的荧光各不相同，因此读取此时的荧光就可以得知此时的碱基类型，重复这个过程，所有碱基序列就可以完成测定了。

illumina测序的工作流程

建库->桥式PCR扩增->Read1测序->Read2测序->双端测序（Read3）

1. 建库

使用超声将DNA样品打碎成小片段，接着T4酶修补末端， klenow酶在3‘末端加A，然后DNA连接酶将测序引物和DNA片段连接，即制成测序文库。

如图所示，即是建好的文库片段。其中a与e分别与flowcell中的P5与P7互补配对。b-c是Read1引物结合位点，c'-d是Read2结合位点，用于读取barcode，多样品在同一lane测定时才需要检测，d'-c是Read3结合位点，双端测序时才会用到。i是index，也叫barcode。（c与c'互补配对，d与d'互补配对）

2. 桥式PCR扩增

建好的文库，会加入到flowcell的lane里面进行桥式PCR扩增。

> flowcell是什么

> illumina测序仪中实际进行的测序反应位于flowcell（流动池）中，如图就是一个典型的illumina flowcell，一个flowcell有8条lane（通道），每个lane内表面共价结合了大量的P5、P7短序列（你可以将其想象为一个牙刷，一个平面上有大量的“短发”状序列），P5与P7将会用于结合构建好的文库片段。

* 模板结合，并合成第一链 将文库加入到一个lane中去，由于文库两端的序列是和lane内的P5和P7互补的，因此文库片段会和lane内表面互补结合，如果此时加入dNTP和酶，调至延伸温度，那么就会开始进行第一链合成。

* 解链，第二链合成 加入碱液，解开双链，并使用液流冲洗lane，由于新合成链末端的P5和P7已经共价结合在lane上，所以新合成的链会留下来。接着使用中性溶液中和lane内环境，再降至退火温度，那么新链的游离端就会和lane上的其他P5或P7进行碱基配对结合，形成一个桥状，如图所示。

此时如果加入dNTP和酶，并调至延伸温度，那么就会开始进行第二链合成。

* 多次PCR扩增 经过多次循环之后，那么DNA链的数量，就会以指数方式增长，形成如图中所示的大量的DNA簇。

* 制备DNA单链 DNA链扩增达到要求之后，将其中一个链切断（P5端），碱液变性并冲走，剩余即是可以用于后续测序的单链DNA了，并使用中性液中和lane内环境。

3. Read1测序

* 加入特殊dNTP和酶合成第一个碱基 DNA单链制备完成之后，加入Read1测序引物与DNA单链杂交，然后再加入特殊制备的dNTP和聚合酶即可开始测序反应。这里的dNTP有两个特点：3‘端被叠氮基封闭了、携带一个荧光基团。因此每次反应只能延伸一个碱基，接着读取此时的荧光就可以得知DNA链上的碱基。

* 切去叠氮基和荧光基团，开始第二轮测序 接着将叠氮基和荧光基团切去，液流冲走，重新加入荧光标记的叠氮dNTP和酶，扫描此时的荧光，测出第二个碱基是哪一种。

重复这个过程，即可将全部的DNA序列测定。

4. Read2（barcode）测序

由于illumina测仪器的测序能力太强了，往往单个lane就足够测很多组样品数据，因此为了充分使用测序仪，会同时在单个lane里面测定多组样品，而barcode（又叫index）就是用来区分不同的样品的。

barcode一般位于文库片段的P7端，在P7和样品DNA片段之间，illumina推荐使用12个barcode，长度6个碱基。

* 去除Read1链 在对barcode测序之前，需要加入碱液，先将刚才合成的Read1新链解开，然后液流冲走，使用中性液中和lane内环境。

* 继续测序6-8个碱基 接着加入Read2引物，继续测序6-8个碱基即可。

5. 双端测序

在读完Read1之后，可以选择对此时的DNA序列反向再读一次，从而在单次制备文库的情况下，将illumina的有效测序长度增加了一倍。

* 重新合成第一链 在Read3测序之前，先加入dNTP和酶，再次合成第一链（同Read1序列相同），图中所示黑色链即是新合成链。

* 切除并去除Read1模板链 然后切割位P7端，碱液冲洗将此时的模板链去除。如图中所示，灰色链即是Read1的模板链，已将P7端切开。

* 开始Read3测序 然后加入Read3引物，反方向再测序一次，测序过程同Read1类似。如图中所示，蓝色链为Read3的引物及Read3序列。

> Read2与Read3的引物位置一般是重合的，碱基恰好互补，方向相反，见本文图一的d-c'与c-d'。

### illumina测序质量控制

碱基识别

illumina测序的flowcell其实是一个非常精密的装置，它的每个lane里面分为上下表面，每个表面上有3个swath，每个swath有16个Tile，每个Tile在扫描的时侯，会根据4种颜色，产生4张照片，每张照片分别代表A、C、G、T四种碱基的信息。

然后数据处理软件会通过对4张照片上的亮点相互比对，找到最合适的、匹配的位置，并把4种颜色的4张照片，组合在一起，变成一张有4种颜色的彩色照片（如图所示）。

每一个循环会生成一个组合彩色图片，每一个光点就是一个碱基信息，整合全部测序循环的碱基信息之后，就会得出一个DNA的Read。

Phasing和Prephasing

在illumina测序步骤的桥式PCR之后，会生成大量的DNA簇，这些簇内的DNA序列都是一样的。每个簇大约有5k-10k个DNA链，理想状态下，每一次测序循环之后，每一簇的几千个DNA会同时增长一个碱基。

但是实际上总有少量的DNA分子没有延长，这种现象就是Phasing。Phasing一般和酶活不足有关。

而有些时候，一个DNA链有可能延长了2个碱基，而这种现象就叫做Prephasing。Prephasing是由于叠氮dNTP的叠氮基丢失所致。

> 在测序时，从第12个循环开始，就要把Phasing和Prephasing的影响纳入考虑。

Chastity 和 Pass filter

为了对光点当中荧光素的纯粹程度进行描述，Illumina公司定义了个标准，叫“chastity”，Chastity的定义就是浓度最高的那个荧光素的量，去除以“它自己 + 排名第二的荧光素的量的和”。Chastity大于0.6代表此碱基可信度较高，是一个“好碱基”。

由于桥式PCR生成的大量DNA簇并非都是单克隆的DNA，在碱基识别时，就很有可能会在杂合DNA克隆的DNA簇上产生误读。而Chastity的生物学意义是指的去除那些杂合的DNA簇，只保留单克隆DNA簇以保证测序质量。

illumina对每个read的质量都要做一个检验，这个检验就叫“pass filter”检验。检验的标准，是看前25个碱基当中，有几个是“坏碱基”。如果只有一个或者没有坏碱基，则Pass filter就通过；如果有超过一个以上的坏碱基，Pass filter就不能通过。

Quality Score

一个碱基的Quality Score，也就是这个碱基的质量分数（Q值）。它是通过这个碱基被误判的可能性，换算出以10为底的对数，再乘以“-10”得到的一个数字。

以Q30为例，Q30代表碱基可信度为99.9%，那么其被误判的几率就是0.1%，于是-10*lg(0.1%)=30。也就是说，如果一个碱基测序的可信度为99.9%，就代表其达到了Q30质量标准。

那么，所谓的“Q30比例”，就是在全部PF数据当中，达到或者超过Q30质量标准以上的数据占所有PF数据的比例。Q30比例，可以表征一次测序过程的质量好坏。

参考资料

\1. 【陈巍学基因】视频1：Illumina测序化学原理

\2. 【陈巍学基因】视频2：HiSeq测序仪工作原理

---

还有更多文章，请移步公众号阅读

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：谦谦君子一笑 > 《NGS》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

谦谦君子一笑

关注对话

TA的最新馆藏

[转] NGS免疫治疗指标分析丨MSI
痤疮治疗指南（2019修订版）
干货 | 实时荧光PCR技术-比你想象的更丰富！
单细胞DNA做基因捕获，要注意什么？
甲基化检测丨探索文库构建中更温和的DNA处理方式
illumina测序的化学原理

喜欢该文的人也喜欢更多

热门阅读换一换