五种测序技术的原理、优点与缺点

火炎森林 2022-03-16

展开全文

二代　Illumina Solexa 合成测序

原理：

Solexa是一种基于边合成边测序技术（Sequencing-By-Synthesis，SBS）的新型测序技术。通过单分子阵列实现在小型芯片（Flow Cell）上进行桥式PCR反应。通过可逆阻断技术实现每次只合成一个碱基，再利用相应的激光激发荧光集团，捕获激发光，从而读取碱基信息。

优势：

二代测序相比一代测序大幅降低了成本，保持了较高准确性，并且大幅降低了测序时间，将一个人类基因组从3年降为1周以内，但在序列读长方面比起第一代测序技术则要短很多，这也给三代测序提供了发展空间。

劣势：

在PCR扩增过程中，很有可能会产生碱基的错配，产生本不存在的SNP，使得疾病检测中很多的稀有突变被视为测序误差。同时为了防止扩增过程中错误的大量积累，二代测序的读长受到了限制；由于很难控制各个reads 都处于同一扩增水平，会造成不同区段内的覆盖度不同，同一个片段可能被过量扩增导致其受到多次测序，造成冗余。

RADseq

原理：

RADseq (Restriction-site associated DNA sequencing)是在第二代测序基础上发展而来的一项基于全基因组酶切位点的简化的基因组测序技术，对特定的酶切片段进行高通量测序，是简化基因组测序技术的总称。

优势：

由于采用pooling建库的方式，与Paired-end和Mate-pair文库相比，RADseq技术一次可以构建多至96个测序文库，实验操作相当便利。

劣势：

1.等位基因丢失和无效等位基因：当多态性位点正好位于内切酶的酶切位点时，就会造成等位基因丢失；当等位基因位于的片段缺乏完整的酶切位点将不会被测序，成为无效等位基因，会造成基因分型错误。
2.PCR重复和分型错误：随机的PCR扩增过程会造成某一个等位基因比例的不均匀性，这种情况下：杂合子很可能会误以为是纯合子。
3.位点覆盖深度的差异：一般避免出现覆盖度差异的方法是增加单个样本的测序量，这样会导致测序成本的增加。

Hyb-Seq

原理：

将杂交富集测序与基因组掠取相结合，以目的DNA、线粒体DNA甚至低拷贝核序列侧翼的目标外显子。

优势：

Hyb-Seq技术具有较为简单的工作流程，减少了实验时间，劳动力成本，并且可以同时进行DNA和RNA测序，简化了所有基因组变异体的检测流程，除此之外，Hyb-Seq技术用多个探针对每个碱基进行自然单分子测序，获得的结果具有较高的精度。

劣势：

起步晚，器材少。

PacBio三代测序

原理：

第三代基因测序技术又被为“Single Molecule Real Time (SMRT™) DNA Sequencing”（单分子实时DNA测序技术），该方法基于纳米孔的单分子读取技术，不需要扩增即可快速读取序列。目前，Pacific Biosciences公司已经成功推出了商业化的第三代测序仪PacBio RS平台。

PacBio RS II是Pacific Biosciences公司研发的单分子实时测序系统（Single Molecule Real Time, SMRT），其专利的SMRT Cell含有纳米级的零模波导孔（zero-mode waveguides, ZMWs），每个ZMW都能够包含一个DNA聚合酶及一条DNA样品链进行单分子测序，并实时检测插入碱基的荧光信号。

优势：

1.超长的读长：PacBio RS II 的平均读长为10-15kb，PacBio Sequel 可以达到 8-12kb。
2.高一致性准确度：SMRT 的错误是随机发生的，而非二代测序的偏好性错误。虽然原始数据的准确度很低，但随着测序深度的增加，这些随机性错误可以被排除掉，30X的准确度可以达到99.999%。
3.均匀的覆盖率：SMRT不需要扩增过程，所有片段的覆盖率均相同。
4.可直接检测碱基上的化学修饰：在通过DNA聚合酶的时候，有化学修饰的碱基的通过速度较慢，这种减慢可以反应在荧光信号的间隔上。
5.单分子分辨率：因为测序模板为单独的DNA链，因此可以用来区分相似序列之间的区别。
6.测序速度快：SMRT具有很高的测序速度，每秒可以测10个碱基。
7.原始DNA不被破坏：不再像鸟枪法那样打断DNA序列，省去了拼接和组装过程。

劣势：

1.单读长的错误率偏高，需重复测序以纠错（增加测序成本）；
2.依赖DNA聚合酶的活性；
3.成本较高（二代Illumina的测序成本是每100万个碱基0.05-0.15美元，三代测序成本是每100万个碱基0.33-1.00美元）。
4.生信分析软件不够丰富、数据积累少。

Hi-C

原理：

Hi-C技术源于染色体构象捕获技术，利用高通量测序技术，结合生物信息分析方法，研究全基因组范围内整个染色质DNA在空间位置上的关系，获得高分辨率的染色质三维结构信息。基于Hi-C数据中染色质片段间的交互强度呈现出随距离衰减的规律，Hi-C可以用于基因组组装，将杂乱的基因序列组装到染色体水平。

同一条染色体内的基因互作（顺式互作）远高于不同染色体间的互作（反式互作）；同一条染色体内部，两点间距离越远，互作强度越低。
利用此特征可将原始contigs聚类、排序、定向，组装至染色体水平。可对已经组装的基因组进行纠错。

优势：

1. Hi-C判定scaffolds 的相对位置，具有更高覆盖率和特异性。Hi-C获得的reads长度是一般遗传标记的4-5 倍，使其定位具有更高的位点特异性。此外，Hi-C能获取全基因组所有的scaffolds片段的相互作用信息，因此绝大部分scaffolds都能被组装。

2. 结果更加直接、可靠标题此方法基于单一株系Hi-C结果，利用scaffolds 在体内染色质相互作用的分布特征来判定染色体片段之间的邻接关系，比利用亲本后代遗传连锁交互的组装方法更为直接和可靠。

3. 适用于多年生高杂合物种：对于杂合度较高的多年生物种如杨树、楸树等，群体的构建具有很大的困难，限制了基于遗传连锁图谱挂载scaffolds的可行性、精度和准确性。此时，Hi-C技术是最佳选择。

4. 周期短、成本低、高性价比：无需构建遗传图谱，避免了繁琐的群体构建工作，在极大程度上减少了实验误差、系统偏差及机械混杂等不可控因素的干扰。无需进行大规模的基因型分析工作。相比之下，Hi-C 技术实验周期短、实验规模小，节约了时间和成本，性价比极高。

劣势：

分析程序不足。

组装或使用基因组数据的方法：

组装基因组的有两种方法：使用MaSuRCA的混合方法或者用Flye组装长读，然后用Polca(MaSuRCA软件包的一部分)进行修饰。组装可能有数千个重叠群，如果幸运的话，可得到80%以上的BUSCO基因，但是棘手的问题是如何处理它。如果想做一个群体遗传学的研究，可以作为SNP调用的参考。如果它足够好，还可以用来识别系统基因组学研究中的同源基因准确鉴定直系同源基因，但是需要一些RNA-Seq数据来做基因组注释。如果没有一个好的生物学问题，现在试图发表一个单一的基因组草图是不容易的，但是可以为组装添加更多的数据，并尝试通过做一些High-C测序来达到染色体水平的基因组图谱。