高通量测序常见问题及解答

刘得光3p6n6zqq 2021-12-24

展开全文

综合技术
全基因重测序、人外显子测序
mRNA测序、LncRNA测序、small RNA测序
ChIP测序
甲基化测序
石蜡样本测序
Cancer Panel测序、Amplicon测序
EBV捕获测序、HBV、HCV、禽流感等病毒的测序

视频：高通量测序原理

综合技术

1. 问：什么是Q30？

答： Q30是指一个碱基的识别可靠性等于99.9%，或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。

Q30数据量是指一批数据中，质量高于等于Q30的数据的量的总和。

目前Illumina平台的测序数据一般可以达到70~80%以上的Q30比例。Ion Torrent PGM可以达到80%以上的Q20比例。

2. 问：测序数据的PF data/PF reads是什么意思？

答： PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。

对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6，是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中，如果低质量的数据有2个或更多，则这条read被判定为不合格，PF就不通过。反之，则质检通过。

PF是国际公认的质检标准。

3. 问：你们给的数据是什么质量的？

答：对于哺乳动物基因组重测序、外显子测序，我们保证数据质量是Q30的比例高于80%。对于mRNA测序，smRNA测序，我们保证对照Lane的数据质是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序，GC比例在40%左右，%Q30是80~95%
RNA-seq，GC比例在50%左右，Q30的比例是~80%。如果Poly(A)特别多的情况下，%Q30会更低一些
SmRNA-seq，因为有许多的read读通之后，只剩下一串的A，质量会更低，我们的实验结果%Q30在70~75%

4. 问：测序中的Duplication是什么，如何避免，一般会有多少Duplication?

答：所谓Duplication是指起始与终止位置完全一致的片段。

引起Duplication的主要原因是因为在测序中有PCR过程，来源于同一个DNA片段PCR的产物被重复测序，就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。

一般通过控制PCR的循环数来控制Duplication。我们一般控制PCR的循环次数在10~12个循环。

在外显子测序中，如果用illumina的捕获试剂盒Duplication的比例约为10%；如果用Nimblegen的捕获试剂盒，Duplication的比例在5%左右；Agilent的捕获试剂，也大约在5%左右。

未来，引入PCR-free的建库方法后，可以完全解决Duplication的问题。

在RNA-seq中，Duplication的比例约为40%。RNA-seq中，因为高丰度的mRNA集中在几个基因上，集中度很高，所以Duplication的比例也就高。

5. 问：测序的插入片段一般是多长？

答：测序的插入片段一般是100bp到600bp。

因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长，测桥式PCR产生的Cluster就会太大，而且光强也会减弱。所以插入片段的长度是有限制的。

对于为了拼接基因组，要做跨度很长的文库，建议构建Mate Pair（MP）文库。青岛生物能源与过程研究所的徐建先生是构建MP文库的专家，他们构建一个10Kb长的插入片段的文库的公开收费是1.5万元人民币。徐建的联系方式： 0532-80662651，xujian@qibebt.ac.cn。

6. 问：PhiX文库有什么用？

答： PhiX文库是一种用病毒基因组做的文库。其基因序列已精确知晓，GC比例约为45%，与人类、哺乳类的基因组的GC比例接近。其基因序列又与人类的基因序列相去甚远，在与哺乳类基因组一些测序时，可以轻松地通过基因序列比对而将之去除。

在测四种碱基不平衡（A、G、C、T四种碱基的含量远远偏离25%）的样本时，可以加入大量的PhiX文库，以部分抵消样本的不平衡性。例如ChIPed DNA测序，或者亚硫酸氢盐处理过的DNA文库，或者扩增子测序（PCR样测序），都可以加入PhiX，以部分弥补碱基不平衡性。

也可以少量地（比如1%的比例）加入测序，以作为control library来验证测序质量。

PhiX文库没有Barcode，在测序完成后的分Barcode（demultiplex）过程中，会被归在Undetermined数据中。

7. 问：Hiseq和Miseq有什么差别？

答： Hiseq 2000的测序数据产量很高，一条Lane一次可以产生35G或更多的数据，一张Flowcell可以产生约300G以上的数据。但是测一次高通量模式的PE100测序要9~11天的时间。所以较慢。

Hiseq 2500的一张PE100 Flowcell可以给出60G的Q30数据，测序本身是一天半时间，可以快速地以较高的通量给出高质量的测序数据。

Miseq的测序数据产量低，一次可以产生5G~15G的数据。但是测长可以做到较长，目前可以测300*2。而且测序的速度非常快，一般一到三天就可以测完一张Flowcell。

8. 问：Hiseq 2000和Hiseq 2500有什么差别？

答：Hiseq 2500是Hiseq 2000的升级版。

其主要的改进点是：Hiseq 2500可以在快速、高通量两种模式之间切换。高通量模式就是原来的Hiseq 2000的每张Flowcell有8个Lane的模式。

Hiseq 2500的快速模式，核心的改进是用2个Lane的Flowcell来测序，而且这种快速Flowcell的Lane比Hiseq 2000的Lane要短，数据产量也略低于高通量模式的2条Lane。

Hiseq 2500快速模式的试剂也有所改进。

速度提升：

Hiseq高通量模式，PE100，双Flowcell，11天完成测序。数据量每Flowcell在270G PF data以上。

Hiseq快速模式，PE100，双Flowcel，27小时完成测序。数据量每Flowcell在50G PF data以上。

数据质量提升：

在快速模式下，Hiseq机器可以更快地拍完一个cycle的所有照片，也就是每个cycle的用时更少。SR50可以在半天内测完，PE100可以在一天半内测完。这明显比原来的3天（SR50）、11天（PE100）要快得多。

在速度加快的同时，还带来质量的提升。因为Hiseq测序过程中SBS试剂的两个主要的成份：酶和荧光剂都是不稳定的，或者说是在融化后（原来是冰冻的）荧光剂随时间延长而不断降解的，酶是逐渐失活的。为此Hiseq还为试剂准备了4度冰格，以减慢其降解。原来的Hiseq 2000要走11天，现在2天完成，这带来了明显的测序质量提升。

实测哺乳类动物的基因组DNA文库， Q30比例可达85%以上，甚至更高（90%以上）。

测序长度提升：

而且因为测序质量的提升，也带动测序长度的提升，目前Illumina官方支持的Hiseq 2500的测长是PE 2*150。

特别需要注意的，Illumina目前不直接提供PE150的试剂，客户要用1*PE Cluster kit + 1*PE100 SBS kit + 2*SR50 SBS kit合起来，才能测PE150。

一次测更多文库：

Hiseq 2500的快速模式试剂直接支持双Index测序模式：

双Index是指两个接头各有一个Index。这样两套Index排列组合，一个Lane里可以放更多的文库。目前Illumina官方试剂是支持96个排列组合（ 12*8 = 96），这对充分利用Hiseq平台巨大的测序数据产量有很大的帮助。原来的单Index是支持单侧24种Index。

这与Hiseq PE100高通量模式标准PE100试剂只能测单Index。当然，Hiseq2000b也可以测双Index，但是用4个50 cycles SBS kit（每Kit保证58个cycles）拼起来（58*4=232），才可以保证有足够的SBS试剂量，因为双Index会实际需要216 cycles，这超过了200 cycle SBS试剂可以保证的cycle数。

仪器操作更方便：

Hiseq 2500快速模式可以直接在Hiseq仪上进行Cluster生成，这大大节约了先要在cBOT上生成Cluster，再要将Flowcell从cBOT上移到Hiseq的麻烦。

但是请注意，如果直接在Hiseq 2500上生成cluster，两条Lane就只能上一种预混合文库，而不能象原来的Hiseq 2000上那样，两条Lane物理分开。也就是说预混合文库中的Index一定是要分得开的才行。

当然，快速模式也可以还用cBOT生成cluster，但是那要另外买一个编号为CT-402-4001（全名：TruSeq® Rapid Duo cBot™ Sample Loading Kit ）的试剂盒，这个试剂盒要好几百美元。

试剂操作更方便：

Hiseq 2500快速模式的试剂是做成Master Mix的，也就是酶、Buffer、荧光dNTP等都预先混合好了，一大管，拿来一化冻就可以用，很方便。这与高通量模式试剂把酶、荧光dNTP分几管的模式是不一样的，高通量模式的试剂因为是分管的，所以使用之前还要人工再混合，这样会多占用一点人工。

Hiseq 2500仪器更贵：

据公开资料，Hiseq 2500的报价比Hiseq 2000的贵5~8万美元（不同国家略有差异）。Hiseq 2500的美国报价是74万美元，Hiseq 2000的美国报价是69万美元。

快速模式的试剂更贵：

把试剂的价格分摊到其所产生的每个G的数据，快速模式的大约贵了15~40%。

Hiseq 2500的两个机位同时只能运行一种模式：

Hiseq 2500在一台机器的两个机位同时只能跑同一种模式，也就是要么都跑快速模式，要么都跑高通量模式，而不能一个机位跑快速模式，另一个机位同时跑高通量模式。

之所以HiSeq做成2个测序机位，就是因为当机位A在进行一个cycle的化学、酶学反应时，机位B正好进行扫描，两个动作交错进行。

因为高通量模式与快速模式扫描一个cycle所需的时间不同。所以快速模式无法与高通量模式达到步调协调，所以不能同时操作。

HiSeq 2500提供了更多可选的rapid测序模式，包括：

SR50
SR100
PE100
PE150

当然SR50、SR100、PE100模式用HiSeq 2000的高通量模式也是可选的。但是在实践中，因为很少有机会一次凑足足够的SR50、SR100样本（也许是96个），所以用高通量模式来测SR50、SR100的机会并不多。

9. 问：Illumina、Roche 454、Life Ion Torrent、SOLID和PacBio的高通量测序仪的优缺点是什么？

答：Illumina的测序仪的数据产量高，数据质量也是最高的。因为采用带终止基团的荧光dNTP，所以在测Homopolyer（碱基同聚物，例如一串4个T：TTTT）等的时候，不会产生移码错读。

Ion Torrent，包括PGM和Proton，采用测量DNA合成过程中所释放的氢离子引起的PH值的变化，来得到序列。优点是速度最快，上机前约3~4天的时间，上机只要2~4个小时。

Roche 454采用的是pyrosequencing的测序原理，通过荧火虫酶水解DNA全成过程中所产生的焦磷，放出光，通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。目前Illumina推出了Miseq PE300的试剂盒，有效测长可以达到550Bp,单个flowcell的测序成本只有454的1/3，数据产量大了20倍以上，质量更高，操作更方便，可以完全替代454了。

SOLID采用的是杂交，连接反应，再测荧光的方法。因为杂交，所以速度慢，测长较短（最长曾到PE75）。现在事实上已被淘汰。

PacBio是三代测序，也就是单分子测序。目前的情况是测序长度可以在1个KB以上，而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低，目前的测序准确度只有每个碱基80~90%。另一方面通量较小，一次读7万条reads.

10. 问：Illumina测序过程中，Multiplex index之间会有多少交叉的污染？

答：我们曾经专门做过实验，用4个亲缘关系很远的物种的DNA，用4个index标记，进行测序。测序之后进行基因组比对，发现每种index之内会有0.02~0.03%的reads是别的物种的。也就是说因为Multiplex index引入的交叉污染，会以0.02%上下的比例存在。

这主要是由化学合成index oligo过程中的误差引起的。根据我司的引物合成专家的经验，即使经过HPLC的纯化，oligo中还是会有0.5~1%甚至更高的错的引物。现在的0.02%的污染率，已经是很低了。

11. 问：Hiseq和Miseq都可以做双index测序吗？

答：Miseq是天生就可以做双index测序的。

HiSeq 2500的快速模式，如果测PE100，则天生是可以测双index的。

Hiseq 2000 PE100要做双index测序。需要多测7个cycle的碱基。而标准的200 cycles SBS的试剂量是不能够保证这多测的7个cycle的。所以要用4个50 cycles SBS（每个大约能够测70个cycles）合在一起来测。会加收9500元。

一张Flowcell中，只有要一个Lane是双Index的，就会需要所有的Lane都以双Index的方式测序。但是一张Flowcell只加收一个9500元。也就是说如果一张Flowcell有多个Lane是双index的，只收取一个9500元。

12. 问：HiSeq可以测Dual Primer（两侧的测序引物不同）吗？

答：HiSeq可以测Dual Primer，但是要另外加试剂。一是加Dual index试剂（详见前一个问题），二量加Dual Primer试剂。