分享

高通量测序常见问题及解答

 刘得光3p6n6zqq 2021-12-24

目录

  1. 综合技术

  2. 全基因重测序、人外显子测序

  3. mRNA测序、LncRNA测序、small RNA测序

  4. ChIP测序

  5. 甲基化测序

  6. 石蜡样本测序

  7. Cancer Panel测序、Amplicon测序

  8. EBV捕获测序、HBV、HCV、禽流感等病毒的测序

视频:高通量测序原理


综合技术

1.   问:什么是Q30?

答: Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。

              Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。

              目前Illumina平台的测序数据一般可以达到70~80%以上的Q30比例。Ion Torrent PGM可以达到80%以上的Q20比例。

2.  问:测序数据的PF data/PF reads是什么意思?

答: PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。

              对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。

PF是国际公认的质检标准。

3.   问:你们给的数据是什么质量的?

答:对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质是Q30的比例高于80%。

一般情况下:

  • 哺乳动物基因组重测序、外显子测序,GC比例在40%左右,%Q30是80~95%

  • RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,%Q30会更低一些

  • SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%

4.   问:测序中的Duplication是什么,如何避免,一般会有多少Duplication?

答:所谓Duplication是指起始与终止位置完全一致的片段。

              引起Duplication的主要原因是因为在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。

              一般通过控制PCR的循环数来控制Duplication。我们一般控制PCR的循环次数在10~12个循环。

              在外显子测序中,如果用illumina的捕获试剂盒Duplication的比例约为10%;如果用Nimblegen的捕获试剂盒,Duplication的比例在5%左右;Agilent的捕获试剂,也大约在5%左右。

              未来,引入PCR-free的建库方法后,可以完全解决Duplication的问题。

在RNA-seq中,Duplication的比例约为40%。RNA-seq中,因为高丰度的mRNA集中在几个基因上,集中度很高,所以Duplication的比例也就高。

5.   问:测序的插入片段一般是多长?

答:测序的插入片段一般是100bp到600bp。

              因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长,测桥式PCR产生的Cluster就会太大,而且光强也会减弱。所以插入片段的长度是有限制的。

              对于为了拼接基因组,要做跨度很长的文库,建议构建Mate Pair(MP)文库。青岛生物能源与过程研究所的徐建先生是构建MP文库的专家,他们构建一个10Kb长的插入片段的文库的公开收费是1.5万元人民币。徐建的联系方式: 0532-80662651,xujian@qibebt.ac.cn。

6.   问:PhiX文库有什么用?

答: PhiX文库是一种用病毒基因组做的文库。其基因序列已精确知晓,GC比例约为45%,与人类、哺乳类的基因组的GC比例接近。其基因序列又与人类的基因序列相去甚远,在与哺乳类基因组一些测序时,可以轻松地通过基因序列比对而将之去除。

              在测四种碱基不平衡(A、G、C、T四种碱基的含量远远偏离25%)的样本时,可以加入大量的PhiX文库,以部分抵消样本的不平衡性。例如ChIPed DNA测序,或者亚硫酸氢盐处理过的DNA文库,或者扩增子测序(PCR样测序),都可以加入PhiX,以部分弥补碱基不平衡性。

              也可以少量地(比如1%的比例)加入测序,以作为control library来验证测序质量。

              PhiX文库没有Barcode,在测序完成后的分Barcode(demultiplex)过程中,会被归在Undetermined数据中。

7.   问:Hiseq和Miseq有什么差别?

答: Hiseq 2000的测序数据产量很高,一条Lane一次可以产生35G或更多的数据,一张Flowcell可以产生约300G以上的数据。但是测一次高通量模式的PE100测序要9~11天的时间。所以较慢。

              Hiseq 2500的一张PE100 Flowcell可以给出60G的Q30数据,测序本身是一天半时间,可以快速地以较高的通量给出高质量的测序数据。

              Miseq的测序数据产量低,一次可以产生5G~15G的数据。但是测长可以做到较长,目前可以测300*2。而且测序的速度非常快,一般一到三天就可以测完一张Flowcell。

8.   问:Hiseq 2000和Hiseq 2500有什么差别?

答:Hiseq 2500是Hiseq 2000的升级版。

              其主要的改进点是:Hiseq 2500可以在快速、高通量两种模式之间切换。高通量模式就是原来的Hiseq 2000的每张Flowcell有8个Lane的模式。

              Hiseq 2500的快速模式,核心的改进是用2个Lane的Flowcell来测序,而且这种快速Flowcell的Lane比Hiseq 2000的Lane要短,数据产量也略低于高通量模式的2条Lane。

              Hiseq 2500快速模式的试剂也有所改进。

速度提升:

              Hiseq高通量模式,PE100,双Flowcell,11天完成测序。数据量每Flowcell在270G PF data以上。

              Hiseq快速模式,PE100,双Flowcel,27小时完成测序。数据量每Flowcell在50G PF data以上。

              数据质量提升:

              在快速模式下,Hiseq机器可以更快地拍完一个cycle的所有照片,也就是每个cycle的用时更少。SR50可以在半天内测完,PE100可以在一天半内测完。这明显比原来的3天(SR50)、11天(PE100)要快得多。

              在速度加快的同时,还带来质量的提升。因为Hiseq测序过程中SBS试剂的两个主要的成份:酶和荧光剂都是不稳定的,或者说是在融化后(原来是冰冻的)荧光剂随时间延长而不断降解的,酶是逐渐失活的。为此Hiseq还为试剂准备了4度冰格,以减慢其降解。原来的Hiseq 2000要走11天,现在2天完成,这带来了明显的测序质量提升。

              实测哺乳类动物的基因组DNA文库, Q30比例可达85%以上,甚至更高(90%以上)。

              测序长度提升:

而且因为测序质量的提升,也带动测序长度的提升,目前Illumina官方支持的Hiseq 2500的测长是PE 2*150。

特别需要注意的,Illumina目前不直接提供PE150的试剂,客户要用1*PE Cluster kit + 1*PE100 SBS kit + 2*SR50 SBS kit合起来,才能测PE150。

一次测更多文库:

Hiseq 2500的快速模式试剂直接支持双Index测序模式:

双Index是指两个接头各有一个Index。这样两套Index排列组合,一个Lane里可以放更多的文库。目前Illumina官方试剂是支持96个排列组合( 12*8 = 96),这对充分利用Hiseq平台巨大的测序数据产量有很大的帮助。原来的单Index是支持单侧24种Index。

这与Hiseq PE100高通量模式标准PE100试剂只能测单Index。当然,Hiseq2000b也可以测双Index,但是用4个50 cycles SBS kit(每Kit保证58个cycles)拼起来(58*4=232),才可以保证有足够的SBS试剂量,因为双Index会实际需要216 cycles,这超过了200 cycle SBS试剂可以保证的cycle数。

仪器操作更方便:

Hiseq 2500快速模式可以直接在Hiseq仪上进行Cluster生成,这大大节约了先要在cBOT上生成Cluster,再要将Flowcell从cBOT上移到Hiseq的麻烦。

但是请注意,如果直接在Hiseq 2500上生成cluster,两条Lane就只能上一种预混合文库,而不能象原来的Hiseq 2000上那样,两条Lane物理分开。也就是说预混合文库中的Index一定是要分得开的才行。

当然,快速模式也可以还用cBOT生成cluster,但是那要另外买一个编号为CT-402-4001(全名:TruSeq® Rapid Duo cBot™ Sample Loading Kit )的试剂盒,这个试剂盒要好几百美元。

试剂操作更方便:

Hiseq 2500快速模式的试剂是做成Master Mix的,也就是酶、Buffer、荧光dNTP等都预先混合好了,一大管,拿来一化冻就可以用,很方便。这与高通量模式试剂把酶、荧光dNTP分几管的模式是不一样的,高通量模式的试剂因为是分管的,所以使用之前还要人工再混合,这样会多占用一点人工。

Hiseq 2500仪器更贵:

据公开资料,Hiseq 2500的报价比Hiseq 2000的贵5~8万美元(不同国家略有差异)。Hiseq 2500的美国报价是74万美元,Hiseq 2000的美国报价是69万美元。

快速模式的试剂更贵:

把试剂的价格分摊到其所产生的每个G的数据,快速模式的大约贵了15~40%。

Hiseq 2500的两个机位同时只能运行一种模式:

Hiseq 2500在一台机器的两个机位同时只能跑同一种模式,也就是要么都跑快速模式,要么都跑高通量模式,而不能一个机位跑快速模式,另一个机位同时跑高通量模式。

之所以HiSeq做成2个测序机位,就是因为当机位A在进行一个cycle的化学、酶学反应时,机位B正好进行扫描,两个动作交错进行。

因为高通量模式与快速模式扫描一个cycle所需的时间不同。所以快速模式无法与高通量模式达到步调协调,所以不能同时操作。

HiSeq 2500提供了更多可选的rapid测序模式,包括:

  1. SR50

  2. SR100

  3. PE100

  4. PE150

当然SR50、SR100、PE100模式用HiSeq 2000的高通量模式也是可选的。但是在实践中,因为很少有机会一次凑足足够的SR50、SR100样本(也许是96个),所以用高通量模式来测SR50、SR100的机会并不多。

9.   问:Illumina、Roche 454、Life Ion Torrent、SOLID和PacBio的高通量测序仪的优缺点是什么?

答:Illumina的测序仪的数据产量高,数据质量也是最高的。因为采用带终止基团的荧光dNTP,所以在测Homopolyer(碱基同聚物,例如一串4个T:TTTT)等的时候,不会产生移码错读。

               Ion Torrent,包括PGM和Proton,采用测量DNA合成过程中所释放的氢离子引起的PH值的变化,来得到序列。优点是速度最快,上机前约3~4天的时间,上机只要2~4个小时。

Roche 454采用的是pyrosequencing的测序原理,通过荧火虫酶水解DNA全成过程中所产生的焦磷,放出光,通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。目前Illumina推出了Miseq PE300的试剂盒,有效测长可以达到550Bp,单个flowcell的测序成本只有454的1/3,数据产量大了20倍以上,质量更高,操作更方便,可以完全替代454了。

               SOLID采用的是杂交,连接反应,再测荧光的方法。因为杂交,所以速度慢,测长较短(最长曾到PE75)。现在事实上已被淘汰。

              PacBio是三代测序,也就是单分子测序。目前的情况是测序长度可以在1个KB以上,而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低,目前的测序准确度只有每个碱基80~90%。另一方面通量较小,一次读7万条reads.

10.  问:Illumina测序过程中,Multiplex index之间会有多少交叉的污染?

答:我们曾经专门做过实验,用4个亲缘关系很远的物种的DNA,用4个index标记,进行测序。测序之后进行基因组比对,发现每种index之内会有0.02~0.03%的reads是别的物种的。也就是说因为Multiplex index引入的交叉污染,会以0.02%上下的比例存在。

              这主要是由化学合成index oligo过程中的误差引起的。根据我司的引物合成专家的经验,即使经过HPLC的纯化,oligo中还是会有0.5~1%甚至更高的错的引物。现在的0.02%的污染率,已经是很低了。

11.   问:Hiseq和Miseq都可以做双index测序吗?

答:Miseq是天生就可以做双index测序的。

              HiSeq 2500的快速模式,如果测PE100,则天生是可以测双index的。

Hiseq 2000 PE100要做双index测序。需要多测7个cycle的碱基。而标准的200 cycles SBS的试剂量是不能够保证这多测的7个cycle的。所以要用4个50 cycles SBS(每个大约能够测70个cycles)合在一起来测。会加收9500元。

一张Flowcell中,只有要一个Lane是双Index的,就会需要所有的Lane都以双Index的方式测序。但是一张Flowcell只加收一个9500元。也就是说如果一张Flowcell有多个Lane是双index的,只收取一个9500元。

12.   问:HiSeq可以测Dual Primer(两侧的测序引物不同)吗?

答:HiSeq可以测Dual Primer,但是要另外加试剂。一是加Dual index试剂(详见前一个问题),二量加Dual Primer试剂。

在Nextera方法建库中,文库两端的针对Barcode的测序引物序列是不一样的,这就需要不同的测序引物。

所以,在测的时候要加一个试剂盒:Truseq Dual Index Sequencing Primer Box(下称Dual Primer Box)。

              这个试剂盒将作用于一整个Hiseq 2000的Flowcell,也就是说无论一张Flowcell中有几条Lane是双index的,只要其中有一条Lane是双index的,就需要用一个Dual Index Box.

              我们对一个Dual Primer Box, 收取1100元人民币的费用。

              Dual Index Box中主要是新加的测第2条Index的引物。

13.  问:是否可以提供Q-PCR文库质检?

答:可以提供。

但是,因为Q-PCR会要求每次做6个浓度点的曲线,并且每个点做3个复孔。再加上用Q-PCR仪,也需要占用一定的产能,所以Q-PCR文库质检是另外收费的。

-------------------------------------

【陈巍学基因】专注传递基因组学、临床基因诊断的最新资讯。

1. 关注我:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多