目录
视频:高通量测序原理 综合技术 1. 问:什么是Q30? 答: Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。 Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。 目前Illumina平台的测序数据一般可以达到70~80%以上的Q30比例。Ion Torrent PGM可以达到80%以上的Q20比例。 2. 问:测序数据的PF data/PF reads是什么意思? 答: PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。 对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。 PF是国际公认的质检标准。 3. 问:你们给的数据是什么质量的? 答:对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质是Q30的比例高于80%。 一般情况下:
4. 问:测序中的Duplication是什么,如何避免,一般会有多少Duplication? 答:所谓Duplication是指起始与终止位置完全一致的片段。 引起Duplication的主要原因是因为在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。 一般通过控制PCR的循环数来控制Duplication。我们一般控制PCR的循环次数在10~12个循环。 在外显子测序中,如果用illumina的捕获试剂盒Duplication的比例约为10%;如果用Nimblegen的捕获试剂盒,Duplication的比例在5%左右;Agilent的捕获试剂,也大约在5%左右。 未来,引入PCR-free的建库方法后,可以完全解决Duplication的问题。 在RNA-seq中,Duplication的比例约为40%。RNA-seq中,因为高丰度的mRNA集中在几个基因上,集中度很高,所以Duplication的比例也就高。 5. 问:测序的插入片段一般是多长? 答:测序的插入片段一般是100bp到600bp。 因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长,测桥式PCR产生的Cluster就会太大,而且光强也会减弱。所以插入片段的长度是有限制的。 对于为了拼接基因组,要做跨度很长的文库,建议构建Mate Pair(MP)文库。青岛生物能源与过程研究所的徐建先生是构建MP文库的专家,他们构建一个10Kb长的插入片段的文库的公开收费是1.5万元人民币。徐建的联系方式: 0532-80662651,xujian@qibebt.ac.cn。 6. 问:PhiX文库有什么用? 答: PhiX文库是一种用病毒基因组做的文库。其基因序列已精确知晓,GC比例约为45%,与人类、哺乳类的基因组的GC比例接近。其基因序列又与人类的基因序列相去甚远,在与哺乳类基因组一些测序时,可以轻松地通过基因序列比对而将之去除。 在测四种碱基不平衡(A、G、C、T四种碱基的含量远远偏离25%)的样本时,可以加入大量的PhiX文库,以部分抵消样本的不平衡性。例如ChIPed DNA测序,或者亚硫酸氢盐处理过的DNA文库,或者扩增子测序(PCR样测序),都可以加入PhiX,以部分弥补碱基不平衡性。 也可以少量地(比如1%的比例)加入测序,以作为control library来验证测序质量。 PhiX文库没有Barcode,在测序完成后的分Barcode(demultiplex)过程中,会被归在Undetermined数据中。 7. 问:Hiseq和Miseq有什么差别? 答: Hiseq 2000的测序数据产量很高,一条Lane一次可以产生35G或更多的数据,一张Flowcell可以产生约300G以上的数据。但是测一次高通量模式的PE100测序要9~11天的时间。所以较慢。 Hiseq 2500的一张PE100 Flowcell可以给出60G的Q30数据,测序本身是一天半时间,可以快速地以较高的通量给出高质量的测序数据。 Miseq的测序数据产量低,一次可以产生5G~15G的数据。但是测长可以做到较长,目前可以测300*2。而且测序的速度非常快,一般一到三天就可以测完一张Flowcell。 8. 问:Hiseq 2000和Hiseq 2500有什么差别? 答:Hiseq 2500是Hiseq 2000的升级版。 其主要的改进点是:Hiseq 2500可以在快速、高通量两种模式之间切换。高通量模式就是原来的Hiseq 2000的每张Flowcell有8个Lane的模式。 Hiseq 2500的快速模式,核心的改进是用2个Lane的Flowcell来测序,而且这种快速Flowcell的Lane比Hiseq 2000的Lane要短,数据产量也略低于高通量模式的2条Lane。 Hiseq 2500快速模式的试剂也有所改进。 速度提升: Hiseq高通量模式,PE100,双Flowcell,11天完成测序。数据量每Flowcell在270G PF data以上。 Hiseq快速模式,PE100,双Flowcel,27小时完成测序。数据量每Flowcell在50G PF data以上。 数据质量提升: 在快速模式下,Hiseq机器可以更快地拍完一个cycle的所有照片,也就是每个cycle的用时更少。SR50可以在半天内测完,PE100可以在一天半内测完。这明显比原来的3天(SR50)、11天(PE100)要快得多。 在速度加快的同时,还带来质量的提升。因为Hiseq测序过程中SBS试剂的两个主要的成份:酶和荧光剂都是不稳定的,或者说是在融化后(原来是冰冻的)荧光剂随时间延长而不断降解的,酶是逐渐失活的。为此Hiseq还为试剂准备了4度冰格,以减慢其降解。原来的Hiseq 2000要走11天,现在2天完成,这带来了明显的测序质量提升。 实测哺乳类动物的基因组DNA文库, Q30比例可达85%以上,甚至更高(90%以上)。 测序长度提升: 而且因为测序质量的提升,也带动测序长度的提升,目前Illumina官方支持的Hiseq 2500的测长是PE 2*150。 特别需要注意的,Illumina目前不直接提供PE150的试剂,客户要用1*PE Cluster kit + 1*PE100 SBS kit + 2*SR50 SBS kit合起来,才能测PE150。 一次测更多文库: Hiseq 2500的快速模式试剂直接支持双Index测序模式: 双Index是指两个接头各有一个Index。这样两套Index排列组合,一个Lane里可以放更多的文库。目前Illumina官方试剂是支持96个排列组合( 12*8 = 96),这对充分利用Hiseq平台巨大的测序数据产量有很大的帮助。原来的单Index是支持单侧24种Index。 这与Hiseq PE100高通量模式标准PE100试剂只能测单Index。当然,Hiseq2000b也可以测双Index,但是用4个50 cycles SBS kit(每Kit保证58个cycles)拼起来(58*4=232),才可以保证有足够的SBS试剂量,因为双Index会实际需要216 cycles,这超过了200 cycle SBS试剂可以保证的cycle数。 仪器操作更方便: Hiseq 2500快速模式可以直接在Hiseq仪上进行Cluster生成,这大大节约了先要在cBOT上生成Cluster,再要将Flowcell从cBOT上移到Hiseq的麻烦。 但是请注意,如果直接在Hiseq 2500上生成cluster,两条Lane就只能上一种预混合文库,而不能象原来的Hiseq 2000上那样,两条Lane物理分开。也就是说预混合文库中的Index一定是要分得开的才行。 当然,快速模式也可以还用cBOT生成cluster,但是那要另外买一个编号为CT-402-4001(全名:TruSeq® Rapid Duo cBot™ Sample Loading Kit )的试剂盒,这个试剂盒要好几百美元。 试剂操作更方便: Hiseq 2500快速模式的试剂是做成Master Mix的,也就是酶、Buffer、荧光dNTP等都预先混合好了,一大管,拿来一化冻就可以用,很方便。这与高通量模式试剂把酶、荧光dNTP分几管的模式是不一样的,高通量模式的试剂因为是分管的,所以使用之前还要人工再混合,这样会多占用一点人工。 Hiseq 2500仪器更贵: 据公开资料,Hiseq 2500的报价比Hiseq 2000的贵5~8万美元(不同国家略有差异)。Hiseq 2500的美国报价是74万美元,Hiseq 2000的美国报价是69万美元。 快速模式的试剂更贵: 把试剂的价格分摊到其所产生的每个G的数据,快速模式的大约贵了15~40%。 Hiseq 2500的两个机位同时只能运行一种模式: Hiseq 2500在一台机器的两个机位同时只能跑同一种模式,也就是要么都跑快速模式,要么都跑高通量模式,而不能一个机位跑快速模式,另一个机位同时跑高通量模式。 之所以HiSeq做成2个测序机位,就是因为当机位A在进行一个cycle的化学、酶学反应时,机位B正好进行扫描,两个动作交错进行。 因为高通量模式与快速模式扫描一个cycle所需的时间不同。所以快速模式无法与高通量模式达到步调协调,所以不能同时操作。 HiSeq 2500提供了更多可选的rapid测序模式,包括:
当然SR50、SR100、PE100模式用HiSeq 2000的高通量模式也是可选的。但是在实践中,因为很少有机会一次凑足足够的SR50、SR100样本(也许是96个),所以用高通量模式来测SR50、SR100的机会并不多。 9. 问:Illumina、Roche 454、Life Ion Torrent、SOLID和PacBio的高通量测序仪的优缺点是什么? 答:Illumina的测序仪的数据产量高,数据质量也是最高的。因为采用带终止基团的荧光dNTP,所以在测Homopolyer(碱基同聚物,例如一串4个T:TTTT)等的时候,不会产生移码错读。 Ion Torrent,包括PGM和Proton,采用测量DNA合成过程中所释放的氢离子引起的PH值的变化,来得到序列。优点是速度最快,上机前约3~4天的时间,上机只要2~4个小时。 Roche 454采用的是pyrosequencing的测序原理,通过荧火虫酶水解DNA全成过程中所产生的焦磷,放出光,通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。目前Illumina推出了Miseq PE300的试剂盒,有效测长可以达到550Bp,单个flowcell的测序成本只有454的1/3,数据产量大了20倍以上,质量更高,操作更方便,可以完全替代454了。 SOLID采用的是杂交,连接反应,再测荧光的方法。因为杂交,所以速度慢,测长较短(最长曾到PE75)。现在事实上已被淘汰。 PacBio是三代测序,也就是单分子测序。目前的情况是测序长度可以在1个KB以上,而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低,目前的测序准确度只有每个碱基80~90%。另一方面通量较小,一次读7万条reads. 10. 问:Illumina测序过程中,Multiplex index之间会有多少交叉的污染? 答:我们曾经专门做过实验,用4个亲缘关系很远的物种的DNA,用4个index标记,进行测序。测序之后进行基因组比对,发现每种index之内会有0.02~0.03%的reads是别的物种的。也就是说因为Multiplex index引入的交叉污染,会以0.02%上下的比例存在。 这主要是由化学合成index oligo过程中的误差引起的。根据我司的引物合成专家的经验,即使经过HPLC的纯化,oligo中还是会有0.5~1%甚至更高的错的引物。现在的0.02%的污染率,已经是很低了。 11. 问:Hiseq和Miseq都可以做双index测序吗? 答:Miseq是天生就可以做双index测序的。 HiSeq 2500的快速模式,如果测PE100,则天生是可以测双index的。 Hiseq 2000 PE100要做双index测序。需要多测7个cycle的碱基。而标准的200 cycles SBS的试剂量是不能够保证这多测的7个cycle的。所以要用4个50 cycles SBS(每个大约能够测70个cycles)合在一起来测。会加收9500元。 一张Flowcell中,只有要一个Lane是双Index的,就会需要所有的Lane都以双Index的方式测序。但是一张Flowcell只加收一个9500元。也就是说如果一张Flowcell有多个Lane是双index的,只收取一个9500元。 12. 问:HiSeq可以测Dual Primer(两侧的测序引物不同)吗? 答:HiSeq可以测Dual Primer,但是要另外加试剂。一是加Dual index试剂(详见前一个问题),二量加Dual Primer试剂。 在Nextera方法建库中,文库两端的针对Barcode的测序引物序列是不一样的,这就需要不同的测序引物。 所以,在测的时候要加一个试剂盒:Truseq Dual Index Sequencing Primer Box(下称Dual Primer Box)。 这个试剂盒将作用于一整个Hiseq 2000的Flowcell,也就是说无论一张Flowcell中有几条Lane是双index的,只要其中有一条Lane是双index的,就需要用一个Dual Index Box. 我们对一个Dual Primer Box, 收取1100元人民币的费用。 Dual Index Box中主要是新加的测第2条Index的引物。 13. 问:是否可以提供Q-PCR文库质检? 答:可以提供。 但是,因为Q-PCR会要求每次做6个浓度点的曲线,并且每个点做3个复孔。再加上用Q-PCR仪,也需要占用一定的产能,所以Q-PCR文库质检是另外收费的。 ------------------------------------- 【陈巍学基因】专注传递基因组学、临床基因诊断的最新资讯。 1. 关注我: |
|