分享

高通量测序,测几个G?为啥?

 kibcat 2023-11-13 发布于美国
《测序数据量》
测序数据量也被称为下机数据量,通常测序数据量的单位都是用“G'表示,例如1G。(多嘴:这里所说的G[碱基数Gbase,Gb]和文件在硬盘上的大小G[gigabyte,GB]不是一回事)
1G=10^3 M,1M=10^3 kb,1kb=10^3 byte(1个碱基=1 byte)
所以,1G的数据量=10^9=10亿个碱基。
ImageM:用于描述reads数,G:用于描述本次测序获得的碱基总数。
测序公司给你的文件通常是压缩的fastq格式,里面有read ID号,有碱基,有每个碱基的质量。
上述提到的Reads指的是高通量测序仪一次测序所获得的碱基序列,由一连串碱基ATCGATCG等构成,它并不是基因组的组成部分。不同的测序仪器,reads长度也有所不同。
那么
为什么不同的测序仪器,reads长度也有所不同?
因为二代测序的读长能力是有限的。二代测序基本上都是基于DNA聚合酶的延伸将带有荧光基团的dNTP加到模板上,通过一个个的互补配对将序列依次读取出来。Illumina和华大测序仪都是相同原理。
在延伸了一段时间后,聚合酶的活力就会大大降低,错误率也会越来越高。当错误率高到不可容忍的时候,就必须停止测序反应。所以就有了陆续推出的单端SE50、SE100、SE150、SE250以及双端的PE50、PE100、PE150、PE300,也就意味着,测序仪可以控制读取长度的,仪器会顺着DNA一个碱基一个碱基的读取,在机器开始测序前,可以设置读取的循环数,例如100Cycle.那么NGS测序仪就会读取100个碱基,即SE100。    
但是目前来讲,由于自身方法的局限性(包括酶的失活,阻断基团切割的效率等等都会导致测序质量随着测序长度不可逆地降低)仍然难以突破。这也就是二代达不到一代测序的长度,更不可能到三代的长度。
所以
文库的构建,插入长度(insert length, ins_length)要限制在一定范围内(300~500bp),当然这时候片段长度仍具有随机性,也不能100%保证。
以PE150来说:
1、对于长于300bp的序列,无法测通,会给出序列两端长150bp的reads,中间没有overlap;
2、对于150-300bp的序列,可以测通,会给出序列两端长150bp的reads,中间有overlap;
3、对于短于150bp的序列,它会测到头没了,这时候再拍照这个地方是黑的,怎么办?测序仪会记录为N或者连续的A/G,所以一些reads的末尾全是N(也即无法确定有效碱基)。这时候仍会给出两个长度150bp的reads,双末端的reads去掉末尾N是反向互补的。
测序数据量是怎么来的
在基因组层面上,测序主要可以分为三大类:全基因组测序(whole-genome sequencing,WGS)、全外显子组测序(whole-exome sequencing,WES)、靶向测序(targeted sequencing或panelsequencing)。    
Image
各检测方案示意图(Klein CJ.et.al. Mayo Clin Proc.2017)
首先明确三个概念
Image
其一测序深度(Sequencing depth)
指测序得到的碱基总量(bp)与目标基因组大小的比值,即测序深度=数据量大小 / 目标基因组大小。
或者理解为目标基因组区间内中每个碱基被测序到的平均次数,如测序数据量为1G,测序的基因组大小为1M,那么测序深度为1G/1M=1000×。
其二测序覆盖度(Sequencing coverage)    
指测序获得的序列占整个基因组的比例。或者可以理解为目标基因组上至少被检测到1次的区域(或者是碱基),占整个基因组的比例。         
    由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。         
    测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。
其三捕获效率(Capture efficiency)
指的是比对到参考基因组中目标区域的数据量占比对到参考基因组上总数据量的比例。捕获效率越高,说明有效数据比例高。
比如一个Panel大小为3M,测序共产出3G数据。对于Panel大小大于1M的文库来说,捕获效率往往在60%左右,也即测序得到的数据有60%是所需的数据,则在目标区域的数据为3G*60%=1.8G。粗略计算测序深度=1.8G/3M=600乘(X)。所以,对于对于这个Panel大小为3M,数据产出为3G的文库来说,测序深度大概为600乘。这个测序深度指的是原始平均测序深度。
Image
确定了测序深度,测序数据量就很好计算了。数据量大小=测序深度*基因组大小。    
一般来说,若是针对人的WGS,常规测序数据量是90G,测序深度30x;WES的话,则是10G,测序深度100x;靶向测序的话,视panel大小、测序深度等而定。那么,问题来了:为什么是90G或10G?测序深度又为什么是30x或100x?......
人体基因组的大小约为30亿个碱基对,即3000Mbp。通过单位换算,就是3G。
人体全外显子组大约30M,约占全基因组的1%。
Image
人体约有39000多个基因,平均的基因大小有27kbp。
问题1:人WGS的测序数据量为什么是90G,测序深度30x?
回答:WGS的目的是准确检测个体间的变异情况,寻找变异与疾病及表型之间的关系。因此,变异的精确度和灵敏性成了检测变异的两个重要的指标。由于测序存在着不可避免的系统错误,每一个位点只有在足够的reads支持下才能确保正确性。
在SNP calling(识别)中,检测出一个SNP位点最起码需要4条reads。4X以上的平均测序深度是数据量是否足够的一项重要指标。在30X的时候,大于4X的比例达99.21%,并趋于饱和,与覆盖度接近。
基于此,若要进行人的WGS,测序数据量就是30x*3G=90G。
              
问题2:人WES的测序数据量为什么是10G,测序深度100x?
对于WES而言,在建库过程中需要通过杂交捕获步骤得到外显子序列。常用的外显子组探针如Aglient V6,捕获效率介于60%~70%之间,探针大小为60M。为了保证大部分的区域有足够的覆盖倍数,需提高测序深度。研究显示,WES想要获得与WGS相同的覆盖范围,覆盖89.6-96.8%的目标碱基,需要测到80x。一般建议测序深度达到100x。所以WES测序数据量=100x*60M/60%=10G。
总的来说
Image
其中,panel测序有两种技术原理:杂交捕获测序和多重扩增子测序。全外是基于序列杂交原理实现的。
          
参考
二代测序的读长为什么是固定的?- 知乎 (zhihu.com)    
Klein CJ, Foroud TM. Neurology Individualized Medicine: When to Use Next-Generation Sequencing Panels. Mayo Clin Proc. 2017 Feb;92(2):292-305. doi: 10.1016/j.mayocp.2016.09.008. PMID: 28160876.
生信路漫漫 | 测序数据量是怎么来的?- 知乎 (zhihu.com)
全外测序(WES) - 知乎 (zhihu.com)    

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多