分享

基因测序之数据类常见名词解释

 Cheximing 2024-05-10 发布于上海
测序技术迄今为止已发展了三代,测序技术有4个指标:读长、成本、准确度、通量
成本、准确度这两项指标都很好理解,成本下降使得单个人类基因组的花费已经从2001年的1亿美元下降到了1000美元以下。准确度则是测序结果的准确程度,例如二代测序的可以达到99.9%,而三代测序错误率较高在10%-15%之间。
读长指的是测序反应所能测得序列的长度,如果DNA序列长度高于读长,那么必须把DNA序列分割成长度在读长以内短序列才能测序。一代测序双脱氧链终止法(Sanger法)的读长是1000bp,二代测序较低为50bp-600bp,三代可以达到Kbp以上,最长读长,如nanopore,甚至能达到Mb,较长的读长也正是三代测序最大的优势所在。
通量指的是单位时间内所能产生的数据量,这是一个测序速度、测序数量的综合体现。二代测序的效率大幅提升,不仅在于测序速度的提高,更重要的是能同时对几百万条序列进行测序,这也就是二代测序的别称高通量测序(NGS)的由来,因此也带出来reads的概念。
科学与时代一起进步,测序技术的发展带来了基因组学的革命。综合这些测序技术,我们不难看出测序技术一直向着成本越来越低、通量越来越大、速度越来越快的方向稳定发展着。测序成本、读长的长度和测序的速度以及通量一直是评价测序技术先进与否的重要衡量标准。而测序成本往往在一定程度上决定了这个技术在基因组测序应用中是否会得到普及。如今,广泛使用的二代三代测序技术所需要的测序成本已经比较低了。测序数据读长定义为测序得到的片段长度, 它的大小将深刻的影响后续对于所测数据的序列拼接质量的好坏和难易。更长的序列读取长度意味着可以为后续的基因组装工作减负,而测序技术在追求更长的序列读长的同时却难免出现测序错误的增加情况。测序通量是指一定时间内可以测序得到的数据量。更高的测序速度一定程度上能够降低测序时间成本、提高工作效率。
下面就对测序中经常出现的常用名词做一个整理: 
测序数据量:
常见的测序量概念有M和G:
M常用于描述reads的数量,如10M就是10^6条reads。
G常用于描述测序的碱基数量,也就是数据量,如10G就是10^9个碱基。
reads和数据量之间的关系与换算:
比如说对于3G测序量的理解:
3G指有 3*10^9 个碱基,假如采取illumina的PE150测序,即150bp双端测序,算有多少M测序量的公式为 3*10^9 / 150 / 2 =10 M
测序深度 = 测序得到的碱基总个数 / 参考基因组大小
比如说对于30G测序量的人类基因组测序深度是多少?(人类参考基因组3G)
测序深度 = 30*10^9 / 3*10^9 =10X
测序覆盖度:测序获得的序列占整个基因组的比例

测序深度

覆盖率

SNP检出率

研究目的

6-10X

90%-99%

70%-90%

群体结构,群体选择分析等等

30X

99.9%-100%

95%-99%

个体基因组信息

50X

99.9%-100%

>99%

癌细胞样本测序、突变频率的研究类型

PE reads:即paired-end reads。reads(读长)是高通量测序中一个反应获得的测序序列。

在测序过程中,一条DNA分子的两端都可以测序.先测其中的一端,获得一个reads,然后再转到另一端测序,获得另外一个reads,得到的这两个reads就是PE reads。 

测序中的Q20,Q30:基因高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。20的错误率为1%,30的错误率为0.1%。行业中Q20与Q30则表示质量值≧20或30的碱基所占百分比。例如一共测了1G的数据量,其中有0.9G的碱基质量值大于或等于20,那么Q20则为90%。

Q20值是指的测序过程碱基识别(Base Calling)过程中,对所识别的碱基给出的错误概率。

质量值是Q20,则错误识别的概率是1%,即错误率1%,或者正确率是99%;

质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%;

质量值是Q40,则错误识别的概率是0.01%,即错误率0.01%,或者正确率是99.99%;

概念

英文

解释

序列数

reads

通常在检测报告中显示的序列数为该物种属或种特异序列条数

原始数据

Raw data

一次测序产生的没有经过任何过滤的全部测序结果称为原始数据。高通量测序下机的原始数据经信号转换后得到含常规碱基(A、T、C、G等)及对应碱基测序质量信息的数据,通常包括接头序列、标签序列、测序数据,以fastq格式存储。

可用数据

Clean data

可用数据是原始数据经过处理得到的直接用来分析的数据。原始序列数据经质量过滤,去除接头序列、标签序列后,得到的可用于比对的序列称为可用数据,包含人源及微生物序列。

soft-clipped reads

soft-clipped reads

当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

multi-hits reads

multi-hits reads

由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。

Contig

Contig

拼接软件基于reads之间的重叠(overlap)区,拼接获得的序列称为Contig(重叠群)。(由reads通过对overlap区域拼接组装成的没有gap的序列段)

Contig N50

Contig N50

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...„„„Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。可以作为基因组拼接的结果好坏的一个判断标准。

Contig N90

Contig N90

概念与N50的类似,即当相加的长度达到Contig总长度的90%时,最后一个加上的Contig长度即为Contig N90。N50或者N90是衡量基因组质量的一个重要指标。

Scaffold

Scaffold

多个contigs通过片段重叠,组成一个更长的scaffold,基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

Scaffold N50

Scaffold N50

Scaffold N50与Contig  N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1 Scaffold 2 Scaffold 3 Scaffold 4 Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

Scaffold N90

Scaffold N90

ScaffoldN90的概念与N50的类似,即当相加的长度达到Scaffold总长度的90%时,最后一个加上的Scaffold长度即为Scaffold N90。N50或者N90是衡量基因组质量的一个重要指标。

条形码

Barcode

因为在测序过程中往往是多个样本一起测序,所以Barcode的作用就是区分测序产生序列到底是来源于哪一个个体;另外,10X  Genomics在测序过程中也用到了Barcode,其作用是区分测序产生的序列是否来源于同一个大片段,更加有利于组装成更高质量的基因组。

基因组注释

Genome annotation

利用生物信息(bioinformation)学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学(functional  genomics)研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

K-mer

K-mer

k-mer是指将reads迭代分成包含K个碱基的序列,一般长短为L的reads可以分成L-K 1个k-mers,一般用于基因组从头组装前的基因组调查,评估基因组的大小。基因组大小可以由(总 K-mer 数量)/(K-mer 期望测序深度)来估计,通常以 ==K-mer 分布曲线的 主峰深度==作为期望测序深度。

RPKM

RPKM

Reads Per Kilobases per  Millionreads,代表每百万reads中来自于某基因每千碱基长度的reads数,用于表示基因的表达量。其计算公式为:

图片

FPKM

FPKM

 FPKM代表每千个碱基的转录每百万映射读取的碎片。两者就是分子不同,RPKM分子是reads,FPKM分子是fragment。

图片

物种相对丰度

relative species abundance

指注释到该物种的序列数占样本中所有微生物总序列数的百分比。

物种绝对丰度

absolute species abundance

指注释到该物种的序列数占总数据量的百分比。

基因/基因组覆盖度

Coverage

指测序获得的序列与某物种的参考基因/基因组进行比对,序列覆盖的区域占基因/基因组总区域的比例。

测序深度

depth

将能与基因/基因组比对上的序列碱基数累加并除以基因/基因组被覆盖区域的总长,即为平均测序深度。

序列比对

aligment

将两条或者两条以上的 DNA 序列进行匹配,确定最优相似性的过程称为比对。一般分配对序列比对和多序列比对,是mNGS分析和物种鉴定的基础。

微生物参考基因组数据库

reference genome database

包括临床级微生物数据库、全球微生物数据中心、基因组分类学数据库、综合微生物基因组数据库和特定物种基因组数据库。

人源参考基因组数据库

human reference genome database

包括 Human GRCh37/hg19 和 Human GRCh38/hg38 基因组数据库和其他人源比对基因库。

     Masking

Masking

将一段DNA序列中的ATGC(通常是重复序列或者低质量序列)转换成无信息的字母N或者小写的atgc,通常在基因组注释的过程中会用到这一概念。

       Gap
Gap由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap
图片
END

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多