生物_医药_科研 / 待分类 / 转录组表达量归一化方法的介绍

分享

   

转录组表达量归一化方法的介绍

2019-02-23  生物_医药...


对基因或转录本的read counts数目进行标准化(normalization)是一个极其重要的步骤,因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。可以这样理解,一个基因越长,测序深度越高,落在其内部的read counts数目就会相对越多。因此若是单纯以比对到参考基因的reads数来衡量基因的表达量,在统计上是一件不合理的事。因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表达量。随着测序技术的发展多种归一化算法也应运而生,最常用的有FPKM,RPKM,TPM,SRPBM等,今天就带大家一起了解下他们之间的区别。


FPKM、RPKM、TPM以及SRPBM概念


(1)RPKM : (Reads Per Kilobase per Million mapped reads)

RPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))


RPKM代表每百万reads中来自于某基因每千碱基长度的reads数,Ali Mortazavi等人在2008年提出以RPKM估计基因的表达量[1]。

total exon reads:某个样本比对到特定基因的外显子上的所有的reads

mapped reads (Millions) :某个样本的所有reads总和

exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)

下面以一个简化的例子来说明RPKM概念的应用:

假设一个物种只有2个基因,一个9KB,一个1KB,一个样本其中比对到9KB基因上的reads数是18 millions,比对到1KB基因上的reads数是2 millions,下图所示:

对于9KB的基因:

total exon reads = 18 million

mapped reads = (18+2) million

exon length = 9 KB

那么,RPKM = 18/(18+2) * 9 =0.1

同理:对于1KB 的基因,RPKM=2/(18+2) * 1 = 0.1

在 RNA-Seq 实验初期,RPKM 方法为研究人员提供了一种进行基因表达水平的量化标准,但 RPKM 方法存在着以下局限性:(1)以读段在基因上的均匀分布为前提,这在 RNA-Seq 实验结果中是不现实的;(2)没有考虑跨间接结合区的读段,这种读段是带有大量转录本信息的,把这种读段当做普通读段,处理方法过于粗糙;(3)无法计算剪切异构体的表达水平,但大多数基因都是剪切异构体数目大于1个的。


(2)FPKM:(Fragments Per Kilobase per Million mapped reads)

FPKM= total exon fragments/ (mapped reads (Millions) * exon length(KB))

FPKM意义与RPKM极为相近。二者区别仅在于Fragment与Read。RPKM的诞生是针对早期的SE测序,FPKM则是在PE测序上对RPKM的校正[2]。只要明确Reads和Fragments的区别,RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段。在SE中,一个Fragments只测一条Reads,所以Reads数与Fragments数目相等;在PE中,一个Fragments测两端,会得到2条Reads,但由于后期质量值或比对的过滤,有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。总之,对某一对Reads而言,这2条Reads只能算一个Fragments,所以,Fragment的最终数目是Reads的1到2倍之间。在Paired-end 测序中,一个fragment就是两条PE reads构成的片段。由于是PE比对,理论上比SE比对更可靠[3]。


(3)TPM:(Transcripts Per Million reads)

TPM={( nr/Lr )*106 } / sum( nr/Lr+……..+ nm/Lm )

TPM:即每百万reads中来自于某转录本的reads数[4]

nr:比对到目标基因上的read数

Lr:目标基因的外显子长度的总和

TPM:先对每个基因的read数用基因的长度进行校正,之后再用校正的基因read数(nr/Lr)与校正后的该样本的所有校正后的read数(sum( nr/Lr+. . . + nm/Lm ))求商。没错!TPM不是除以有效比对的read总数,而是除以经过基因长度归一化后的有效比对的read总数,即归一化后的测序深度。因此,在计算不同样本的基因表达量比较时TPM是更加准确的统计量。

TPM和FPKM一样,都对基因长度和测序深度进行了均一化。但不同的是,FPKM是先对测序深度进行均一化,然后对基因长度进行均一化;而TPM正好相反。TPM的均一化过程使得不同样本中的总表达量一致,这样可以更直观地进行表达量的比较。


(4)SRPBM:(spliced reads per billion mapping):

SRPBM = number of circular reads/(number of mapped reads (units in billion) * read length)

number of circular reads:是指比对到目标基因上back-splicing reads

number of mapped reads (units in billion):该样本比对到的所有reads

read length: 每条reads的长度

SRPBM归一化只适用于circRNA的分析,由于circRNA是由反向剪接而形成的一类不具有5' 末端帽子和3' 末端poly(A)尾巴的环状RNA分子。circRNA鉴定最关键的原理是寻找反向剪接的reads,即back-splicing reads。目前,对于绝大多数的circRNA而言都无法获得其完整的序列,因此只能用circRNA的back-splicing位点处的junction reads来计算其表达量,采用SRPBM对reads进行归一化处理[5-6]。


如何选择归一化方法呢


TPM归一化结果与样本无关,各个样本都可以保证TPM和是一样的;但实际上用stringtie计算出来的每个基因在每个样本中的FPKM和TPM是差不多的,故而很多人都会用FPKM或者RPKM来比较同一个基因在不同样本间的表达值。

Alicia Oshlack等[7]提出了有很多可用的方法和工具进行预处理高通量RNA-seq数据和检测差异表达。如TMM(edgeR)与Deseq类似,在去除高表达基因和差异最大的基因后,TMM也是要找到一个加权系数,使剩余的基因在被矫正后差异倍数可能小。TMM的加权系数是基于两两样本比较后推算获得的。然后将所有基因除以这个加权系数,从而保证大部分表达量居中的基因表达量最相似。 

statQuest视频也有许多分析软件以及分析方法的选择,如TPM更适合比较同一基因在不同sample间表达丰度的差异;DESeq2和edgeR不用RPKM、FPKM或TPM做均一化,而是直接用原始的read counts做均一化处理;测序深度的差异问题,用RPKM、FPKM、TPM、DESeq2和edgeR都能处理;如果不是生物学重复的RNA-seq结果,不能做t-test分析而RNA测序reads分布符合负二项分布,不建议采用RPKM或者FPKM直接比较寻找差异表达基因,而是利用基于负二项分布模型的软件(如DESeq和edgeR),用原始的可比对的reads数进行计算(来自statQuest视频)。

正如任何的高测序通量技术一样,分析方法对解释数据是至关重要的,而RNA-seq分析过程一直在不断演变。因此,应该根据研究方向综合选择合适的方法。


参考文献

1.Mortazavi A, et al. Mapping and quantifying mammalian transcriptomes by RNASeq. Nat Methods, 2008;5(7):621-628.

2.Trapnell C, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol, 2010;28(5):511-515.

3.Wagner G P, Kin K, Lynch V J. Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory Biosci, 2012;131(4):281-285.

4.Vera Alvarez R , Pongor L S , Mariño-Ramírez, Leonardo, et al. TPMCalculator: one-step software to quantify mRNA abundance of genomic features[J]. Bioinformatics, 2018.

5.Zheng Q, Bao C, Guo W, et al. Circular RNA profiling reveals an abundant circHIPK3 that regulates cell growth by sponging multiple miRNAs[J]. Nature Communications, 2016, 7(11215).

6.Jeck W R, Sorrentino J A, Wang K, et al. Circular RNAs are abundant, conserved, and associated with ALU repeats [J]. RNA, 2012, 19(2):141-157.

7.Alicia O, Mark D R, Matthew D Y. From RNA-seq reads to differential expression results.Genome Biology , 2010, 11:220.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>