对基因或转录本的read counts数目进行标准化(normalization)是一个极其重要的步骤,因为落在一个基因区域内的read counts数目取决于基因长度和测序深度。可以这样理解,一个基因越长,测序深度越高,落在其内部的read counts数目就会相对越多。因此若是单纯以比对到参考基因的reads数来衡量基因的表达量,在统计上是一件不合理的事。因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表达量。随着测序技术的发展多种归一化算法也应运而生,最常用的有FPKM,RPKM,TPM,SRPBM等,今天就带大家一起了解下他们之间的区别。 FPKM、RPKM、TPM以及SRPBM概念 (1)RPKM : (Reads Per Kilobase per Million mapped reads) RPKM代表每百万reads中来自于某基因每千碱基长度的reads数,Ali Mortazavi等人在2008年提出以RPKM估计基因的表达量[1]。 total exon reads:某个样本比对到特定基因的外显子上的所有的reads mapped reads (Millions) :某个样本的所有reads总和 exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位) 下面以一个简化的例子来说明RPKM概念的应用: 假设一个物种只有2个基因,一个9KB,一个1KB,一个样本其中比对到9KB基因上的reads数是18 millions,比对到1KB基因上的reads数是2 millions,下图所示: 对于9KB的基因: total exon reads = 18 million mapped reads = (18+2) million exon length = 9 KB 那么,RPKM = 18/(18+2) * 9 =0.1 同理:对于1KB 的基因,RPKM=2/(18+2) * 1 = 0.1 在 RNA-Seq 实验初期,RPKM 方法为研究人员提供了一种进行基因表达水平的量化标准,但 RPKM 方法存在着以下局限性:(1)以读段在基因上的均匀分布为前提,这在 RNA-Seq 实验结果中是不现实的;(2)没有考虑跨间接结合区的读段,这种读段是带有大量转录本信息的,把这种读段当做普通读段,处理方法过于粗糙;(3)无法计算剪切异构体的表达水平,但大多数基因都是剪切异构体数目大于1个的。 (2)FPKM:(Fragments Per Kilobase per Million mapped reads) FPKM= total exon fragments/ (mapped reads (Millions) * exon length(KB)) FPKM意义与RPKM极为相近。二者区别仅在于Fragment与Read。RPKM的诞生是针对早期的SE测序,FPKM则是在PE测序上对RPKM的校正[2]。只要明确Reads和Fragments的区别,RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段。在SE中,一个Fragments只测一条Reads,所以Reads数与Fragments数目相等;在PE中,一个Fragments测两端,会得到2条Reads,但由于后期质量值或比对的过滤,有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。总之,对某一对Reads而言,这2条Reads只能算一个Fragments,所以,Fragment的最终数目是Reads的1到2倍之间。在Paired-end 测序中,一个fragment就是两条PE reads构成的片段。由于是PE比对,理论上比SE比对更可靠[3]。 (3)TPM:(Transcripts Per Million reads) TPM={( nr/Lr )*106 } / sum( nr/Lr+……..+ nm/Lm ) TPM:即每百万reads中来自于某转录本的reads数[4] nr:比对到目标基因上的read数 Lr:目标基因的外显子长度的总和 TPM:先对每个基因的read数用基因的长度进行校正,之后再用校正的基因read数(nr/Lr)与校正后的该样本的所有校正后的read数(sum( nr/Lr+. . . + nm/Lm ))求商。没错!TPM不是除以有效比对的read总数,而是除以经过基因长度归一化后的有效比对的read总数,即归一化后的测序深度。因此,在计算不同样本的基因表达量比较时TPM是更加准确的统计量。 TPM和FPKM一样,都对基因长度和测序深度进行了均一化。但不同的是,FPKM是先对测序深度进行均一化,然后对基因长度进行均一化;而TPM正好相反。TPM的均一化过程使得不同样本中的总表达量一致,这样可以更直观地进行表达量的比较。 (4)SRPBM:(spliced reads per billion mapping): SRPBM = number of circular reads/(number of mapped reads (units in billion) * read length) number of circular reads:是指比对到目标基因上back-splicing reads number of mapped reads (units in billion):该样本比对到的所有reads read length: 每条reads的长度 SRPBM归一化只适用于circRNA的分析,由于circRNA是由反向剪接而形成的一类不具有5' 末端帽子和3' 末端poly(A)尾巴的环状RNA分子。circRNA鉴定最关键的原理是寻找反向剪接的reads,即back-splicing reads。目前,对于绝大多数的circRNA而言都无法获得其完整的序列,因此只能用circRNA的back-splicing位点处的junction reads来计算其表达量,采用SRPBM对reads进行归一化处理[5-6]。 TPM归一化结果与样本无关,各个样本都可以保证TPM和是一样的;但实际上用stringtie计算出来的每个基因在每个样本中的FPKM和TPM是差不多的,故而很多人都会用FPKM或者RPKM来比较同一个基因在不同样本间的表达值。 Alicia Oshlack等[7]提出了有很多可用的方法和工具进行预处理高通量RNA-seq数据和检测差异表达。如TMM(edgeR)与Deseq类似,在去除高表达基因和差异最大的基因后,TMM也是要找到一个加权系数,使剩余的基因在被矫正后差异倍数可能小。TMM的加权系数是基于两两样本比较后推算获得的。然后将所有基因除以这个加权系数,从而保证大部分表达量居中的基因表达量最相似。 statQuest视频也有许多分析软件以及分析方法的选择,如TPM更适合比较同一基因在不同sample间表达丰度的差异;DESeq2和edgeR不用RPKM、FPKM或TPM做均一化,而是直接用原始的read counts做均一化处理;测序深度的差异问题,用RPKM、FPKM、TPM、DESeq2和edgeR都能处理;如果不是生物学重复的RNA-seq结果,不能做t-test分析而RNA测序reads分布符合负二项分布,不建议采用RPKM或者FPKM直接比较寻找差异表达基因,而是利用基于负二项分布模型的软件(如DESeq和edgeR),用原始的可比对的reads数进行计算(来自statQuest视频)。 正如任何的高测序通量技术一样,分析方法对解释数据是至关重要的,而RNA-seq分析过程一直在不断演变。因此,应该根据研究方向综合选择合适的方法。 参考文献 1.Mortazavi A, et al. Mapping and quantifying mammalian transcriptomes by RNASeq. Nat Methods, 2008;5(7):621-628. 2.Trapnell C, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol, 2010;28(5):511-515. 3.Wagner G P, Kin K, Lynch V J. Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory Biosci, 2012;131(4):281-285. 4.Vera Alvarez R , Pongor L S , Mariño-Ramírez, Leonardo, et al. TPMCalculator: one-step software to quantify mRNA abundance of genomic features[J]. Bioinformatics, 2018. 5.Zheng Q, Bao C, Guo W, et al. Circular RNA profiling reveals an abundant circHIPK3 that regulates cell growth by sponging multiple miRNAs[J]. Nature Communications, 2016, 7(11215). 6.Jeck W R, Sorrentino J A, Wang K, et al. Circular RNAs are abundant, conserved, and associated with ALU repeats [J]. RNA, 2012, 19(2):141-157. 7.Alicia O, Mark D R, Matthew D Y. From RNA-seq reads to differential expression results.Genome Biology , 2010, 11:220. |
|