近年来RNA-Seq被广泛应用,报告结果中衡量基因表达水平的方法也变得多种多样,如RPK、RPKM、FPKM、TPM等。然而大家对于这些单位还存在着很多困惑和错误的理解。今天小宇就与大家分享一下他们之间的区别与换算。
首先要明确的是实验之间基因表达水平单位不具有可比性。RNA-Seq的结果是一个相对度量,不是绝对的。
在解读FPKM、RPKM、TPM之前,先明确几个概念:
本文中read指的是单末端或双末端reads。计数的概念在两种reads中是一样的,每个read都是指被测序的一个片段。
本文中feature指的是一个表达特征,就是说一个基因组区域包含一段可以正常出现在RNA-Seq实验中的序列,如基因、亚型、外显子等。
用随机变数Xi表示观察到的感兴趣的特征i的数目。然而由于可变剪切的存在,我们不能直接观察到Xi,所以我们用 ,这是用eXpress,RSEM,Sailfish,Cufflinks或其他算法估计出来的一个值。
下面介绍几个样品未均一化的基因表达水平单位:
Count数目通常指比对到某个特殊的特征的reads数目,用随机变量Xi表示。这些数目主要依赖于两个方面:(1)测得的片段数目(与相对丰度有关);(2)特征的长度,或者更适合的有效长度。有效长度指一个特征可能的起始位点数目可以生成特定长度的片段,计算公式如下: 从比对read得到的片段长度分布的平均值。如果丰度估算方法用包含序列偏差建模(如express或Cufflinks),偏差通常并入到有效长度,从而特征的长短受偏差的影响。
由于counts不是由ferture的长度来衡量,一个样本里没有调整feature长度,那么这个范畴里的所有单位都没有可比性。这意味着不能说一组features的counts相加之和就代表这组feature的表达。(如,不能说亚型的数目总和就是得到的基因数目) 使用eXpress方法计算得到的是有效数目。有效数目基本上跟标准数目是一样的,不同在于在实验中对偏差数目的调整。有效数目计算公式如下: 直观地说,如果有效长度比实际长度短,那么在实验中没有偏差的情况下能观测到更多的数目,因此有效数目扩大了观测的数目。 Counts per million (CPM)指比对到的reads在每一百万次中所有测序中所占的比例。这个单位是FPKM没有经过长度均一化并缩小103, 正如上面counts内容中说的,观测到的片段数目取决于其长度。因此为了比较不同长度的feature,需要通过feature长度来使counts达到均一化。再强调一下,这个方法允许在一个样本中的不同长度的features进行比较,但是在样本间不可以比较! Transcripts per million (TPM)是计量在RNA池中某个转录本的比例。
由于需要将长度也纳入考虑,所以将reads per kilobase (RPK)定义为counts除以每1000碱基中该read的有效长度,以106除以所有RPK的总和为比例尺,用比例尺衡量RPK就消除了长度对表达量的影响。数学公式如下: 尽管不能用于实验之间的比较,但是TPM可能是最稳定的单位。
每一千碱基外显子每百万reads比对到的reads数目就是RPKM或者更通用的FPKM (用fragments代替reads)。与一些误解相反,对于双末端reads, FPKM 不是两倍的RPKM。当单端reads时,FPKM = RPKM;但是对于双末端reads,说RPKM就有点奇怪了,只能说FPKM。
几年前当 Mortazavi的文章出来并且介绍了RPKM,记得很多人提到了他们用RPKM这种方法来计算表达,这也发生在Cufflinks方法。人们会说,我们用RPKM这种方法来计算表达,实际上他们用的是rescue或者Cufflinks方法。现在时不时的我还是会听到这种说法。然而我们必须清楚一件事:FPKM不是一种方法,它只是一个表达单位。
FPKM(RPKM)跟我们上面讨论的TPM都是一个比例,指的是比对到Fragments(reads)的数目除以总的reads的数目然后再除以这段Fragments(reads)的有效长度,然后放大109倍。数学公式: 如果有FPKM值,TPM可以换算: 以上即是现在主要的RNA-Seq基因表达水平衡量方法。 |
|