RNA-Seq基因表达水平衡量方法

微笑如酒 2019-05-15

展开全文

近年来RNA-Seq被广泛应用，报告结果中衡量基因表达水平的方法也变得多种多样，如RPK、RPKM、FPKM、TPM等。然而大家对于这些单位还存在着很多困惑和错误的理解。今天小宇就与大家分享一下他们之间的区别与换算。

首先要明确的是实验之间基因表达水平单位不具有可比性。RNA-Seq的结果是一个相对度量，不是绝对的。

在解读FPKM、RPKM、TPM之前，先明确几个概念：

本文中read指的是单末端或双末端reads。计数的概念在两种reads中是一样的，每个read都是指被测序的一个片段。

本文中feature指的是一个表达特征，就是说一个基因组区域包含一段可以正常出现在RNA-Seq实验中的序列，如基因、亚型、外显子等。

用随机变数X_i表示观察到的感兴趣的特征i的数目。然而由于可变剪切的存在，我们不能直接观察到X_i，所以我们用，这是用eXpress，RSEM，Sailfish，Cufflinks或其他算法估计出来的一个值。

下面介绍几个样品未均一化的基因表达水平单位：

Count

Count数目通常指比对到某个特殊的特征的reads数目，用随机变量X_i表示。这些数目主要依赖于两个方面：（1）测得的片段数目（与相对丰度有关）；（2）特征的长度，或者更适合的有效长度。有效长度指一个特征可能的起始位点数目可以生成特定长度的片段，计算公式如下：

从比对read得到的片段长度分布的平均值。如果丰度估算方法用包含序列偏差建模（如express或Cufflinks），偏差通常并入到有效长度，从而特征的长短受偏差的影响。

由于counts不是由ferture的长度来衡量，一个样本里没有调整feature长度，那么这个范畴里的所有单位都没有可比性。这意味着不能说一组features的counts相加之和就代表这组feature的表达。（如，不能说亚型的数目总和就是得到的基因数目）

Effective counts

使用eXpress方法计算得到的是有效数目。有效数目基本上跟标准数目是一样的，不同在于在实验中对偏差数目的调整。有效数目计算公式如下：

直观地说，如果有效长度比实际长度短，那么在实验中没有偏差的情况下能观测到更多的数目，因此有效数目扩大了观测的数目。

Counts per million(CPM)

Counts per million (CPM)指比对到的reads在每一百万次中所有测序中所占的比例。这个单位是FPKM没有经过长度均一化并缩小10³，

下面是样品均一化后的基因水平衡量单位：

正如上面counts内容中说的，观测到的片段数目取决于其长度。因此为了比较不同长度的feature，需要通过feature长度来使counts达到均一化。再强调一下，这个方法允许在一个样本中的不同长度的features进行比较，但是在样本间不可以比较！

TPM

Transcripts per million (TPM）是计量在RNA池中某个转录本的比例。

由于需要将长度也纳入考虑，所以将reads per kilobase (RPK)定义为counts除以每1000碱基中该read的有效长度，以10⁶除以所有RPK的总和为比例尺，用比例尺衡量RPK就消除了长度对表达量的影响。数学公式如下：

尽管不能用于实验之间的比较，但是TPM可能是最稳定的单位。

RPKM/FPKM

每一千碱基外显子每百万reads比对到的reads数目就是RPKM或者更通用的FPKM (用fragments代替reads）。与一些误解相反，对于双末端reads， FPKM 不是两倍的RPKM。当单端reads时，FPKM = RPKM；但是对于双末端reads，说RPKM就有点奇怪了，只能说FPKM。

几年前当 Mortazavi的文章出来并且介绍了RPKM，记得很多人提到了他们用RPKM这种方法来计算表达，这也发生在Cufflinks方法。人们会说，我们用RPKM这种方法来计算表达，实际上他们用的是rescue或者Cufflinks方法。现在时不时的我还是会听到这种说法。然而我们必须清楚一件事：FPKM不是一种方法，它只是一个表达单位。