RNA-seq是一种基因表达量测定方法。简单来说,样品中的RNA反转录后进行量测序,将得到的reds比对到参考序列上,来计算基因的表达量。但是,

样品间在数据总量、基因长度、基因数目、高表达基因分布甚至同一个基因的不同转录本分布上都有差别。因此不能直接比较表达量,而是必须将数据进行归一化处理。 假阳性率: 重要的评价指标,表达相近的基因被误认为是差异表达的基因 假阴性率: 重要指标,差异表达的基因没有被找出的比例。 所以,RNA-seq找差异表达分析时理应遵循以下几项原则: 样品间没有整体表达量上的差异 正向差异表达与负向差异表达整体趋势相近(正负差异平衡) 在二个样品中表达量相同(无关处理)的基因不应被标记为差异基因(不应出现假阳性) 看家基因可作为表达量评价依据(待定)
ok,现在终于进入正题,高出镜率的RPKM,公式如下:
作为最广泛使用的归一化算法,RPKM却有很多弊端: 基因表达平衡问题 现象:个别表达量很高的基因,会引起其他低表达量的差异假阳性。 原因:假设2个样品A、B,二者差异表达的只有一个基因,差异量为rDE.由于数据量R相同,B的平均测序深度必将降低。 则对于某个相同表达的基因g: 则A的RPKMg=(rg*109)/(flg*R); 且B的RPKMg =((rg*R/(R+ rDE )*109)/(flg*R); 二者显然不同(一般认为rDE<<R情况下可以无视) 基因数的影响 现象:二个样品检测到的基因数不同,会影响RNA-seq结果。 原因:如样品A表达12000个基因,样品B则表达10000个基因。则只在A中表达的基因2000个必定是差异表达基因(相对B中表达量为0)。但样品总reads不一定A>B,因为其他基因的表达量差异未知。 如果其他基因的表达量相差不大,则结果如1中情况。 转录本的问题 现象:两个相同表达的基因呈现差异假阳性 原因:可变剪接的存在让一个基因存在多个不同的转录本,两个样品中总体相对较短(含有较多的短转录本)的转录本的表达量较少。 解决方法: (一)只统计基因开头的序列READS (二)找出reads对基因的覆盖度,并将影响算出
所以,即然RPKM有这么多弊端,有没有其他参数来替代,当然有! RPKM的优化版本——TPM 公式是下面这样的, 设Qg = (rg*rl)/flg;则TPM = Qg/∑Qg ( ∑Qg等于上式中的T) rg:基因g的reads数 ;rl:(总长度∑flg)L/(总reads数)R; flg:基因的长度。 可知Qg的意义是: (大部分人看到上面这几个公式都凌乱了,but,你只要记住下面这句话就可以了,学霸除外……) 由此可知,TPM概括了基因的长度、表达量和基因数目。  对单一人体细胞样本的TPM与RPKM结果数值间的比较

对人不同类型的细胞和鸡细胞样品间 TPM与RPKM结果数值比较 可以看出,对单一的样本,TPM与RPKM的结果基本上是一致的。而对于同一物种不同样本,TPM与RPKM比例f有变化(最多14%),而不同物种间无可比性。 
上图描述的是用TPM与RPKM分析两种人体细胞样品的表达量差异,所得结果进行t检验后得到的p值的分布。可以看到,RPKM相对TPM,明显较高P值的差异结果较多。说明RPKM可能引入了人为的表达量差异。

|