分享

负二项分布在差异分析中的应用

 生信修炼手册 2019-12-24

无论是DESeq还是edgeR, 在文章中都会提到是基于负二项分布进行差异分析的。为什么要要基于负二项分布呢?

从统计学的角度出发,进行差异分析肯定会需要假设检验,通常对于分布已知的数据,运用参数检验结果的假阳性率会更低。转录组数据中,raw count值符合什么样的分布呢?

count值本质是reads的数目,是一个非零整数,而且是离散的,其分布肯定也是离散型分布。对于转录组数据,学术界常用的分布包括泊松分布和负二项分布两种。

在数据分析的早期,确实有学者采用泊松分布进行差异分析,但是发展到现在,几乎全部都是基于负二项分布了,究竟是什么因素导致了这种现象呢?为了解释这个问题,我们必须提到一个概念overdispersion

dispersion指的是离散程度,研究一个数据分布的离散程度,我们常用方差这个指标。对于泊松分布而言,其均值和方差是相等的,但是我们的数据确不符合这样的规律。通过计算所有基因的均值和方差,可以绘制如下的图片

横坐标为基因在所有样本中的均值,纵坐标为基因在所有样本中的方差,直线的斜率为1,代表泊松分布的均值和方差的分布。可以看到,真实数据的分布是偏离了泊松分布的,方差明显比均值要大。

上述图片对应的代码如下

mean <- log10(apply(x, 1, mean)) var <- log10(apply(x, 1, var)) plot(x = mean, y = var, pch = 20) abline(a = 0, b=1)

如果假定总体分布为泊松分布, 根据我们的定量数据是无法估计出一个合理的参数,能够符合上图中所示分布的,这样的现象就称之为overdispersion

正是由于真实数据与泊松分布之间的overdispersion, 才会选择负二项分布作为总体的分布。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多