分享

辨析丨啥?统计上还有q值,和P值啥关系?

 松哥精鼎统计 2020-10-23

P值是干啥的

      统计学的前身叫做概率论。概率(Probability)是反映某一事件发生可能性大小的一种量度单位。我们根据事件发生概率的大小,把事件分为三类,P=0必然事件,P=0不可能事件,0<P<1叫偶然事件。前两种事件都不是统计学研究的,必然发生、必然不发生没有研究的意义。统计学研究的是偶然事件。只要某事件0<P<1,就有发生的可能,但是为了我们进行统计推断的方便,就必须给出个界值,当发生的概率小于这个界值,我们就认为该事件不会发生(就像我们上学时考试,也要给定一个60分的标准,低于就要补考一样),于是专家们就制定了一个P<0.05原则,凡是小于0.05的事件就叫做“小概率事件”,小概率事件在一次抽样过程中是不可能发生的。如果想知道为什么界值为0.05,请点击:为什么小概率事件的界值定为0.05呢!

据此,我们进行统计分析时,凡是得到P<0.05,就认为组间差异有统计学意义。不了解假设检验,请点击::假设检验之葵花宝典

P value的不足之处

当我们进行一次假设检验,以alpha=0.05作为检验水准(即小概率事件界值),如果做出P<0.05,认为组间差异有统计学意义时,其实我们有5%的概率推断出错了,没办法,这就是我们假设检验的出错概率。

可是当我们进行基因表达差异分析时,往往分析上万个基因,比如就是10000个吧!那我们就得进行10000次假设检验,如果我们得到3000次检验P<0.05,认为表达有差异。那按照5%的出错概率,就有150次的结果是假阳性,那这个结果是我们无法承受的。于是。。。

于是Bonferrnoi就提出一种方法,他建议如果多次比较,就应该拿我们最初定的0.05界值去除以比较的次数。比如要比较3次,则调整alpha’=0.05/3次=0.0167,意思是假设检验只有P<0.0167在认为有统计学意义。可是如果我们比较刚才说的10000次检验,那alpha'=0.000005,统计检验要得到P<0.000005是太严格了,几乎不可能,那又会错过很多真正的阳性结果。于是。。。

于是Benjamini and Hochberg在1995年第一次提出了FDR的概念,其出发点就是基于Bonferroni的保守性,并给出了控制FDR( false discovery rate,错误发现率)的方法。不过他们的方法也有其保守性。所以随后人们开始研究更加powerful的方法,现有的方法有Storey的, Broberg的,Dalmasso的,Guan的,Strimmer的等等。

q value是啥,咋控制的呢?

比如我们检验10000个基因(m),发现有差异的为1000个(R),其中有100个是错的(V),则q=V/R,即FDR。如果我们想控制出错的概率,只要制定q的界值即可,一般q<0.05。关键是如何控制呢?

设总共有m个候选基因,每个基因对应的p值从小到大排列分别是 p(1),p(2),...,p(m),则若想控制FDR不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。

手工太傻,R软件有qvalue包,专门进行计算的。


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多