为什么是P值和“她”的小伙伴,却不是“他”的小伙伴? 大概用一句话就能解释通吧:女人心,海底针! Wiki上有幅图,本号之前群发过,您还记得吗? P值:在0假设满足的前提下,出现观察相(以及更极端情况)的概率。 所以,这幅图上半部分的important就很值得回味。仔细体会下吧。^_^ 简单设想一下,哪怕是一模一样的人群或样本,就是说,H0,零假设绝对满足,那么多次抽样,也会有p值很小的情况出现。对吧?小概率事件,也是概率嘛。何况还是大到5%的概率。 一旦出现了,那就是假阳性出现!这也是我们α值(一类错误)的意义:对假阳性情况发生的容忍情况。 ——这一段不能再讲太深,后面就是假设检验,Power和样本量的问题了。暂且搁置。我们聊正题,P的小伙伴们。 P值的小伙伴们 昨天听了微信群里的一个统计讲座,讲者将OR、HR列为了P值的小伙伴。 小编不认可这样的归类。 P值的小伙伴,最起码也应该是置信区间!如果非要跟OR,HR扯上关系,那也是跟OR和HR的置信区间有关系! 那么,P值都有哪些小伙伴? ——这一段也可以换成, “如何给论文数据造假而不被识破?” ,或者, “如何识破论文数据造假?” ,或者, “如何hold住P值的小伙伴们?”, ^_^ 下面的论述不经考证了哈,乱弹。 读者如果有更详细全面客观的见解,可以在文末留言,我会显示出来。
最开始,我们写论文,直接汇报一个“P<0.05”,或者“P<0.01”就好了,然后解释成“差异有统计学意义”,“差异有显著的统计学意义”。 这个阶段,大把造假文章哦。很多作者根本就不会用软件,不会求P值,觉得差的挺大,写吧!“P<0.05”,或者“P<0.01”就堂而皇之的上了论文。
后来,学者们慢慢觉得这样太简单粗暴,信息量也不够了。所以,有增加了新的信息量,t值,F值,卡方值,等等;P,也不能只说小于多少了,而要表明它具体值是多少。 所以后来我们写论文列表,就单独给假设检验统计量留出了一行或者一列,报告t值,F值,卡方值!后面再跟一排P值,等于零点零几几。(其实这些也不够,不报告自由度,这些值也无从验证啊。当然,根据表格上下文信息,自由度也可以推算出来。) 很奇葩啊,小编就审过一篇稿件,还是小编师姐的一篇文章,做表没问题,t值,P值。问题是,t值等于1.6吧假如(t = 1.60),后面也写P小于0.05!姐姐!这种行为非常危险啊!这是自掘坟墓啊! 虽说t界值与自由度有关,但是,哪怕样本量/自由度特别大,t值至少也要达到1.96,P值才可能小于0.05。当n=3时,基本上t值要超过2点几,P值才能显著!所以,出现上述情况,有经验的审稿人都不用查表或者重运算,直接就可以给你拒稿了! 所以,这一段的结论是:
置信区间的广泛使用,应该是一个很大的进步了。 前面两个阶段,都是用P来展示结果,最后报告差异有没有统计学意义。但是,差异都到底多大呢?不知道! 做了研究,不知道差异多大,那可不行啊。 我们说,一个药物可以降血压,确实可以降,真的。平均每人降1mmHg,有意思吗?虽然大样本情况下,降1mmHg也可以获得很小的P值啊,但是,这个药物没啥意思嘛!你会用吗? 为了展示这种差异,我们经常使用点估计。就像上段,1mmHg,这样一个数据值,就是点估计。 但我们统计学是一门表达不确定性的科学啊。这个血压降低的范围是多大呢? 为了展示这个,我们就有了标准误(SE),置信区间(95% CI)的使用。理想情况下(正态or大样本,等等),两者可以互相转换。 而这个95%CI,就是我们这段的主题,她,也是P值的小伙伴! 如果我们在做两种药效的比较,那么两种药效差异的95%CI,如果跨越0,就是说差异没有统计学意义,P大于0.05。如果排除了0,那这个差异就有统计学意义。 而对于OR,RR,HR,因为她们都是比值,所以她们是以1作为参考,跨越了1,就没有统计学意义;上下界都大于1,或者都小于1,就有统计学意义。 所以,想编数据的小朋友们注意啦!审稿抓捏造的老朋友们也注意啦!
当然,如前所说,我们论文中会同时报告点估计值和区间估计值的。那么就提供了效应量的信息。但这不是本文的重点,暂且搁置。
上面,我们了解了P值的几个小伙伴,再教大家一个目视法做统计的小技巧。 试验狗们作图,很喜欢用Bar,用折线,特别喜欢在上面补充一个errorbar。就是加一个标准误大小的指示了。如图: 图中芒刺,就是上下各一个标准误(SE)。 那么我们如何通过“瞪”图片,来预测P值呢? 其实很简单,上图中,就看两个组的errorbar是否重叠!粗估:
为什么是粗估呢?因为,1,我们这里是使用了两组的SE,现实中,我们要使用两组合并的SE,是一个类似均数的调和值;2,我们在两组均值之内,使用了两组SE,实际上是SE*2,实际上,根据自由度,界值应该以SE*1.96或者稍大一点点为准。 Anyway,据图,我们可以大概推测一下P值是否显著,而不用非得动手去实现。这一段,大概也说明了:
今天闲话就到这里吧,希望对大家有用。 感谢转发推荐!感谢赞赏! PS:回头小编有空了,给大家介绍下伪造数据的常用方法和高阶方法,供大家引以为戒。当然,如果本文收的赞赏很少,或许也就说明大家没兴趣抓“伪造”吧。因为小编认为:
医学统计分析精粹 实用靠谱统计学,关注小号! 长按识别二维码→马上关注 |
|