几年前,听过一堂讲座,唐金陵讲《第三只眼看医学》,谈到过高血压的诊断标准。现在同样的问题问问各位, 真的是,140mmHg以上就是高血压,140mmHg以下,就不是高血压吗? 那如果,我们把高血压诊断标准调到135mmHg,又会如何? ——唐教授当时的重点,在于诊断指标的公共卫生意义和经济学意义。从140降到135,对单个患者来说,可能没有什么差异。但是,全国的高血压发病人数可能就会成亿成亿地增加!控制高血压的费用,可能也会十亿百亿千亿地增长!这个,可了不得啊! 扯远了,这里关键是一个需要额外考虑性价比的一个不确定性的问题。这跟我们今天的主题相关。 很多《医学统计学》的课本上、试卷上都会有关于卡方的适用标准,那么就有疑问了,你以总样本量为40来做选择卡方或者校正卡方的界定,如果改成41,会有多大差异?改成42,又会有多大差异?再更大一点呢?如果是上万的样本量,又会如何? 我们看一下公式吧: 红色公式就是卡方的校正公式了,去掉里面的0.5,就是卡方的计算公式。
那么我们是不是可以得到一个结论,随着样本量的增加,卡方与矫正卡方的结果越来越接近呢? (答案:是的,这一点读者可以试着动手计算一下。) (另一点,两者比较,反而是在样本量小的时候差异更大,这个差异原因我们稍后还会谈到。) (所以,在这一点上,统计人员的共识就比较重要了,如果你家的选择标准是40,我家的选择标准是42,在样本量是41、42这种情况下,得到的卡方值和P值就会有较大的差异!) 那下面我们再来看一下Fisher确切概率法。 其实这个名字就说明了一切了!我是确切概率哦~你们不确切的,统统向我看齐!对,就这个意思! 所以根据名字就可以安心的下结论了,一切与Fisher不一致的,都以Fisher为准! 那为什么大家通常还是要用卡方呢? Fisher的精准,在于它穷举所有可能出现的情况,并根据各种情况出现的概率,来确定某实际情况出现的概率以及小于该概率的情况的概率之和(即P值的定义),得到最后的Fisher的P值。 它是穷举的,考虑所有的情况,无一遗漏,所以,原则上来讲,它是不会出错误的! 大家普遍的使用的卡方检验,也是上世纪IT技术落后时的产物了(落后,有时候不是件坏事啊!正因为有了IT技术的落后,才激发统计学家们发挥极大的聪明才智来弥补这个缺陷啊!)。 这与本公众号上一篇文章提到的通过单变量分析来筛选进入回归模型中的变量是有些类似的。 前面提到过,Fisher是穷举,40以下的样本量,在四格表中出现的情况,动动手指脚趾,还是可以数的过来的,但如果是上万的样本量,那最终可能出现的情况可是指数级增长啊!这在当年的电脑上几乎也是不可能实现的。何况,发明卡方的时候,还没有电脑呢(我没验证过哦)! 所以,统计学家们就开发了卡方分布,来模拟可能出现的数据分布情况。这是一种抽象,就像我们用正态分布,T分布来模拟常见的数值型分布一样。 于是,我们有了卡方分布,有了对应的自由度,用不着穷举所有情况了,我们就已经可以猜出这些情况的分布是个什么样子!所以,有了卡方,轻轻松松就可以避免Fisher复杂的穷举过程,迅速得到结论! 虽然卡方在时间长度和计算难度上进行了极大的改进,但毕竟还是有问题的,就是样本量较少的时候,数据并不呈卡方分布!所以,后续不得已,又衍生了校正卡方,校正卡方也解决不了的,就最终还是回到了Fisher进行解决。 以现在的IT技术来看,哪怕上万的样本量,算个Fisher也不过秒秒钟的事儿了!所以,如果真让你选择的话?你会选什么呢? Fisher? 这个答案有点奇葩了,因为,很多人都选了——logistic回归!
|
|