2020年初,整个世界遭受了新冠病毒地袭击,直到今天人类还没有走出阴霾。抗疫前线的医学专家们日以继夜地工作,同时进行着多种药物的临床试验。那么怎么判断哪一种药物效果更好呢?这就要说到一百年前问世的方差分析。 1 费希尔的简介 本文下面要讲到的方差分析、F分布,都是费希尔的贡献,这些统计方法可以说完全改变了人类进行科学研究的方式方法。 2 耙粪堆 1919年,罗森斯得农业实验站的主任约翰·拉塞尔爵士发出了邀请,希望费希尔来查看下该实验站历年收集的数据中到底藏有什么秘密(下图是罗森斯得农业实验站): 由于种种原因,费希尔的生活并不顺利,看在一年1000英镑的份上,费希尔带着他的三个孩子、老婆和小姨子,来到了这个伦敦以北的农业地区,蹬上靴子,穿过农田,取出巨大库房中、堆积如山的、积累了90年的数据,开始了他所谓的“耙粪堆”的工作。 然后在收获后对数据进行采样,看不同实验组的产量是否不同。 3.1 两个问题 费希尔也知道,马铃薯不是什么工业产品,本身产量就会有波动,肯定不能说某个实验组产量多了 就说该组施用的混合肥料有效果,至少需要考虑以下两个问题: (1)概率。马铃薯的产量 本身具有随机性,比如说服从某正态分布: 根据该分布,产量在 之间波动可能性较大,因此如果某实验组产量多了 ,并没有把握说混合肥料产生了效果(因为不可能知道所有马铃薯的产量,所以无法真正算出 ,也就不可能真正知道该正态分布 ,因此用虚线画出): 而产量在 之上的波动可能性较小,因此如果某实验组产量多了 ,那么说明混合肥料可能真的产生了效果: 就此,费希尔设计了 组间方差 这个统计量,当组间方差较大的时候,说明发生了低概率事件,从而说明混合肥料可能真的产生了效果。 (2)原因。马铃薯的产量 如果是随机波动,那么应该是有增有减的。比如从某个实验组中采样得到五株马铃薯,记录每株的重量,得到五个点。算出该实验组的平均产量 相对于 增加了 ,并且五个点相对于 有增有减,分散在 的四周,这就说明重量变化是由于随机波动造成的: 如果某个实验组平均产量 相对于 还是只增加了 ,但组内所有的马铃薯植株上的产量都是增加,紧密的围绕在 的附近,那么说明混合肥料可能真的产生了效果,造成组内所有马铃薯的重量都增加了: 就此,费希尔设计了 组内方差 这个统计量,当组内方差较小的时,说明该试验组的普遍增产(或减产),也说明混合肥料可能真的产生了效果(组间方差、组内方差这两个统计量接下来会进一步介绍)。 3.2 假设检验 综合上面两个问题,费希尔设计了一个假设检验(关于假设检验,可以参考这里):
从抽样到计算完成该假设检验,就称为 方差分析 。 根据上面表格,画出来的图像是这样的: 可以看出:
所以是很有把握认为这三组产量不同,并且是由于混合肥料导致的。当然上面是定性分析,下面看看如何定量分析。 4.1 组间方差 首先需要知道发生了低概率事件,即是否有某组(在本例中是 A 组)的样本均值远离 。因为 是没有办法真正知道的,实际计算时只能用所有样本的均值 来代替(本例中就是15株马铃薯的均值),然后计算各个实验组的样本均值与 的距离,累加起来就得到了组间方差: 忽略其中的常数(这些常数设置是一些数学原因,不影响本文的整体思路,感兴趣的可以看下教材和证明),可以看出,组间方差较大时说明发生了低概率事件。 4.2 组内方差 将各个实验组的方差加起来就得到了组内方差(其中也多了些常数,暂时可以不用管): 其中 、 、 就是各组内的某株马铃薯的重量。组内方差越小,说明各个实验组变换越一致,越有可能是由混合肥料导致的。 4.3 统计量构造 费希尔接着构造了 这么一个统计量,它综合了“概率”和“原因”这两个角度。为了说明这点,我们又对之前的 A、B、C 三组进行了多次实验,得到不同的组间方差、组内方差: 解读下:
可见统计量 越大,那么三组不同的可能性越大。那具体要大到什么程度,才有把握说三组是不同的呢?这就需要F分布进行最后的检验(F就是Fisher的首字母,所以你也可以称之为费希尔分布)。 4.4 F分布 可以证明,满足某些条件的情况下(比如总体和样本都是正态分布),统计量 是服从F分布的: 此时,当 的值足够大,大到落入F分布的右边区域(也称为拒绝域)时,就有把握说三组是不同的: 至此就完成了假设检验,也就是完成了方差分析:
从本文介绍可知,方差分析只是知道了这三组是否有差异,具体是到是哪组有差异,还需要别的统计方法。比如对这三组两两进行 t 检验。 我们通过通俗易懂、图形化的方式,对《线性代数》、《单变量微积分》、《多变量微积分》、《概率论与数理统计》进行了精讲,可以直接点击下面这个图片购买包含这些内容的图解合集: |
|