【原】两个因素相互影响，ANOVA结果该如何判读？| 协和八

协和八 2020-09-18

展开全文

说人话的统计学

在上一集《多因素 ANOVA ＝好几个单因素 ANOVA ？可没这么简单！》里面，我们进一步介绍了多因素 ANOVA 里面交互效应的意义，以及怎样用数据可视化的方法直观地判断有没有交互效应。这一集今天我们就更进一步地看一下在不同情况下如何正确地解读 ANOVA 的结果。

我们先从一个简单的例子看起，假设我们在研究某种新型药物在治疗某种疾病时的作用，实验组是服用了新型药物，而对照组服用了安慰剂，每一组不同性别各占一半。我们想知道，这种新型药物对疾病有没有效果（用指标 y0 来衡量），效果是否与性别有关。

实验结果如下图所示：

图1 性别和实验条件都有主效应，没有交互效应。y 轴表示测量值的在特定条件下的平均值，X 轴表示实验条件，男性和女性分别用圆圈和三角表示。

我们做完多因素 ANOVA 之后，统计软件会输出一个表格来汇总结果，不同的统计软件输出结果的格式会有所不同，我们将其中关键的几栏信息列在下表中：

表1 多因素 ANOVA 分析结果（对应图 1 中数据）

表格的每一列代表不同的统计量，我们再复习一下这些统计量的含义：

自由度是每个因素分组的数量减去 1，比如性别共分男女两组，所以性别自由度是 1；交互效应的自由度是每个因素自由度的乘积。最后一行 residuals（残差）指的是不能被所研究的因素解释的那部分波动性，其自由度就是总样本量 30 减去总分组数。各个因素排列组合共有 2*2=4 种情况，所以总分组数是 4，残差的自由度是 26 。

我们再来看看 ANOVA 结果中不同统计量之间的关系：

残差的总平方和就是我们之前提到的组内平方和，而其他行的总平方和就是组间平方和。平均平方和就是总平方和除以自由度，而 F 值就是某个因素的平均平方和除以残差的平均平方和。也就是说知道了自由度和总平方和，可以计算出平均平方和以及 F 值。最后知道了 F 值还要自由度，就可以计算出 p 值。在自由度不变的情况下，F 值越大，P 值越小。

这下子 ANOVA 表格已经一目了然了吧。我们可以看到性别和是否服用药物两行 p 值都远小于 0.05，说明两者都对观测值 y0 有显著影响，而第三行 p 值远大于 0.05，说明两个因素之间并没有显著的相互作用作用。我们可以得出结论，该新型药物对 y0 有显著影响，这个影响并不依赖于性别。

与单因素 ANOVA 一样，在描述结果的时候，通常要给出每个因素及其交互效应的自由度，F 值还有 p 值。如果研究的因素比较多，结果用文字描述起来比较长，也可以直接放上类似表 1 的表格来描述结果。

我们之前提到，交互效应是相对于主效应而言的，在没有交互效应的时候，ANOVA 的结果就比较简单，因为两个（或多个）因素的共同效应就等于各自单独的作用的简单叠加，这时候解读 ANOVA 的结果就只要看主效应。如果某个因素主效应呈显著性，就说明该因素对观测值有显著影响，反之，则没有显著影响。

当我们做了多因素 ANOVA，并发现有显著的交互效应的时候，情况就比较复杂了，不能只通过主效应判断这个因素对观测值有没有影响。

假设我们还是研究某个新型药物和性别两个因素对某个疾病的影响（用测量值 y1 来衡量），而这一次我们得到的数据长这个样子：

图2 性别和实验条件都没有主效应，有交互效应。

根据上一集学到的知识，如果不同组轮廓里的折线不平行，则很有可能存在交互效应，即使我们还没有用统计软件查看 ANOVA 结果，我们也应该能够猜到上图中的数据性别与实验条件存在交互效应。

从图中还可以看出，对于女性受试者，实验组比对照组的 y1 值要高，而对于男性受试者，效果却是相反。因为男女受试者在实验组和对照组各占一半，且效果相反，所以总的效果是：实验条件这一因素的主效应不显著，而性别这一因素的主效应也是不显著，只有交互效应有统计显著性，结果如下图所示：

表2 多因素 ANOVA 分析结果（对应图 2 数据）

在这种情况下，虽然主效应不显著，我们并不能说新型药物对这一疾病没有效果，因为从轮廓图可以看出它很有可能对女性受试者是有效的，而对男性受试者有相反的效果。这时我们再笼统地说该新型药物对这一疾病有没有效果已经不合适了，而且这样做是有很强的误导性的。

从上面这个例子可以看出，如果交互效应显著，即使某个因素的主效应不显著，也不能说这一因素对测量值没有显著影响。换句话说，交互效应有时会「遮盖」主效应。

既然主效应显著并不是一个因素能影响测量值的必要条件，那有没有可能只要主效应有统计显著性，就说明这个因素对测量值有显著影响呢？

我们再看一个例子。

这次是新型药物和性别对某疾病的指标 y2 的影响，数据长这样子：

图3 性别和实验条件都有主效应，也有交互效应。

下面是又到了看图作文的时间，首先我们可以看到，女性受试者并不是实验条件影响，而男性受试者则不同，实验组比对照组中男性受试者的 y2 指标要高出许多，这似乎又是一个有交互效应的例子（都被你们看穿了~~）。

下面是多因素 ANOVA 分析的结果，性别，实验条件，还有两者的相互作用都显著。

表3 多因素 ANOVA 分析结果（对应图 3 中数据）

吃瓜群众如果只看 ANOVA 表，虽然能够看出是性别和服用药物都对结果有显著影响，但并不能知道药物原来只对男性患者有效，对女性患者无效。也就是说，由于有显著的交互效应，多因素 ANOVA 的结果并不能完整地描述结果，这时进行事后检验来具体看哪些条件下数据有显著性差异对于正确地解读结果是必须的。

与单因素 ANOVA 类似，在多因素的情况下可以运用 Tukey 事后检验将不同条件下的数据进行两两对比，来确定到底哪些情况下测量值有显著不同。

在前面的例子里面，性别和实验条件的组合共有 4 个不同的实验条件，再将其进行两两比较，就一共有 6 对两两比较需要做。我们将图 3 中的数据做 Tukey 事后检验所得到的结果如下：

表4 Tukey事后检验结果（对应图 3 中数据）

Tukey 事后检验的结果也印证了我们之前可视化的结果，即男性患者实验组和对照组有显著区别，女性患者没有显著区别。

上面的两个例子有一个共同点，那就是不仅存在显著的交互效应，而且一个因素（性别）的不同组（男性或女性）随着另一个因素（实验条件）的变化对测量值的影响并不一致，比如图 2 里面男性实验组比对照组低，而女性相反，我们可以将其称之为无序的交互作用。当数据出现无序的交互作用时，讨论主效应是没有意义的，必须要通过事后检验来进一步看哪两组数据数据不同。

最后我们再总结一下做多因素 ANOVA 分析的方法：

首先，需要对数据进行可视化，对可能出现的结果有一个预期，尤其要注意是否会有无序的交互作用；

然后对数据使用多因素 ANOVA 分析，如果没有交互效应，可以通过主效应判断因素是否对测量值有显著影响，如果发现有无序的交互效应，则必须还要做事后检验，对结果的讨论也要围绕事后检验两两比较的结果进行。