方差分解是个神奇还有用的分析思想。在前面的短文中我们从我们“热爱”的t-检验,这种只包括两个比较组的特殊单因素方差分析开始,了解了无论是几个比较组: 方差分析的思想都是先求出总平均值 然后求每个观察值相对于总平均的变异再做平方: 于是加起来就是总方差(离差平方和,SS总): 接下来:用同样的方法获得各组平均值 以及各观测值相对于自己组平均值的变异平方, 在求组内变异平方和,是为SS组内, 以及各组平均值相对于总平均值的变异 即为SS组间: 而且总有:SS总=SS组内+SS组间 或者说,从变异分解的角度看,方差分析主要探讨的是变异的来源问题。很显然,完成以上的差别性检验时,我们期待验证的都是当研究因素处在不同水平的时候(也就是不同的分组,例如不同性别分组,不同药物剂量治疗组之间)我们关心的测量指标(比如血压,身高,血压下降幅度)是否存在不同
在此基础上,再通过组间组内变异的“比例”分析构建统计量获得P值。 那么总变异中,被分组因素解释的比例越高,分组的贡献越大,组间的不同也就更加的“显而易见”。
必须能,在应用领域中,理论的发展永远是以科学性为基础,以应用需要为导向的。 下面以两个因素为例,画来看,这就是今天的主题双因素方差分析: 现在设想包括两个研究因素的情况。比如说要研究两种不同的营养液(A和B)对于神经细胞生长的作用。于是我们按照两种营养液的使用情况一共分成了4个研究组 第一组(A-B-):不加用任何营养液 第二组(A+B-):加用A营养液 第三组(A-B+):加用B营养液 第四组(A+B+):同时加用AB两种营养液 根据以上研究设计完成研究获得的治疗有效性结果如图所示。 第一件事情当然是获得总平均值(直方图是示意图哈),以便了解总变异 还有各组的平均值(直方图也是示意图哈) 可是这样一来,这不就是包含4个比较组的单因素方差分析吗, 跟三个比较组的情况没有本质区别呀。 但这时最重要的是:数据分析是服务于研究目的的,而不是由数据的“样貌”决定分析方法,如果我们想了解的是两种药物的作用,而不是四种治疗组合之间的不同,那么直接当作四个平行的比较组完成分析其实就不合适了,因为相应的单因素方差分析及接下来的两两组间比较只回答了各组间的不同而没有直接回答两个研究因素:营养液A和营养液B是否有促进生长的的作用。 从四组的总体情况看,A、B两种营养液实际上都包括了使用和未使用两种情况(我们也称之为A因素的两个水平),也正是通过这两种情况的比较我们就可以看出这两种营养液的作用了。或者说,当我们聚焦在A的时候,其实我们看到的是针对这个因素的两个水平之间的比较。只不过两组中都有一半使用了B营养液另一半没有。对于B的分析也是一样的状况。 那么该怎么分析呢 我们需要先在同样的“投影”关系下,给他们稍微变变队形。 这么一变形,我们终于把四个小组在两种研究因素间的关系给表现出来了: 沿着右前45度的方向,我们看到了针对A因素的两个水平, 虽然两水平中各有一半研究对象使用了营养液B,但在呈现因素A的作用上,只要A所处的水平相同,他们的属性就是相同的。所以,在针对因素A的分析中,不管有没有加用营养液B,只要按照A的使用情况,把他们合并作为两个比较组分析, 就可以完成针对A因素的方差的分解,了解在总变异中,有多少变异是由分组因素A带来的(SS组间),其余的则是A因素不能解释变异(SS组内) 采用同样的方法,从左前45度望去 我们就看到了B因素的两个水平, 并且也可以完成针对因素B的方差分解,了解总变异中有B因素所处水平不同所解释的变异。 这样总变异就被我们分解成了由因素A带来的组间变异(SS 因素A)、 因素B带来的组间变异(SS 因素B), 以及未能由两个研究因素解释的剩余部分(SS误差) 然后同样基于分组因素解释的变异与剩余误差之间的比例关系构建统计量并且获得P值,检验就完成了。 真的是跟单因素方差“如出一辙”吧。 不过这并不是全部: 还有重要思考需要分享: 是不是所有包括两个研究因素的情形都一定做双因素分析呢,还真是不一定。 总要记在心里的话: 统计分析是为研究目的服务的,只有能够回答研究问题的方法才是合理的选择和应用。 从双因素方差分析的出发点看,它能够回答的问题是各因素不同水平间的比较,而不回答四种治疗“组合”之间的不同。所以当我们的研究目的是考察某两个因素对结局的作用的时候,双因素方差是合理的选择。 从前图所说明的分析策略看,在针对A因素展开分析时,双因素方差分析会按照因素A所处的不同水平把原始分组做合并(B因素的状态并不在考虑之列),再通过组间比较了解研究因素在不同水平间的差异,从而说明该因素对研究结局的作用,我们称之为主效应。 不过在很多研究场景下。两个研究因素的作用我们已经有了前期的了解,而把他们放在一起是为了找到最佳的强度组合,这个时候显然双因素方差的分析策略就并不适合了,这个时候似乎把不同的处理组合视作平行的比较组完成单因素方差分析才更合理。 总之,并不是看到两个包括两个研究因素的效应强度分析(当然要符合参数检验条件啦),就只想到双因素方差分析这一条思路。是选择将各处理组作为平行比较组的单因素方差分析,还是主要针对处理因素的双因素方差分析永远是基于研究目标的重要选择。 故事还没有结束,大概都听说过那种叫做“析因设计”这个词,其中经常提到一个叫做“交互效应”的概念。 其实交互效应我们以前画过的。相当于两种因素的作用是彼此不独立的,也就是合在一起用的时候他们的共同作用并非两种因素作用的叠加。 其实从变异分解的角度,它不过是多分解了一个交互效应的维度。 这里要提醒的是当存在交互效应时,针对因素的主效应就没有意义了。如交互效应疑问已经提到的,交互效应可以简单理解为当两种因素同时出现时会产生1+1≠2的效果。也就是在因素B处于不同水平时,因素A所体现的作用强度是不一样的。而在针对主效应分析中,我们B因素处在什么水平,我们都只按照因素A的分组情况做分析。这只有在A的作用不受B因素水平影响的时候也就是他们相互独立的时候才是合理的。一旦出现交互效应,那么要想说明白A的作用,就需要首先按照B的水平做分层,才能说明白了,这样的效应分析也有专门的名字叫做简单效应。 再多的因素会是怎样,道理都是一样的还请各位自行举一反三,三维之内,本公众号实在是无能为力,确实画不出来了。 感谢梅花桩拳学者,好兄弟卢双同学的认真审核。
|
|