![]() 前文讲过,多重线性回归是我们最常用的评估变量之间关系大小的统计分析方法。 表示为: ![]() lm(Y ~ 1 X1 X2, ...) 我们希望β0 β1X1 β2X2 这个模型对因变量Y的解释力越强越好。 所以在科研实践中,我们通常会想办法提高模型的解释力,让误差项ε 中与因变量Y 有关的部分越少越好。 为提高模型的解释力,我们通常会加入更多解释变量。 例如,我们想研究某城市人群死亡风险与空气污染之间的关系。首先收集了一段时间内该城市每天的死亡人数和污染物浓度(如PM2.5 浓度),以及温度、湿度等控制变量;然后构建多重线性回归模型,估计每天的死亡人数和污染物浓度之间的系数大小。 此时,用于统计分析的数据集中,有如下变量:时间(哪一天),死亡人数,污染物浓度,温度,湿度。 可以发现,在上述例子中,有一个不容易成立的假设,即假设整个城市不同区域在同一天的污染物浓度、温度、湿度是相同的(因为每天只有一个污染物浓度/温度/湿度数据,对应一个死亡人数数据),但显然,不同区域的环境情况差别还是比较大的,人群死亡情况的差别可能也是比较大的。 所以,我们需要考虑另外一个维度——空间维度,这时需要收集的数据就变为了:一段时间内该城市不同区域内每天的死亡和环境数据。 固定效应模型 此时,用于统计分析的数据集中,多出了一个变量,那就是:区域。 假设我们把这个城市根据街道分成了50个区域,那么我们收集到的就是这50个区域每天的死亡和环境数据。 以上步骤的目的,就是为了提高模型的解释力,增加了“区域”这个解释变量。 沿着多重线性回归的思路,这时回归方程变成了如下形式: ![]() 式中,region是区域哑变量。X1 (污染物)前面的系数不随region的变化而变化,即不同区域内污染物和死亡的关系是固定的,但是不同区域的截距是不同的。 这就是固定效应模型,即就区域这一变量而言,不同区域的截距不同,且不同区域的效应值(β1 )相同。 lm(Y ~ 1 X1 X2 as.factor(region), ...)#固定效应模型 不难看出,方程中需要生成50个哑变量。当哑变量的个数太多时,要估计的参数太多,消耗太多自由度,估计结果不可靠。 随机效应模型 这种情况下,固定效应模型就不适用了。我们可以换个思路:引入region这个变量,我们并不是想要关注:X1,X2 不变时,不同region的截距具体是多少。 我们想关注的是,X1 ,X2不变时,不同region的截距的变化程度(用方差 ![]() 表示)如何,方差越大,说明不同区域的截距相差越大,应该引入region变量,并控制这一差异;方差越小,说明不同区域的截距很接近,没有必要引入region这个变量。在方程中可以表示如下: ![]() 这就是随机截距模型。可以看到,我们不再运用哑变量的方法具体估计不同region的截距,而是用β0i 来表示第 i 个region的截距。 在该模型中,我们通常假定β0i 是随机变化的,把β0i分解为(β0u0i) ,β0 是不同region截距的总均值,u0i 表示围绕均值的波动大小。针对u0i这个随机波动,假定其服从均值为0,方差为 ![]() 的正态分布。如果 ![]() 等于0,那么模型三等于模型一,无需引入region变量。 library(lme4)lmer(Y ~ 1 X1 X2 (1 | region), ...)#随机截距模型,竖线前面的1代表随机截距,竖线“|”后面是分组变量 不同region之间,除了截距可能不同,效应值也可能不同。沿着模型三的思路,可以有如下表示: ![]() 其中,β1i 表示不同region的效应值。把β1i分解为(β1 u1i) ,β1 表示各region X1的效应值的总均值,u1i表示围绕均值的波动大小。针对u1i这个随机波动,假定其服从均值为0,方差为 ![]() 的正态分布。这就是随机系数模型。如果 ![]() 和 ![]() 都等于0,那么模型四等于模型一,无需引入region变量。 lmer(Y ~ 1 X1 X2 (1 X1 | region), ...)#随机系数模型,竖线前面的1代表随机截距、X1则代表X1对应的随机斜率,竖线“|”后面是分组变量 随机截距模型和随机系数模型统称为随机效应模型。 小结 现在,我们把模型一~四放到一起: ![]() 对比以上模型可以发现,一般线性模型只有随机误差ε1 ,随机截距模型从原误差项中多分解出了u0i 这部分,而随机系数模型又多分解出了u1i 这部分。 可见, ε1>ε2 ε1>ε3>ε4 无论是固定效应模型还是随机效应模型,其目的都是为了分解误差项,使误差变小、提高模型的解释力。就拿模型一,三,四来看,模型对误差的分解越来越细,剩下的不清楚的误差部分越来越少。这就是我们做研究所希望达到的。 最后,我们说说什么时候用固定效应模型,什么时候用随机效应模型。 如果region的分类较少(一般少于20~30个就算比较少),推荐使用固定效应模型。 如果region分类在20~30个,不多也不少的情况下,似乎固定效应和随机效应都可以用,那么就要看研究目的,如果研究目的不是比较各个region分类之间具体的差异,那就可以使用随机效应模型。 在使用随机效应模型时,具体使用随机截距or 随机系数模型,取决于研究目的。 参考文献 统计学中的「固定效应 vs. 随机效应」 多水平模型介绍 多水平模型介绍(续) 多水平模型介绍(再续) END |
|