分享

混合线性模型MEM,层级数据处理利器

 对对子不错 2018-01-18

Multilevel models (also known as hierarchical linear models, nested data models, mixed models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped. These models can be seen as generalizations of linear models (in particular, linear regression), although they can also extend to non-linear models. These models became much more popular after sufficient computing power and software became availaible.


混合线性模型是20世纪80年代初针对统计资料的非独立性而发展起来的。由于该模型的理论起源较多,根据所从事的领域、模型用途,又可称为水平模型(Multilevel,MLM)、随机系数模型(Random Coefficients,RCM)、等级线性模型(Hierarchical Linear,HLM)等。甚至和广义估计方程也有很大的交叉。这种模型充分考虑到数据聚集性的问题,可以在数据存在聚集性的时候对影响因素进行正确的估计和假设检验。不仅如此,它还可以对变异的影响因素加以分析,即哪些因素导致了数据间聚集性的出现,哪些又会导致个体间变异增大。由于该模型成功地解决了长期困扰统计学界的数据聚集性问题,20年来已经得到了飞速的发展,也成为SPSS等权威统计软件的标准统计分析方法之一 


在传统的线性模型(y=xb+e)中,除X与Y之间的线性关系外,对反应变量Y还有三个假定:①正态性,即Y来自正态分布总体;②独立性,Y的不同观察值之间的相关系数为零;③方差齐性,各Y值的方差相等。但在实际研究中,经常会遇到一些资料,它们并不能完全满足上述三个条件。例如,当Y为分类反应变量时,如性别分为男、女,婚姻状态为已婚、未婚,学生成绩是及格、不及格等,不能满足条件①。当Y具有群体特性时,如在抽样调查中,被调查者会来自不同的城市、不同的学校,这就形成一个层次结构,高层为城市、中层为学校、低层为学生。显然,同一城市或同一学校的学生各方面的特征应当更加相似。也就是基本的观察单位聚集在更高层次的不同单位中,如同一城市的学生数据具有相关性,不能满足条件②。当自变量X具有随机误差时,这种误差会传递给Y,使得Y不能满足条件③。


如果对不满足正态性、独立性、方差齐性三个适用条件的资料采用传统的分析方法,对所有样本一视同仁,建立回归方程,就会带来如下问题:

(1)参数估计值不再具有最小方差线性无偏性。

(2)会严重低估回归系数的标准误差。

(3)容易导致估计值过高,使常用的检验失效,从而增加统计检验I型错误发生的概率。


如果我们对不同的群体分别建立各自的回归模型,当群体数较少,群体内样本容量较大,传统的分析方法可能是有效的。或者,我们的兴趣仅在于对这些群体分别做一些统计推断时,也适合用这种方法。但是如果我们把这些群体看成是从总体中抽样来的一个样本(例如多阶段抽样和重复测度数据),并想分析不同群体之间的总体差异,那么简单地使用传统的统计方法是不够的。同样,如果一些群体包含的样本容量较少,对这些群体做出的推断也不可靠。因此,我们需要把这些群体看成是从总体抽样来的样本,并使用样本总体的信息来进行推断。


方差分析(写成英文我就认识了。。analysis of variance (ANOVA) )主要有三种模型:即固定效应模型(fixed effects model),随机效应模型(random effects model),混合效应模型(mixed effects model)。

所谓的固定、随机、混合,主要是针对分组变量而言的。

固定效应模型,表示你打算比较的就是你现在选中的这几组。例如,我想比较3种药物的疗效,我的目的就是为了比较这三种药的差别,不想往外推广。这三种药不是从很多种药中抽样出来的,不想推广到其他的药物,结论仅限于这三种药。“固定”的含义正在于此,这三种药是固定的,不是随机选择的。

随机效应模型,表示你打算比较的不仅是你的设计中的这几组,而是想通过对这几组的比较,推广到他们所能代表的总体中去。例如,你想知道是否名牌大学的就业率高于普通大学,你选择了北大、清华、北京工商大学、北京科技大学4所学校进行比较,你的目的不是为了比较这4所学校之间的就业率差异,而是为了说明他们所代表的名牌和普通大学之间的差异。你的结论不会仅限于这4所大学,而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此,这4所学校是从名牌和普通大学中随机挑选出来的。混合效应模型就比较好理解了,就是既有固定的因素,也有随机的因素。

一般来说,只有固定效应模型,才有必要进行两两比较,随机效应模型没有必要进行两两比较,因为研究的目的不是为了比较随机选中的这些组别。

固定效应和随机效应的选择是大家做面板数据常常要遇到的问题,一个常见的方法是做huasman检验,即先估计一个随机效应,然后做检验,如果拒绝零假设,则可以使用固定效应,反之如果接受零假设,则使用随机效应。但这种方法往往得到事与愿违的结果。另一个想法是在建立模型前根据数据性质确定使用那种模型,比如数据是从总体中抽样得到的,则可以使用随机效应,比如从N个家庭中抽出了M个样本,则由于存在随机抽样,则建议使用随机效应,反之如果数据是总体数据,比如31个省市的Gdp,则不存在随机抽样问题,可以使用固定效应。同时,从估计自由度角度看,由于固定效应模型要估计每个截面的参数,因此随机效应比固定效应有较大的自由度.

固定效应模型
固定效应模型(fixed effects model)的应用前提是假定全部研究结果的方向与效应大小基本相同,即各独立研究的结果趋于一致,一致性检验差异无显著性。因此固定效应模型适用于各独立研究间无差异,或差异较小的研究。


固定效应模型是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果,而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。例如:研究者想知道教师的认知类型在不同教学方法情境中,对儿童学习数学的效果有何不同,其中教师和学生的认知类型,均指场地依赖型和场地独立型,而不同的教学方法,则指启发式、讲演式、编序式。当实验结束时,研究者仅就两种类型间的交互作用效果及类型间的差异进行说明,而未推论到其他认知类型,或第四种教学方法。象此种实验研究模式,即称为固定效果模式。与本词相对者是随机效应模型(random effect model)、混合效应模型(mixed effect model)。

随机效应模型 random effects models


随机效应模型(random effects models)是经典的线性模型的一种推广,就是把原来(固定)的回归系数看作是随机变量,一般都是假设是来自正态分布。如果模型里一部分系数是随机的,另外一些是固定的,一般就叫做混合模型(mixed models)。


虽然定义很简单,对线性混合模型的研究与应用也已经比较成熟了,但是如果从不同的侧面来看,可以把很多的统计思想方法综合联系起来。概括地来说,这个模型是频率派和贝叶斯模型的结合,是经典的参数统计到高维数据分析的先驱,是拟合具有一定相关结构的观测的典型工具。


随机效应最直观的用处就是把固定效应推广到随机效应。注意,这时随机效应是一个群体概念,代表了一个分布的信息 or 特征,而对固定效应而言,我们所做的推断仅限于那几个固定的(未知的)参数。例如,如果要研究一些水稻的品种是否与产量有影响,如果用于分析的品种是从一个很大的品种集合里随机选取的,那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里,就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。


同时,引入随机效应就可以使个体观测之间就有一定的相关性,所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据,多时间点的记录等等,很多时候就叫做纵向数据(longitudinal data),已经成为很大的一个统计分支。


混合效应模型(Mixed Effect Model)可以轻松处理多种研究设计和数据类型,因而越来越多地被研究者采用进行分析。它能够处理的模型类型包括:固定效应方差分析模型、完全随机区组设计(Randornized Complete Blocks Design)、裂区设计(Split-Plot Design)、纯随机效应模型(Purely Random Effects Model)、随机系数模型(Random Coefficient Model)、多水平分析(Multilevel Analysis)、非条件线性生长模型(Unconditional Linear Growth Model)、具有皮尔逊协变量的线性生长模型(Linear Growth Model with a Person-Level Covariate)、重复测量分析、具有依时协变量的重复测量分析(Repeat Measures Analysis with Time-Dependent Covariates)。一句话,混合效应模型非常强大。


混合效应模型之所以那么“万能”,是因为它把模型的效应分解为固定效应和随机效应,而随机效应可以解释很多复杂的研究设计和数据结构。比如,在多水平研究设计中,随机效应就可以把多水平之间的嵌套关系进行拟合;我们常见的重复测量数据,每个研究对象具有多次的测量值,其实也属于两水平的嵌套关系,所以随机效应也可以进行拟合。


在众多模型中,线性模型具有模型解释的优良性,所以最典型的混合效应模型也就是线性混合效应模型,为了让模型适应更多的数据类型(如:二分类的因变量等),我们可以利用连接函数的特性将模型拓展为广义线性混合效应模型,关于连接函数的意义,大家可回复“广义”查看微信文章《广义可加模型》进行参考学习。

下面针对重复测量数据,以SPSS实现线性混合效应模型为例,介绍广义线性混合效应模型的“万能”应用之一。

下图展示的数据为16位患者的性别和体重,其中体重变量每人重复测量5次。

通过SPSS的菜单【Analyze】【Mixed Models】【Generalize Linear...】打开广义混合效应模型的操作界面,首先是定义数据结构(Data Structure),把患者id拖到Subjects下面,把time拖到Repeated measures下面。

在Fields & Effects界面下,设置因变量和对应的分布。本例选择体重作为因变量,拟合线性模型。

在Fields & Effects界面下,设置固定效应。本例设定的固定效应包括截距、时间、性别。

在Fields & Effects界面下,设置随机效应。这里稍微有点复杂,需要通过【Add Block...】按钮打开随机效应设置界面。本例设定的随机效应为带有截距项的时间嵌套在患者id下的结构,协方差类型选择方差成分。

其他界面的参数都采用默认设置即可,点击【Run】查看结果。

首先是模型的拟合指标,AIC=392.608、BIC=407.039、-2LLR=376.911。

然后是固定效应,这是我们主要看的结果,可以看出时间和性别都具有统计学意义,从时间各个哑变量的系数(逐渐变小)可以看出,体重随着时间逐渐下降。男性(gender=0)的系数为正,说明男性比女性的体重大。

接着看随机效应的结果,随机效应是否具有统计学意义不是我们关注的重点,因为这是研究设计的特点要求我们必须考虑的。截距的协方差具有统计学意义,说明每个患者间的体重存在着个体差异,且具有统计学意义。时间的协方差无统计学意义,说明每个患者体重变化的趋势类似,差异无统计学意义。

最后我们通过图形来直观理解因变量在各自变量间的分布,跟上面固定效应的结果一致。

到此,广义线性混合效应模型对重复测量数据进行分析的例子已经介绍完毕。大家可通过调整数据结构界面的设置,轻松应用到其他复杂的模型,特别是多水平的模型中。


还有一个值得强调的地方,就是混合效应模型在设置随机效应的时候需要我们定义随机效应的协方差类型,在本例中我们选用了方差成分(Variance component),另外还有First-order autoregressive (AR1)、Autoregressive moving average (1,1) (ARMA11)、Compound symmetry、Diagonal、Scaled identity、Toeplitz、Unstructured等类型可供选择。我们可以根据专业知识来进行选择,也可以尝试不同的协方差类型,通过比较模型的AIC和BIC来选取较优的类型。


写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群信息。


提议

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多