广义混合效应模型(GLMM)/广义估计方程(GEE)可用于非正态分布数据的分析。可以分析非正态数据指的是除了可以分析正态性的连续性数据,还以可以分析分类数据(二项式、多项式分布)、计数资料(泊松分布、负二项分布)等数据类型,而不是指可以不管满不满足正态性的要求,都可以使用GLMM或者GEE。如果你的因变量是连续性变量,在使用GLMM或者GEE进行分析时,默认的线性模型采用的链接函数是恒等,仍然要求数据满足正态。
严格来说,正态性指的是模型的残差成正态,而且是多元正态,因为重复测量数据是多次测量因变量,所以存在“多个因变量”。除了正态性要求,方差-协方差矩阵也要求齐同。还好这些方法对违反多元正态具有稳健性。顺便说下这个方差-协方差矩阵齐同,常用检验方法是Box’M检验,Box’M检验受正态性的影响较大可能会不准确,且样本量较大时Box'M检验P值会很小,如果各组样本量大致相等(样本最大组与最小值样本量在1.5倍之内),多元方差方差分析对违反多元正态性和违反方差-协方差矩阵的同质性具有稳健性。 对于严重偏态的重复测量数据,可以考虑数据变换。或者考虑将连续变量转变成分类变量,然后进行重复测量的logistic回归。 二、标识重复测量的时间因素作为连续变量还是分类纳入模型? 重复测量的方差分析将时间因素作为分类变量看待的,是在每个时间点上建立模型。 GEE、LMM、GLMM都仍然是“线性”模型,模型因变量与时间变量之间要求呈线性【注:对于非连续性变量,这里的模型因变量指的是经过链接函数变换后因变量】。 将时间因素按分类变量纳入纳入模型不会存在线性不满足的问题。分类变量常以哑变量的形式进行分析,哑变量其实就是将具有K个水平的分类变量转变成K-1个二分类的自变量,两点之间必成直线。只不过当重复测量的时间点比较多时,需要估计的参数会比较多。 将时间因素按连续变量纳入模型时,应特别注意是否满足线性关系。如果随着时间的变化,模型因变量值并不呈线性关系,强行纳入并不合适,此时需要纳入时间因素的高次项,可通过绘制轮廓图来大体判断曲线的变化。按连续变量纳入一般需要估计的参数相对较少,尤其是重复测量时间点比较多时最终的模型更为简洁。 对于同一个重复测量数据集,信息准则也可以用来判断更合适的纳入方式。 三、首次测量值应该作为重复测量的一个数据点来对待,还是按照基线值来处理? 需要根据分析目的来确定。 如果你的目的想看下干预前后的变化趋势,绘制带有初始测量值的轮廓图似乎更合适。另外,在观察性研究中,开始记录测量值的时候,研究因素已经存在了,此时的测量值和后续的测量值没有什么不一样,只是时间前后的不同,这时候也应该作为重复测量的一个数据点。 如果你的目的采用重复测量设计来研究一个干预是否有效。在这种设计中,往往会在施加干预之前进行因变量的首次测量(基线值),在干预施加之后再进行重复测量。在分析这样的数据时,宜将干预前的因变量值作为基线来处理,而不建议将基线值作为重复测量的一个数据点。此时我们的目的就是看干预后的结果,如果将没施加干预时的基线也当做干预后的结果来对待,可能会对分析结果产生一些影响。在笔者早期的一些笔记中【见文末】,有很多都是把基线值作为重复测量的一个数据点来处理的,其实并不是很恰当。回顾一下我们是如何分析两样本试验数据的吧:先进行比较基线,如果基线没有差异我们会直接比较干预后的结果;如果基线有差异,可以比较两组的差值(倍差法),或者考虑协方差分析。重复测量也是如此,只不过把因变量由1个扩展为多个而已。你可以把干预后的结果想象成一个整体,我们关注的是干预后的因变量变化,因此干预前的因变量值应该作为基线进行处理:如果这个基线在组间均衡,我们可以直接用干预后的多次测量进行重复测量分析;如果这个基线在各组间有统计学差异,则将其作为协变量纳入重复测量模型起到校正作用,或者把干预后的结果全部减去基线值,然后用差值进行重复测量分析。 进行GEE、GLMM(LMM)进行分析时需要选择重复测量的方差-协方差结构。重复测量的方差分析对协方差结构也是有要求的,一元重复测量方差分析要求的残差方差-协方差成复合对称,而多元重复测量方差分析则相当于无结构限制的结构。 如何选择合适的协方差结构,对于大分部人(我)来说并不是一件容易的事。除了常见的独立、等相关(复合对称)、自相关等结构外,LMM中还提供了众多的协方差结构供选择。依靠信息准则来判定更合适的重复测量结构或许是一种不错的选择。 GEE在默认的稳健估计的前提下,即使“相关作业矩阵”结构指定不正确,参数估计依旧具有一致性。GEE中使用的信息准则QIC和QICC是基于准似然函数(广义似然函数)来获得的,可以看做是AIC的扩展。简单来说,QIC用于选择在同一个模型中更合适的方差-协方差结构,而QICC则是在同一个方差-协方差结构下,选择更合适的模型(预测变量)。来做SPSS的帮助文件说明如下:For generalized estimating equations, displays two extensions of AIC for model selection: Quasi-likelihood under the independence model criterion (QIC) for choosing the best correlation structure, and corrected quasi-likelihood under the independence model criterion (QICC) for choosing the best subset of predictors. The usual concept of the likelihood function does not apply to generalized estimating equations; thus, the usual goodness of fit statistics cannot be computed. Instead, these information criteria based on a generalization of the likelihood are computed.
五、报错警示 常见警示1:不能收敛。尤其是选择“无结构”协方差结构时,需要估计大量的参数,结果常常不能收敛。原因与解决方法如下:
出现这种警示大概率是数据的错误录入所致。例如在一个重复测量数据集中,id来标识个案,time来标识重复测量的水平(假设有4次重复测量,分别赋值为1、2、3、4),对于同一个重复测量个体id,其对应的time不能有相同的取值。如果id=1的受试者,其time中出现了1、2、2、4,结果就会出现这种警示。 ----------------------------- 二分类重复测量资料的广义估计方程【SPSS】 |
|
来自: Memo_Cleon > 《待分类》