【原】重复测量数据分析中的几个常见问题：正态、基线值处理、报错警示…

Memo_Cleon 2023-04-12 发布于上海

展开全文

一、不满足正态分布的重复测量数据可以用混合效应模型或者广义估计方程来分析吗？

广义混合效应模型（GLMM）/广义估计方程（GEE）可用于非正态分布数据的分析。可以分析非正态数据指的是除了可以分析正态性的连续性数据，还以可以分析分类数据（二项式、多项式分布）、计数资料（泊松分布、负二项分布）等数据类型，而不是指可以不管满不满足正态性的要求，都可以使用GLMM或者GEE。如果你的因变量是连续性变量，在使用GLMM或者GEE进行分析时，默认的线性模型采用的链接函数是恒等，仍然要求数据满足正态。

重复测量的方差分析：重复测量方差分析归在一般线性模型的范畴，包括重复测量一元方差分析和多元方差分析。适用条件还是比较苛刻的，多元正态、组间方差-协方差矩阵相等（Box’M检验），数据上也不能有缺失值，仅能分析连续性变量；
广义估计方程（GEE）：广义线性模型（GLM）是对一般线性模型的扩展，除了可以分析连续变量，分析类型扩展到分类、计数资料等，GEE在此基础上进一步扩展到可以处理非独立数据。GEE仍属于广义线性模型的范畴；
线性混合模型（LMM）与广义线性混合模型（GLMM）：LMM是对方差分析模型的扩展，使其能够处理非独立数据；GLMM可以看做是GLM和LMM的融合，可以处理非连续性变量。

严格来说，正态性指的是模型的残差成正态，而且是多元正态，因为重复测量数据是多次测量因变量，所以存在“多个因变量”。除了正态性要求，方差-协方差矩阵也要求齐同。还好这些方法对违反多元正态具有稳健性。顺便说下这个方差-协方差矩阵齐同，常用检验方法是Box’M检验，Box’M检验受正态性的影响较大可能会不准确，且样本量较大时Box'M检验P值会很小，如果各组样本量大致相等（样本最大组与最小值样本量在1.5倍之内），多元方差方差分析对违反多元正态性和违反方差-协方差矩阵的同质性具有稳健性。

对于严重偏态的重复测量数据，可以考虑数据变换。或者考虑将连续变量转变成分类变量，然后进行重复测量的logistic回归。

二、标识重复测量的时间因素作为连续变量还是分类纳入模型？

重复测量的方差分析将时间因素作为分类变量看待的，是在每个时间点上建立模型。

GEE、LMM、GLMM都仍然是“线性”模型，模型因变量与时间变量之间要求呈线性【注：对于非连续性变量，这里的模型因变量指的是经过链接函数变换后因变量】。

将时间因素按分类变量纳入纳入模型不会存在线性不满足的问题。分类变量常以哑变量的形式进行分析，哑变量其实就是将具有K个水平的分类变量转变成K-1个二分类的自变量，两点之间必成直线。只不过当重复测量的时间点比较多时，需要估计的参数会比较多。

将时间因素按连续变量纳入模型时，应特别注意是否满足线性关系。如果随着时间的变化，模型因变量值并不呈线性关系，强行纳入并不合适，此时需要纳入时间因素的高次项，可通过绘制轮廓图来大体判断曲线的变化。按连续变量纳入一般需要估计的参数相对较少，尤其是重复测量时间点比较多时最终的模型更为简洁。

对于同一个重复测量数据集，信息准则也可以用来判断更合适的纳入方式。

三、首次测量值应该作为重复测量的一个数据点来对待，还是按照基线值来处理？

需要根据分析目的来确定。

如果你的目的想看下干预前后的变化趋势，绘制带有初始测量值的轮廓图似乎更合适。另外，在观察性研究中，开始记录测量值的时候，研究因素已经存在了，此时的测量值和后续的测量值没有什么不一样，只是时间前后的不同，这时候也应该作为重复测量的一个数据点。

如果你的目的采用重复测量设计来研究一个干预是否有效。在这种设计中，往往会在施加干预之前进行因变量的首次测量（基线值），在干预施加之后再进行重复测量。在分析这样的数据时，宜将干预前的因变量值作为基线来处理，而不建议将基线值作为重复测量的一个数据点。此时我们的目的就是看干预后的结果，如果将没施加干预时的基线也当做干预后的结果来对待，可能会对分析结果产生一些影响。在笔者早期的一些笔记中【见文末】，有很多都是把基线值作为重复测量的一个数据点来处理的，其实并不是很恰当。回顾一下我们是如何分析两样本试验数据的吧：先进行比较基线，如果基线没有差异我们会直接比较干预后的结果；如果基线有差异，可以比较两组的差值（倍差法），或者考虑协方差分析。重复测量也是如此，只不过把因变量由1个扩展为多个而已。你可以把干预后的结果想象成一个整体，我们关注的是干预后的因变量变化，因此干预前的因变量值应该作为基线进行处理：如果这个基线在组间均衡，我们可以直接用干预后的多次测量进行重复测量分析；如果这个基线在各组间有统计学差异，则将其作为协变量纳入重复测量模型起到校正作用，或者把干预后的结果全部减去基线值，然后用差值进行重复测量分析。

四、重复测量的方差-协方差结构

进行GEE、GLMM（LMM）进行分析时需要选择重复测量的方差-协方差结构。重复测量的方差分析对协方差结构也是有要求的，一元重复测量方差分析要求的残差方差-协方差成复合对称，而多元重复测量方差分析则相当于无结构限制的结构。

如何选择合适的协方差结构，对于大分部人（我）来说并不是一件容易的事。除了常见的独立、等相关（复合对称）、自相关等结构外，LMM中还提供了众多的协方差结构供选择。依靠信息准则来判定更合适的重复测量结构或许是一种不错的选择。

GEE在默认的稳健估计的前提下，即使“相关作业矩阵”结构指定不正确，参数估计依旧具有一致性。GEE中使用的信息准则QIC和QICC是基于准似然函数（广义似然函数）来获得的，可以看做是AIC的扩展。简单来说，QIC用于选择在同一个模型中更合适的方差-协方差结构，而QICC则是在同一个方差-协方差结构下，选择更合适的模型（预测变量）。来做SPSS的帮助文件说明如下：For generalized estimating equations, displays two extensions of AIC for model selection: Quasi-likelihood under the independence model criterion (QIC) for choosing the best correlation structure, and corrected quasi-likelihood under the independence model criterion (QICC) for choosing the best subset of predictors.

The usual concept of the likelihood function does not apply to generalized estimating equations; thus, the usual goodness of fit statistics cannot be computed. Instead, these information criteria based on a generalization of the likelihood are computed.

The Quasi-likelihood under Independence Model Criterion (QIC) can be used to help you choose between two correlation structures, given a set of model terms. The structure that obtains the smaller QIC is "better" according to this criterion.
The Corrected Quasi-likelihood under Independence Model Criterion (QICC) can be used to help you choose between two sets of model terms, given a correlation structure. The model that obtains the smaller QICC is "better" according to this criterion. The computation of the QICC assumes that the distribution, link function, and working correlation matrix specifications are all "correct" for the dataset.

五、报错警示

常见警示1：不能收敛。尤其是选择“无结构”协方差结构时，需要估计大量的参数，结果常常不能收敛。原因与解决方法如下：

常见警示2：同一个受试者出现了相同的重复测量水平。

The levels of the repeated effect are not different for each observation within a repeated subject.Execution of this command stops.
There are at least two records with the same values for the subject and within-subject variables. No output will be displayed.

出现这种警示大概率是数据的错误录入所致。例如在一个重复测量数据集中，id来标识个案，time来标识重复测量的水平（假设有4次重复测量，分别赋值为1、2、3、4），对于同一个重复测量个体id，其对应的time不能有相同的取值。如果id=1的受试者，其time中出现了1、2、2、4，结果就会出现这种警示。

-----------------------------

既往重复测量数据分析方法

重复测量数据的方差分析【SPSS】

重复测量数据的方差分析【JMP】

多个分组因素的重复测量资料的方差分析【SPSS】

广义估计方程【SPSS】

广义估计方程【STATA】