分享

各类轨迹建模技术如何使用?适用数据、步骤及规范,一文讲清楚

 妙趣横生统计学 2024-04-30 发布于江苏

统计服务,欢迎咨询!

郑老师团队指导 | 重复测量资料的数据分析一对一高级学习班,掌握SPSS、R语言分析技巧


本文翻译自《Clinical Epidemiology》杂志的一篇论文,题为:“Trajectory Modelling Techniques Useful to Epidemiological Research: A Comparative Narrative Review of Approaches”(对流行病学研究有用的轨迹建模技术:方法的比较叙述回顾)。
本篇是潜变量系列文章第8篇
本公众号回复“沙龙”即可获得R语言代码,PPT,数据等资料
研究摘要

近年来,不断有采用轨迹建模技术研究涌现,多数为医疗领域内纵向数据的挖掘,对人群健康情况随时间的个体内和个体间变异性进行探究。本综述旨将阐述流行病学研究中的各种轨迹建模方法,并概述它们的应用和差异,同时提供如何报告轨迹建模结果的指导。
本文综述的潜类别建模方法包括增长混合模型(GMM)、组轨迹模型(GBTM)、潜类别分析(LCA)和潜转换分析(LTA),并与其他侧重单个数据的统计方法如聚类分析(CA)和序列分析(SA)进行对比。根据研究问题和数据类型不同,可以采用多种方法对纵向研究中的重复测量数据进行轨迹建模,然而目前对于各种潜类别建模方法(GMM、GBTM、LTA、LCA)存在多种不一致的术语,容易引起混淆。报告术语的一致性有助于提高研究人员选择技术时的效率,因此本文将一并对上述建模方法的术语进行统一。
关键词:建模技术,增长混合模型,组轨迹模型,潜类别分析,潜转换分析,聚类分析,序列分析

引言

对测量结果取均值是分析整体或某特定亚组的指标变化最常见的手段,但有一种情况相当普遍,就是存在一批未知的个体,拥有相似的临床症状、行为或医疗模式。真实世界中的整体是由许多个体组成的,因此使用估计的均值来描述整体,实际上是对真实临床环境中复杂的个体内和个体间变异性的过度简化。针对这一情况,轨迹模型应运而生,将个体按特定项目上的相似性区分,并分配到不同的轨迹中。

为什么要对轨迹进行建模?

在纵向数据中,轨迹描述了随时间变化的某一数量、行为、生物标志物或其他重复测量数据的演变过程。轨迹建模侧重个体间的关系,目的是基于个体反应模式,将它们归类到不同的潜在类别中。分类的目的是让同一类别内的个体之间的相似性大于不同类别内个体之间的相似性。根据个体的相似性进行分组并赋予类别标签,是组织大型数据集、提高效率和理解的一个有力工具,研究者可以通过寻找潜在类别以指导预防和临床实践。
例如可以根据症状严重程度的不同轨迹(随时间变化的疼痛强度得分)对患者进行重新分组。识别到潜在类别后,所在类别就可以作为一个因变量来识别健康轨迹的预测因子,或作为自变量来探索它们对未来健康结果的影响。如图1所示,与基于样本均值的测量相比,轨迹建模使研究人员能够更好地描述和理解随时间变化的健康结果在个体内和个体间的变异性和模式,它在探索健康状况的异质性、识别需要更好医疗保健的脆弱人群以及识别通往最佳健康结果的轨迹方面非常有用。这样的方法可以提供科学证据,优化针对特定亚群体需求的个性化医疗保健。
上述方法在流行病学领域的使用相对较新,迄今为止,关于轨迹建模的非技术性比较方法论论文发表不多,而且非统计学者在浏览相关文献时会遇到各种挑战。本综述的目的是提供各种轨迹建模技术的概览,并讨论它们的应用和差异,以帮助卫生研究人员选择最适合其研究问题的技术。更具体地说,本文回顾了四种潜在类别建模方法:一种参数法(增长混合模型[GMM]),和三种半参数法(组轨迹模型[GBTM]、潜类别分析[LCA]和潜转换分析[LTA])。
本文超越了之前发表的综述,通过将这些轨迹建模技术与其他以个体为中心的统计方法(如聚类分析[非参数法]和序列分析[非参数法])进行比较。这篇综述的受众是为那些不熟悉高级统计理论的读者,对于本文中回顾的每一种统计方法,我们都将介绍基本概念、处理的数据类型、进行分析所涉及的各个步骤、可用的统计软件包以及一个现实世界的例子,也会讨论如何更好地报告轨迹建模的结果,最是本综述中提出的关键点的总结。

轨迹建模方法

现有的用于检查轨迹模式方法和算法可以分为三种主要类型:非参数法、参数法和半参数法。非参数法不对数据的分布做任何假设,因此个体被分配到一个子类别是基于不相似程度。相比之下,参数法和半参数法假设数据来自有限的混合分布。因此,个体被分配到一个亚组是基于该亚组成员资格的条件概率。

潜类别建模方法

潜变量的使用起源于心理学和社会科学领域,用于建模未被观察到的量,例如发展轨迹。其在流行病学领域的应用相对较新。例如在疼痛研究中,潜变量越来越多地被用于建模疼痛严重程度(例如强度评分、干扰评分)。
潜类别模型是包括无法直接观察到的随机变量的统计模型,基于个体被观察到的症状或行为,将他们分配到潜在轨迹亚组中。每个亚组由在观察到的行为上有相对类似观察的个体组成。潜类别模型可以应用于纵向或横断面数据,能够处理包括部分缺失数据、离散量表重复测量或时间变化协变量等多种复杂情况。在纵向数据的潜类别模型方法中,为了正确估计,至少需要三个测量时间点,而为了估计涉及立方或二次趋势的更复杂模型,四到五个测量时间点更为理想。纵向潜在类别建模方法不是评估单个时间点或相邻时间点之间的变化,而是识别在整个研究期间具有相似结果模式的受试者子群。
本文论述了四种潜类别模型。三种适用于纵向数据:增长混合模型(GMM)、组轨迹模型(GBTM)和潜转换分析(LTA),而潜类别分析(LCA)适用于横断面数据。时常见到论文作者使用不恰当的术语来指代他们所使用的方法,因此非统计学研究者在选择合适的方法进行自己的研究时会面临困难。为了解决这个问题,本文概述了不同的潜在类别方法,并提供了使用这些统计方法的研究的具体示例,见表1。下面将详细介绍每种方法。

增长混合模型Growth Mixture Modelling (GMM)

1.介绍
GMM是一种有限混合模型。它假设在任何给定的人群中,存在有限数量的未观察到的亚群体或类别(潜在类别),这些类别具有相似的行为或经历。这与经典统计模型形成对比,传统模型假设所有个体都来自具有共同人群参数的同一人群。
GMM是一种用于纵向数据的参数模型,它为每个潜在类别估计一个平均增长曲线,并允许同一类别内部个体之间存在变异。通过在模型中引入随机效应,可以捕捉类别内的异质性,从而估计增长参数(截距和斜率)的方差。因此,随机效应用于表示个体潜在增长参数与人口平均增长参数之间的差异。
例如,在三个疼痛强度轨迹亚组(无改善、逐渐改善、快速改善)的情况下,GMM允许在这些亚组中的任何一个里,任何个体的疼痛强度都可以比同一亚组中的任何其他个体更强烈。对于每个轨迹,GMM估计一个截距、一个斜率以及一个增长参数的方差。这些参数是通过最大化对数似然函数来估计的。对于每个个体,基于观测数据估计其属于每个类别的概率(后验群体概率)。然后根据较高的后验群体概率将个体分配到对应的子轨迹中。
在GMM中,协变量(无论其是否随时间变化)的贡献也可以被建模。实际上,某个体属于某一潜类别的概率可能会根据协变量而变化,且协变量可以影响模型系数。一旦确定了轨迹成员身份,它可以被用作因变量或自变量来探索健康轨迹的预测因子及其对未来健康结果的贡献。
2.适用数据类型
GMM用于纵向数据,最初是为研究连续数据而开发的。但后来,它被改进以处理其他类型的数据,比如计数数据(无论是否存在零膨胀)和分类数据。
3.操作步骤
GMM可以通过迭代程序实施,其实施需要基于研究领域的知识以及统计推断来做出先验决策。
第一步:问题定义和轨迹亚组数量的规定
首先,研究领域与方法之间的联系被正式建立。其次,制定一个合适的分析计划。基于研究者对该领域的了解和对原始数据的描述性分析,假设潜在类别的预期数量和每个类别的曲线形态。例如,我们可以预期,接受手术的患者将遵循各种术后疼痛强度的轨迹(轻度、中度或重度疼痛,随后是疼痛的改善或持续)。
第二步:模型规范 
在这一步中,可以指定和估计一系列模型。研究人员可能会就增长参数(截距、斜率方差和协方差)以及协变量的添加做出决策。应尽可能采取实质性理论和先前的研究指导这些决策。例如,如果研究人员预期有三个潜在类别,他们可以开始拟合两个、三个和四个类别的模型,决定决定每个轨迹随时间变化的形状应该是线性的、二次的还是三次的,还应决定增长因子方差是否应该对每个类别具体化,类内增长因子协方差是否应该不为零,以及结果残差方差是否应该与类别无关。Frankfurt等(2016)强调正确规定模型以避免基于解释的陷阱的重要性。此外,正确的模型规范能够降低GMM结果解释的复杂性。
第三步:模型估计 
GMM可以通过最大似然法或贝叶斯方法估计。
第四步:模型选择与解释 
本步骤的目的是确定测试的模型哪一个最能合理地代表观测到的数据。应通过LoMendell-Rubin调整似然比测试(LMR-LRT,p<0.05表示更好的拟合)来比较各个模型的拟合优度,该测试适用于嵌套模型(k+1与k类模型),和/或参数化自助法似然比测试(p<0.05表示更好的拟合),和/或贝叶斯信息准则(BIC)(较小的BIC表示更优的模型)。研究人员还应考虑模型的收敛性、模型提供的类别是否分明(熵接近1)、样本中每个轨迹的比例(建议超过5%)、平均后验概率(接近1)、简约性以及观察到的潜在类别在实践中的实用性。
4.可用软件包
GMM可以通过Mplus软件和R中的lcmm包来实现。据我们所知,商业统计软件如SPSS、SAS等目前还没有提供GMM软件包。
5.优势与局限性
与所有其他潜在类别建模方法一样,GMM对于处理一些技术方面非常有用,例如处理缺失数据、允许残差相关以及将回归中的残差和混合效应模型中的随机效应视为潜在变量。与其他潜在类别建模方法不同的是,GMM为每个类别估计一个平均增长曲线,并通过估计每个类别的增长因子方差来捕捉围绕这些增长曲线的个体变异。此外,因为GMM估计的参数比其他潜在类别建模方法多得多,结果的解释可能会很复杂,这使得这种方法对许多健康研究人员来说难以接近。
6.GMM的实际应用
以Pagé等(2019)的研究为例,他们采用GMM检查心脏手术患者术后抑郁和焦虑的轨迹。使用手术前、手术后7天以及3个月、6个月、12个月和24个月时测量的医院焦虑和抑郁量表(HADS)分数,拟合了一个包含围手术期协变量的三条轨迹模型。轨迹建模基于特定的选择标准,如最低的AIC和BIC、最小轨迹亚组中超过5%的患者以及理论上的合理性。然后将轨迹类别用作广义估计方程(GEE)中的分类变量,旨在检查与此类轨迹相关的人口统计学和临床特征。该研究发现了一组患者焦虑持续不缓解的患者,可能预测了持续的、甚至延续到术后2年的疼痛。

组轨迹模型Group-Based Trajectory Modelling (GBTM)

1.介绍
同GMM一样,GBTM(类似潜在类别增长模型LCGA)是一种有限混合模型。GBTM是一种基于纵向数据的半参数模型,它假设人群分布是离散的,从而从中区分出拥有相似轨迹的潜在类别。GMM估计潜类别内部的方差,而GBTM假设同一潜类别内部的个体之间没有变异(增长因素上没有随机效应),因此实际上GBTM是GMM的简化版。例如,在前述的三个疼痛强度轨迹潜类别(无改善、逐渐改善、快速改善)中,GBTM假设每个潜类别中的所有个体具有相同的疼痛强度演变,然后估计属于该潜类别的人口比例,再估计每个个体属于某个潜类别的概率(后验群体概率)。如同在GMM模型中一样,每个个体按照最高的后验群体概率被分配到特定的潜类别中。参数通过最大化似然来估计,模型中也可以纳入随时间变化或保持不变的协变量。
2.适用数据类型
GBTM是基于纵向数据的,专为研究下列三中类型的变量而开发:连续数据(特别是心理测量学产生的尺度数据)、计数数据、以及分类数据。
3.操作步骤
与GMM一样,GBTM拟合过程是迭代的,需要根据研究领域的知识进行事先决策。然而它需要研究人员做出的决策更少。
第一步:问题定义和轨迹亚组数量的规定
与GMM模型相同。
第二步:模型规范 
建议首先测试一个单一群组模型,然后逐步调整,最后确定逻辑亚组的最大数量,这个最大数量应该大于预期的亚组数量。在只有三个时间点的数据集中,应该只测试一个单一的二次方程轨迹模型。如果这个模型的二次项并不显著,那么应该运行一个线性轨迹模型来代替,并计算这个模型的贝叶斯信息准则(BIC)值。如果二次项显著,那么就进行两条轨迹的二次模型分析。然后将BIC值与只包含一条轨迹的模型的BIC值进行比较,这一过程会一直重复,直到找到BIC值最小的模型。每增加一条轨迹,都会重新评估模型的BIC值,以确定是否通过增加轨迹数量来改进模型拟合。理想情况下,应结合研究领域的知识和统计考虑来决定每个子轨迹的形状。例如模拟随时间变化的医疗接触次数时,那些在整个研究期间没有与医疗系统接触的病人,可以假设他们属于一个“零阶形状”轨迹,即他们的医疗接触次数保持为零(水平直线)。
第三步:模型估计
与GMM相同。
第四步:模型选择与解释
模型选择应结合研究领域的具体需求,同时还应考虑以下因素:1)选择模型时,应偏好既实用又简洁的模型;2)模型应确保每个子群体的估计概率与根据最大概率归属规则分类的个体比例相匹配;3)每个子群体的平均后验概率应大于或等于0.7;4)每个子群体中的个体数量应超过总数的5%;5)模型的置信区间应足够窄;6)比较具有不同子群体数量的模型时,应考虑它们的BIC值差异。
4.可用软件包
GBTM模型可以通过SAS软件中的Proc Traj程序步来使用,也可以通过Mplus、R语言的crimCV包和lcmm包,以及使用Stata的traj插件来实现,在SPSS或Excel中不可用。
5.优势与局限性
GBTM是GMM的一个更简洁的版本,两者在处理缺失数据和允许相关残差方面都具有相同的优势。GBTM假设同一轨迹类别中的所有个体都表现出相同的行为,而GMM允许存在潜类别内部存在随机效应。这意味着,使用GBTM时,研究人员可以讨论潜类别之间的差异,但不能讨论潜类别内部的差异。GBTM估计的参数更少,因此运行速度更快,报错更少。同时由于模型较为简单,结果也可能更易于解释。出于这些原因,GBTM通常是研究人员更实用的选择。
6.GBTM的实际应用
Flint等(2017)通过GBTM法研究了参加以患者为中心的疾病管理干预随机对照试验的心力衰竭门诊患者的健康状态轨迹。研究借助堪萨斯城心肌病问卷(KCCQ)在基线、3个月、6个月和12个月的测量数据,根据以下标准识别了包括一些协变量的三种健康状态轨迹:
(1)各种统计指标(较低的BIC和AIC,显著的LMR-LRT以及轨迹样本量超过总样本的5%),
(2)潜类别分类的理论意义和概念可解释性。
然后将轨迹亚组作为多项逻辑回归模型中的分类变量,以识别轨迹亚组的预测因子。研究显示,较差的抑郁情绪、症状负担和平静感与健康状况较差的轨迹亚组相关。大多数时间里患者的健康状态变化是平稳的,也就是说在这一期间内,大多数患者的健康状况没有经历剧烈的波动。

潜转换分析Latent Transition Analysis (LTA)

1.介绍
LTA能够分析多个分类变量随时间的变化(例如,是/否,轻度/中度/重度),以及随时间变化的2x2表或任何列联表的变化。LTA是一种用于纵向数据的半参数有限混合模型,通过一组分类变量的观察数据来定义每个时间点的潜在变量。该模型假设个体随时间可以改变其所在的潜类别。例如,在三个疼痛强度亚组(轻度/中度/重度)中,LTA允许个体从一个时间点的重度亚组转换到下一个时间点的轻度或中度亚组,因此这种方法的主要目标是研究个体从一个时间点的一个类别转移到下一个时间点另一个类别的转换概率。在这个模型中,变化在两个连续时间点之间的转换概率矩阵中被量化。模型估计以下参数:
(1)第一时间点在某潜类别中的概率;
(2)每个时间点每个潜类别中的人口比例;
(3)随时间从一个潜类别转移到另一个潜类别的条件概率例如,给定时间t-1的潜在状态L1,时间t的潜在状态L2的概率);
(4)后验群体概率。在任何给定的时间点都可以预测一个后验群体概率。因此,可以使用时间1的潜在状态成员资格概率,将个体分配到时间1的潜在类别/状态,并使用后群体概率在给定时间点进行分配。
参数是通过最大似然函数或贝叶斯法来估计。如同GMM和GBTM一样,LTA模型也可以加入协变量,但必须在添加协变量之前选择类别数,主要是为了避免加入协变量前后类别数可能发生的变化。
2.适用数据类型
LTA可以研究随时间变化的分类变量(名义或顺序)。不过,由于数据集的结构可能导致变量类别过多时形成庞大而复杂的列联表,因此推荐将这些变量重新编码为尽可能少的类别。当时间点的数量不超过6个时,使用LTA更为合适。
3.操作步骤
与GMM和GBTM一样,LTA的实施是迭代的,需要基于研究领域的知识和统计考虑做出先验决策。LTA的实施还需要几个步骤。
第一步:问题定义和轨迹子群体数量的规定
选择潜在类别数量基于假设测试的结果,以及研究领域的理论和特定考虑因素。
第二步:模型规定
在此步骤中,研究人员需要决定项目响应概率的时间不变性、转换概率的测量不变性(为了实现模型识别并促进类别流行度的解释)以及协变量的添加。
第三步:模型估计
在此步骤中,应在拟合模型之前选择估计方法。LTA模型可以通过使用期望最大化算法的最大似然法来估计。它们也可以使用马尔可夫链蒙特卡洛算法的贝叶斯方法来估计。
第四步:模型选择和解释
依据更小的AIC和BIC来选择最佳模型。 
4.可用软件包
LTA可以通过SAS中的Proc LTA程序步、Mplus以及R中的poLCA和depmixs4包来使用。
5.优势与局限性
LTA在模拟随时间变化以及研究这种变化的预测因素方面非常有用,也有助于比较不同子群体以测试治疗效果。然而LTA需要大样本量,因为需要估计许多参数。实际上,每个可能的转换都可以被视为一个单独的列联表。这个表通常包含大量可能的响应模式。事实上,许多已抽样的单元格可能是空的,但是样本量越大,列联表单元格内稀疏的可能性就越小。此外,当时间点的数量增加(例如大于6)时,由于需要估计的参数众多,LTA变得更加复杂。值得注意的是,LTA与隐藏马尔可夫模型(HMM)有一些相似之处。
6.LTA的实际应用
Pat-Horenczyk等(2016)使用LTA法评估乳腺癌患者治疗后适应情况的稳定性和转变。通过在治疗后0个月、6个月、12个月和24个月测量的一系列指标,包括困扰和应对策略,基于多个拟合优度指标和类别的可解释性,发现了四种治疗后适应情况:困扰、抵抗、建设性成长和挣扎成长。研究结论是,适应情况之间的大多数转变发生在治疗后6到12个月之间。他们的工作被视为对成长、困扰和应对之间关系理论理解的贡献。

潜类别分析Latent Class Analysis (LCA)

1.介绍
LCA假设存在未观察到的潜在分类变量,这些变量将人群划分为互斥且完整的潜在类别。每个潜在类别代表一组个体,这些个体通过对一组变量的响应类型来进行特征描述。LCA是用于分类横断面数据的半参数模型(即,非纵向版本的LTA)。实际上,在LTA中,每个时间点都使用LCA来确定类别。因此像在LTA中一样,LCA中的参数通过最大化似然或贝叶斯方法来估计。每个类别中还可以模拟协变量的贡献。因此,属于某一类别的概率取决于协变量的值或水平。
2.适用数据类型
LCA是为了研究横断面数据中的分类变量而开发的。与LTA一样,当变量的类别过多时,最好将它们重新编码为尽可能少的类别。
3.操作步骤
执行LCA的步骤与其纵向版本LTA相同,不同之处在于LTA中关于纵向方面的模型规范决策,例如参数时间不变性。
4.可用软件包
LCA可以通过SAS中的Proc LCA实现,也可以在Mplus、R(通过poLCA和depmixs4包)以及其他一些文献中较少提及的软件中进行。
5.优势与局限性
LCA是一种强大的工具,用于分析分类变量之间关系的结构。它使研究人员能够探索和解释复杂的列联表,并提供了一种测试分类变量之间潜在结构假设的方法。然而,LCA仅适用于横断面数据或序数数据。LCA更适合用于探索性研究,由于它分析的是横截面数据,LCA不能真正被视为一种“轨迹”建模技术。
6.LCA的实际应用
Huh等(2011)采用LCA法,以饮食、体育活动和体重感知等方面,识别儿童的不同亚型。使用一组代表肥胖风险维度的横截面指标,得到了一个包括人口统计变量的5类模型。通过较低的BIC和AIC、显著的LMR-LRT以及每个类别的内容和独特性确定了类别数量,然后评估潜在类别成员资格与体重、体重感知和社会人口统计特征等多种变量之间的关联。研究显示,儿童的体重、种族、性别和社会经济地位与潜在类别成员资格相关。最后,作者建议,儿童肥胖相关因素的这些亚型对肥胖干预计划的设计和实施是相关的。
关于潜类别建模方法的进一步说明
  • a.使用以往的研究和理论来指导建模的类别数量时,可能会遇到困难(缺乏先前的研究)或者在研究的人群中可能不适用。在这种情况下,研究人员应当从建模一个类别开始,然后是两个类别、三个类别等(包括建模他们认为正确的轨迹数量)。然后可以比较模型的拟合优度。
  • b.潜在类别模型因其灵活性和能够处理随机缺失数据(MAR)而受到重视。当数据非随机缺失(NMAR)时,一些作者提出了对增长模型(如GMM、GBTM和LTA)的扩展,以考虑这类缺失数据。
  • c.除了前面提到的拟合优度指标外,熵也可以用来评估模型在使用潜在类别建模方法时提供良好分离子群的能力。实际上,如果分析的目的是对研究参与者进行分类(这通常是潜在类别建模的情况),那么就有必要报告这种分类的性能。熵总结了潜在类别的可区分程度以及个体被分配到类别的精确性。它是个体估计后验概率的函数,范围从0到1,数值越高表示类别分离得越好。然而,对于解释没有固定的截止标准。此外,当向潜在类别模型添加协变量时,熵可能会被高估,这会增加对分类的信心。
  • d.值得注意的是,对于GMM、GBTM、LCA和LTA,底层的轨迹是未被观察到的,也永远无法去观察。因此,在报告和解释结果时,不应该将其描述为已知的轨迹。此外,衍生的轨迹只应在其研究的人群背景下进行解释,它们可能在不同的人群中不适用。
  • e.一旦确定了轨迹(类别/亚组),就有不同的方法将这些轨迹与先前因素或后续结果关联起来。需要注意的是,评估此类关联的方法可能会产生非常不同的结果。
  • f.潜类别建模方法对于回答许多类型的研究问题都是有用的。然而研究人员应该意识到,最佳模型可能是单一类别模型,建模的拟合优度可能较差或者无法解释。在这些情况下,研究人员可以使用常见的建模方法,如回归模型,或者使用非参数建模方法,如下一节所述。

其他建模方法

聚类分析

在某些情况下,由于数据的性质,潜类别建模方法可能不适用。在这些情况下,聚类分析可以作为非参数的替代方法来使用,例如当不满足假设或者感兴趣的变量不是分类变量时。
1.介
在数据挖掘领域,“聚类”一词指的是一组相似的对象。聚类分析是一种完全非参数的方法,用于横断面数据,旨在将相似的对象或个体分类为离散的类别,其目标是确定类别的数量和组成。个体之间的相似性是通过距离度量来衡量的。这种方法的目标是最大化组内相似性,同时最小化组间相似性。
在聚类分析中,可以使用多种方法对数据进行分类:
(1) 划分法:构建多个集群,然后根据特定的标准对这些分区进行评估来对数据进行分类(如k-均值,k-中心点算法)。必须事先确定集群的数量(k);
(2) 层次法:根据特定标准对对象进行层次化分解。这种方法使用距离矩阵作为分组标准。集群的数量(k)无需预先定义;但必须指定一个停止条件(例如达到预定的群集数量);
(3)密度法依据数据点的密集程度和相互连接性来确定群集;
(4)网格法:通过将数据空间划分为有限数量的单元格,即“网格”,来进行数据分类。这些单元格构成了一个多级粒度结构,使得聚类过程可以在不同的粒度级别上进行。
经典的距离度量包括欧几里得距离、曼哈顿距离和基于相关性的距离(皮尔逊相关距离、Eisen余弦相关距离、Spearman相关距离和Kendall相关距离)。
聚类分析中,每个个体或对象属于一个单一的集群,并且完整的集群集包含所有个体。聚类分析经常用于流行病学和公共卫生,以及心理学和社会科学。
2.适用数据类型
聚类分析可以支持各种类型的横截面数据,包括连续数据、分类数据和混合数据。
3.操作步骤
构建聚类的步骤取决于所选方法和距离度量。
第一步:数据探索 
鉴于距离度量的选择取决于所用数据的类型,对数据集进行探索性分析以了解数据的类型和分布。在某些情况下,根据所追求的目标,数据可以进行转换(例如,连续变量可以被重新编码为二进制变量)。
第二步:方法和距离度量的选择
一旦了解数据的性质,就可以选择距离度量和聚类分析方法。然而,不同的方法使用相同的变量集合可能会产生截然不同的结果。聚类分析方法高度依赖于所选的距离度量。根据变量的性质(连续、分类或混合数据),距离的定义也有所不同。Everitt等建议在特定情况下使用距离度量,具体如下:
(1)连续数据:使用Minkowski距离;
(2)二元数据:基于列联表,如果对象是对称的,则使用简单匹配系数,如果对象是不对称的,则使用Jaccard系数;
(3)多余两类的分类数据:根据变量总数和匹配数使用简单匹配系数,或为每种模态创建一个二进制变量并采用二元数据的方法;
(4)混合数据:结合两种或更多上述距离度量。
第三步:方法实施和结果解释
根据选定的方法和距离度量的特点进行聚类分析。距离度量用于找出两个对象之间的相似度,并决定执行哪种分组。两个对象之间的距离测量结果范围在0到1之间,其中“0”表示对象不相似,“1”表示完全相似。
4.可用软件包
聚类分析可以在多种常见软件包中进行,例如SAS的proc cluster、R的一系列包、Stata的cluster和clustermat命令、SPSS的cluster语法。
5.优势与局限性
聚类分析在探索横截面多变量数据时非常有用。通过将这些数据组织成聚类,有助于研究人员发现潜在结构或模式的特征。然而聚类分析无法提供有关子群内个体差异的详细视角。与之相反,潜在类别模型比聚类分析更灵活,适用于识别异质的子群体。与潜在类别分析一样,聚类分析处理的是横截面数据,并不能真正被视为“轨迹”建模技术。
6.聚类分析的实际应用
为了研究导致自发性早产的共同机制和潜在的遗传因素,Esplin等(2015)使用层次聚类分析来识别同质的表型特征配置。利用横截面临床和人口统计变量、每种表型的二元指标、每个表型类别的加权得分和不相似矩阵,找到了一个5聚类模型,可能识别出具有相似遗传风险的自发性早产妇女的子集,然后选择其中一个表型聚类进行了基因关联研究。

序列分析

当研究人员对将展示了相似事件序列的个体进行分组感兴趣时,序列分析显得非常重要。例如,在健康服务研究领域,个人的护理轨迹可以被视为一系列健康事件的模式,这涉及到与患者、疾病状况、护理提供者、护理环境、治疗方法及时间相关的变量。
1.介绍
序列分析是一种用于纵向序列数据的完全非参数方法,旨在根据观察序列的相似性对其进行分类(例如护理轨迹:急诊-住院-回家-普通执业医生访问)。这种方法最初是为蛋白质和DNA序列分析而开发的,然而自那时起它已经被应用于许多其他领域,包括流行病学和公共卫生、心理学和社会科学。
序列分析首先计算个体之间的不相似性或距离矩阵。这种矩阵是通过比较序列中的事件或状态的顺序和持续时间来构建的,从而反映出个体序列之间的差异。接着,这些不相似性矩阵被用于分类方法——主要是聚类分析方法——以确定根据其相似性的观察子组或类别。这意味着,通过分析数据中的模式和关系,可以将具有相似生活或健康轨迹的个体分为相同的组或类别。
基于之前的“多维护理轨迹模型”,最近提出了一种全面的序列分析方法。这种方法同时考虑疾病状况、护理提供者和护理设置,从而提供了一个更为全面的视角来分析和理解个体的健康和护理路径。这种方法的提出,是为了更好地理解不同因素如何共同影响健康结果。在这种分类方法中,子组成员资格可以用作依赖变量或独立变量,以探索健康轨迹的预测因素及其对未来结果的贡献。这意味着,通过识别和分析影响健康轨迹的关键因素,可以更好地预测个体未来的健康状况,并为制定个性化的健康干预措施提供依据。这种方法在公共卫生、流行病学、心理学和社会科学等多个领域都有广泛的应用前景。
2.适用数据类型
序列分析能够处理分类的纵向数据。
3.操作步骤
第一步:数据探索 
在进行分析之前,必须从原始数据中创建状态序列数据。例如,确保为每个状态选择合适的字母(例如,H代表住院,E代表急诊访问等)。状态序列必须放置在时间轴上,时间周期(每日、每周、每月、每年等)必须明确定义。对于每个时间周期,研究者必须选择一个单一状态。
这一步骤相对复杂,因为在给定时间点有多个状态可供选择时,确定优先考虑的状态有许多可能性(例如,在月度医疗利用的情况下,一个人可能在同一个月内既住院又急诊)。
第二步:距离度量选择
研究者应基于更新的距离或基于子序列的距离选择合适的距离度量。基于更新的距离通过计算将一个序列转换成另一个完全相同的序列所需的最少更新操作次数来测量两个序列之间的距离,这些距离度量被称为“最优匹配”。因此,两个轨迹之间的距离是一个函数,取决于归因于插入、删除和替换等操作的成本(就运行时间和计算机内存空间而言)。确定所有操作的相对成本对于确定序列之间的距离至关重要。这些需要研究者事先定义。相比之下,基于子序列的距离通过计算共有子序列的数量来评估序列之间的距离。然而,最优匹配是文献中最广泛使用的距离度量。
第三步:序列分析及结果解释
计算所有序列之间的距离会得到一个距离矩阵。序列分析使用这个距离矩阵将序列划分为相对均匀的子组。为此目的,各种聚类分析方法都是合适的,包括层次化方法。
4.可用软件包
SAS、Stata、SPSS、R等软件包执行序列分析,迄今为止,执行序列分析最强大和完整的方法是R的TraMineR软件包。
5.优势与局限性
序列分析的优势在于,当研究人员对随时间发生事件的顺序感兴趣时,这种方法使得可以根据路径的相似性将个体分组为类别。然而,如果研究人员对随时间发生的事件数量感兴趣,则顺序分析就不太合适。
6.序列分析的实际应用
Vanasse等(2020)使用序列分析来识别慢性阻塞性肺疾病(COPD)首次住院后患者之间的类似护理轨迹。护理轨迹由在一年时间内的医疗利用序列组成,以“周”为时间单位。利用魁北克医疗行政数据中关于医疗就诊和住院情况的信息,基于多种工具和特定选择标准(最佳匹配、汇总距离矩阵、Ward's连接标准和平方和或惯性),发现了五个亚组,形成了新的护理轨迹类型学。随后,患者的特征在护理轨迹亚组之间进行了比较。研究表明,在第三高利用护理轨迹亚组中的患者年龄较大,合并症较多,并且在住院期间病情更为严重。

如何报告轨迹模型的方法

在科学论文中报告统计方法时,研究者应确保分析描述得足够详细,以便其他研究者能够复现。因此应包含:

(1)数据呈现(确定因变量和可能的协变量,并提及所有数据处理,例如创建新变量,重新编码某些变量以便于分析等);

(2)轨迹建模技术及其使用的理由;

(3)选择轨迹数量的逻辑和标准的规格说明(例如,使用BIC和/或AIC,或用于在聚类分析和序列分析中选择子组的距离度量);

(4)统计软件(例如,指定在SAS中使用的程序,或R上的包等)。之前已发布了关于潜在轨迹研究报告的详细指南(GRoLTS),如GMM和GBTM。

根据我们的审查,轨迹建模技术的完整描述通常不够充分,并且由于某些医学期刊的空间限制,缺乏必要的细节。这影响了研究社区理解、评估适当性以及复制轨迹建模分析的能力。如果稿件长度有限,研究者应考虑增加网络附录以完整描述其建模步骤。这将增强轨迹建模技术的透明度、适当性和可复制性。

如何报告轨迹模型的结果

轨迹分析结果的描述应包含:
(1)获得的轨迹/类别数量;
(2)轨迹形状(在GMM和GBTM的情况下:线性、二次、三次等);
(3)用于选择轨迹数量的标准值(例如,BIC和/或AIC);
(4)轨迹亚组成员的特征(每个亚组中的频率和百分比,包括潜在状态的普遍性、项目响应概率和LTA的转换概率);
(5)一个显示轨迹亚组的图形(例如,使用SAS proc traj进行GBTM时,连续曲线代表观察到的数据,不连续曲线代表所选模型的估计)。
还应解释分配给每个轨迹的标签或名称。

总结

轨迹建模方法已被用于使用不同统计方法预测各种结果。在医疗研究中,它们有助于改善我们对疾病严重程度、干扰、管理和随时间演变的理解。然而,一些问题限制了人们对它们的理解、实用性和解释。事实上,在已发表的科学文献中,用于指代潜在类模型方法的各种术语(如GMM、GBTM、LTA、LCA)使用不一致,经常互换使用。对于描述和报告潜在类模型统计技术结果的空间在科学文章中也是不足的。我们希望这篇叙述性评论将指导研究人员选择最适合其研究问题的技术。我们展示了不同方法如何实施以及结果如何报告,这对非统计学研究人员是有价值的。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多