【原】缺失数据9 | 观察性研究缺失数据如何填补？这篇Lancet子刊这样做！

妙趣横生统计学 2024-03-28 发布于江苏

展开全文

编者

在进行观察性研究的过程中，经常会遇到数据缺失的问题。由于涉及的变量多、时间跨度长等原因，可能产生大量缺失值。今天分享一篇横断面研究，利用多重插补法成功处理了高达27.6%的缺失值，为各位读者提供思路。

2022年8月，英国伦敦帝国理工学院Poulter团队在Lancet Global Health（一区top，IF=39）发表了一篇基于17-18年五月血压测量月活动（MMM，May Measurement Month）数据的横断面研究，题为“Hypertension in stroke survivors and associations with national premature stroke mortality: data for 2.5 million participants from multinational screening campaigns”（卒中幸存者中的高血压与全国卒中早亡率的关联：来自多国筛查的250万受访者的数据）。

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT，数据等资料

一、研究人群

五月血压测量月活动是由国际高血压学会（ISH）联合世界高血压联盟和柳叶刀高血压委员会在2017年五月发起的全球血压测量活动，并在之后的每年五月份重复进行。活动旨在提高全球人群对于高血压的知晓率，是目前最大的全球血压测量项目。2017年5月和2018 年5月，该活动共对来自92个国家的超过250万名志愿者进行了血压测量和问卷调查。

二、研究结果

1. 受访者基线特征

共计2 515 365名受访者中有2 222 399人(88.4%)填报了既往病史，其中62 639人(2.8%)报告了卒中史。

卒中史组和无卒中史组在各项临床特征上均观察到了显著差异。
卒中史组报告了更高的糖尿病、心肌梗死患病率，当前吸烟和饮酒的比例，以及更高的低体重、超重或肥胖的比例。

2. 比较有和没有卒中病史的受访者的心血管危险因素

在卒中史组中观察到了显著更高的血压值、血压升高比例以及显著更高的高血压患病率、治疗率和控制率。有卒中史的受访者中有三分之一患有高血压但没有得到控制。或经治疗但未控制的高血压。

3. 混合效应Logistic回归

使用混合效应logistic回归分析卒中史与高血压危险因素之间的关联，在调整年龄和性别后，发现有卒中史组患糖尿病、当前吸烟、当前饮酒的可能性分别是是无卒中史组的5.9倍、9.9倍和2.7倍，纳入更多协变量的模型中观察到效应值变小但仍显著存在。由于是横断面研究，无法得知前后因果关系。这些发现揭示了卒中史与糖尿病以及吸烟和饮酒之间的强相关性，强调了在卒中预防和管理中考虑这些因素的重要性。

4. 线性回归

在国家层面的单变量和多变量模型中，估计的卒中死亡率与平均收缩压、血压升高的受访者百分比之间存在显著的关联。

在单变量模型中，受访者收缩压每增加1mmHg，估计的早发性卒中死亡率平均增加84.3年寿命损失/10万人。这意味着平均收缩压的每增加一点都与卒中早亡率的显著增加相关。每增加1%的高血压患者比例，卒中死亡率也显著增加。国家层面的高血压治疗和控制水平与估计的卒中早亡率密切相关。高血压患者治疗率较高和血压控制良好率较高与较低的卒中早亡率相关。在对性别、饮酒、吸烟、糖尿病以及超重或肥胖的受访者比例进行调整后，上述关联的强度没有显著改变。

这些发现强调了血压管理在预防卒中早亡中的重要性，尤其是通过控制血压和提高高血压治疗效果来降低卒中早亡的风险。

三、研究方法

1. 缺失数量和插补方法

筛查过程中，研究者对每位受访者进行三次血压测量，每位受访者都应该具有三个收缩压和三个舒张压，但由于各种原因，血压数据中有很多缺失值，仅72.4%的受访者具有完整的三次读数。

（1）研究者在Stata中采用链式方程多重插补法（MICE）对年龄、性别、种族和降压药物状态有完整数据的个体进行了填补。模型包括以下变量：性别、年龄（以五个节点的限制性立方样条函数形式）、性别与年龄的交互作用、降压药物使用情况、已知高血压、种族、地区、收入、三次收缩压（sbp1, sbp2, sbp3）、三次舒张压（dbp1, dbp2, dbp3）、平均收缩压（sbpa）、平均舒张压（dpba）、BMI（四分类）、三次心率、体温、体温的平方、测量时间的小时、对高血压的认识、糖尿病、卒中、心肌梗死、吸烟状况、饮酒状况、筛查站点类型、怀孕状况、空腹状况、测量手臂和测量时为星期几。

（2）对于每个缺失数据点，研究者进行了25次插补，以生成多个可能的完整数据集。

（3）完成插补后评估了估计值的蒙特卡洛误差（Monte Carlo error），以确认这些估计值具有足够的精确度。（蒙特卡洛误差是指因为插补过程中使用随机抽样而产生的估计误差。如果这个误差足够小，那么可以认为插补产生的估计值是准确的。蒙特卡洛误差小于估计值标准误差的10%，这表明插补过程产生的误差相对于估计值的变异是可接受的。）

（4）为了确保插补链的稳定性和收敛性，研究者选择在开始记录插补结果之前使每个链先进行10次迭代，有助于确保插补链从其初始状态过渡到一个更稳定的状态，从而提高插补结果的可靠性。

（5）通过评估每次迭代中预测值的追踪图（trace plot），确认了插补过程的充分性和链的收敛性。（追踪图是一种用于展示参数估计值随着迭代进行的变化情况的图形工具，如果追踪图显示参数估计随迭代次数稳定下来则表明链已经收敛、插补过程充分。）

（6）在多重插补后，研究者使用Rubin法综合所有插补数据集上的分析结果，考虑了插补不确定性的综合统计估计。Rubin法由Donald Rubin在1987年提出，包括以下三点：

参数估计的汇总：对于感兴趣的每个参数（比如均值、回归系数等），计算所有插补数据集的估计值的平均值。这个平均值作为最终的参数估计。
估计内部方差：对于每个参数，计算每个插补数据集的估计值的标准误差，并取这些标准误差的平均值。这个平均值代表估计的内部方差。
估计插补间方差：对于每个参数，计算所有插补数据集的估计值的方差。代表了插补间的不确定性。

2. 缺失数量和插补方法混合效应Logistic回归

为了分析卒中史和受访者患高血压的风险，研究者采用了混合效应logistic回归模型来估计不同心血管风险因素的风险比率，基础模型调整了年龄和性别，复杂模型纳入了所有单变量模型中有显著关联的潜在混杂因素，如使用抗高血压药物、吸烟、饮酒、糖尿病和BMI，由于具有多重共线性排除了心肌梗塞。考虑到存在国家层面的聚类效应，使用了随机截距模型，并假设斜率相等。

3.单因素和多因素线性回归

结合来自2017年GBD数据的年龄标准化早发性卒中死亡率估计值，建立了单因素和多因素线性回归。将MMM的结果汇总到国家，然后使用线性回归分析来检查GBD数据中的国家级早发性卒中死亡率与以下MMM参数之间的关联：平均收缩压、所有参与者中高血压比例、所有参与者中高血压患者比例、接受高血压药物治疗的高血压患者比例、服用降压药物且血压得到控制的参与者比例以及所有高血压患者中血压得到控制的比例。

构建了单变量和多变量线性回归模型，进一步调整了国家级别的男性比例，以及患有糖尿病、当前吸烟者、每周至少饮酒一次以及超重或肥胖参与者的比例。为了保持与GBD使用的年龄标准化一致，每个参数都根据相同的GBD权重使用5年年龄组进行了标准化。

后记

本文的创新点有以下几点：

1.全球性的大规模数据收集：数据来源于MMM项目，是迄今为止最大的标准化、全球性血压筛查，包括了广泛了年龄范围，使用标准化技术测量血压，并同时在问卷中收集其他数据，如此大规模的数据集使得结果具有全球代表性。同时，广泛铺开的筛查意味着大量的缺失值，但本文研究者采用多重链式插补弥补了缺失。

2. 血压管理与早发性中风死亡率之间的关联：通过将MMM数据聚合到国家级别，研究发现血压管理参数与国家早发性中风死亡率之间存在显著的关联。这一发现强调了血压控制对降低卒中死亡率的重要性。

3. 针对卒中幸存者的血压控制情况进行了深入分析，发现了他们当中有77%患有高血压，但同时有三分之一的人血压未得到充分治疗或未治疗。这个切入点揭露了卒中幸存者中高血压的普遍性和管理的不足性，强调了根据当地情况定制干预措施的迫切需求，具有较强的公共卫生意义。