【原】利用NHANES数据库还能构建预测模型？中国学者写了篇文章，AUC=0.842

妙趣横生统计学 2023-09-21 发布于江苏

展开全文

2021年2月，广东省医学科学院、广东省人民医院、广东省心血管研究所心内科，广东省冠心病防治重点实验室的学者在《Annals of Palliative Medicine》（四区）发表题为：Derivation and validation of a simple nomogram prediction model for all-cause mortality among middle-aged and elderly general population 的研究论文。

这项研究为一项队列研究，使用NHANES数据库和对应的死亡数据，旨在基于人口统计学和体格测量指标，建立一个简单的列线图预测模型，用于中老年人群的全因死亡率。结果表明， 一个简单的列线图模型，包括年龄、性别、吸烟、饮酒、糖尿病、高血压、婚姻、教育和PIR，可以很好地预测中老年人群的全因死亡率。

摘要与主要结果

一、摘要

背景：一个简单的临床模型，可以根据人口统计学和身体测量指标预测一般人群中老年人的全因死亡率。本研究旨在基于人口统计学和体格测量指标，建立一个简单的列线图预测模型，用于中老年人群的全因死亡率。

方法：这是一项前瞻性队列研究。我们使用了1999-2006年国家健康和营养检查调查(NHANES)的数据，其中包括年龄≥40岁的成年人，2015年12月31日更新的死亡状况。采用Cox比例风险回归、nomogram最小绝对收缩选择算子(LASSO)二项回归模型对衍生队列和验证队列的预测模型进行评估。

结果：共有13,026名参与者（6,414名男性，平均年龄为61.59±13.80岁），其中6,671名（3,263名男性）和6,355名（3,151名男性）分别被纳入衍生队列和验证队列。在平均129.23±9.62个月的随访期间，有4,321人死亡。我们开发了一个 9 项列线图模式，包括年龄、性别、吸烟、饮酒、糖尿病、高血压、婚姻状况、教育和贫困收入比（PIR）。曲线下面积（AUC）为0.842，校准良好。内部验证显示，列线图模型具有良好的辨别力，AUC为0.849，校准良好。在验证队列中应用LASSO 回归模型也显示出良好的区分（AUC = 0.854）和良好的校准。模型的时间依赖性和乐观校正的AUC值与随访时间的变化没有显著关系。

结论：一个简单的列线图模型，包括年龄、性别、吸烟、饮酒、糖尿病、高血压、婚姻、教育和PIR，可以很好地预测中老年人群的全因死亡率。

二、研究结果

1.训练集和验证集的基线特征

最终的研究样本包括13,026名参与者（6,414名男性，平均年龄为61.59±13.80岁）。派生队列和验证队列中分别有6,671名和6,355名参与者。在129.23±9.62个月的平均随访期内，有4,321名参与者死亡。如表1所示，衍生队列和验证队列在SBP，DBP，酒精使用，PIR，婚姻，教育，种族和高血压方面存在显着差异。

2.候选预测变量与全因死亡率的关联

单因素Cox比例风险回归显示：女性（HR：0.79,95%CI：0.75–0.84，P<0.001），SBP（HR：1.01,95%CI：1.01–1.01，P<0.001），DBP（HR：0.97,95%CI：0.97-0.98，P<0.001），酒精摄入量（HR：1.00,95%CI：1.00-1.00，P<0.001），糖尿病（HR：1.83， 95% CI：1.71–1.97， P<0.001）和高血压（HR：1.73， 95% CI：1.63–1.84， P<0.001）与全因死亡率相关。此外，目前的吸烟者，即高中以下学历、年龄≥70岁和PIR<1%的人，全因死亡率的风险最高。进一步的多因素Cox比例风险回归显示，当前吸烟者（HR：1.89,95%CI：1.63-2.19，P<0.001），从未结婚的人（HR：1.57,95%CI：1.25-1.97，P<0.001），≥70岁人群（HR：9.95,95%CI：8.18-12.11，P<0.001）具有更高的全因死亡风险。然而，BMI、PIR、DBP和教育与全因死亡率呈负相关（表2）。

3.预测推导和验证队列中的全因死亡率

①列线图：在这个完整模型中登记了2个全因死亡率的独立预测因子。这些变量中的每一个都被分配了一个分数制。在计算总分并将其定位在总分制上后，我们向下绘制了一条垂直线，以获得预测的全因死亡率概率。总分越高，反映了全因死亡率的概率越高。

②ROC 曲线：完整模型和简化模型的ROC曲线下面积均为0.842。为了验证训练优化和简化模型，该模型的 C 统计量均为 0.849（图 3B）。

③对列线图的决策曲线分析校准图：推导列线图(图4A)和验证队列(图4B)的决策曲线分析表明，这些模型能够成功预测全因死亡率，具有良好的敏感性和特异性(表3)。

4.模型的预测值与随访时间的关系

此外，如图5A所示，在不同的随访时间，修正后的AUC值，模型的AUC值均大于0.80。结果表明，该模型非常稳定，模型的预测值与随访时间无显著关系。同样，该模型在不同随访时间的AUC值均大于0.80，说明验证队列中预测全因死亡率的ROC曲线下面积随随访时间的变化无显著变化(图5B)。

设计与统计学方法

一、研究设计

P参与者：1999-2006年的年龄≥40岁的人群

候选预测变量包括年龄、性别、种族/民族、吸烟、饮酒、婚姻状况、教育程度、糖尿病、高血压、PIR、BMI

O结局：全因死亡

S研究类型：队列研究

二、统计方法

1.统计描述+差异性分析：所有连续变量均以平均值±标准差表示，分类变量以频率或百分比表示。进行Kruskal-Wallis秩和检验、费舍尔检验、t检验和卡方检验，以通过基线特征检测亚组差异。

2.使用单变量和多变量Cox比例风险回归来估计全因死亡率的风险。风险比（HRs）和95%置信区间作为效应估计值呈现。

根据年龄（<50、50-60、60-70、>70岁）、PIR（<1、1-3、>3）和BMI（<25，≥25 kg/m）进行亚组分析。

3.使用三种方法来建立预测模型并验证内部验证。

①在推导模型中拟合了包括年龄、性别、BMI、SBP、吸烟、酒精摄入量、糖尿病、高血压、婚姻、教育和 PIR 的完整模型。②通过的逐步回归筛选变量，建立了简化模型。采用赤池信息量准则将变量筛选到简化模型中。预测列线图是在基于多元回归分析的推导队列中构建的。③为了进一步检查，应用LASSO二项式回归模型来确定每个变量的理想系数并估计可能性偏差。

4.ROC+AUC：为了评估列线图的判别性能，测量了受试者工作特征（ROC）分析中的曲线下面积（AUC）以评估预测准确性。

5.使用上述相同方法在验证队列中评估模型在建立、区分和校准方面的性能。

5.数据分析在SPSS 22.0和R软件版本3.3.2进行。