王凌伟|大数据的重要性：2007-2012年NHANES中假说驱动和数据驱动鉴别哮喘表型的比较

生物_医药_科研 2019-06-06

展开全文

王凌伟

博士、主任医师、硕士生导师

深圳市呼吸疾病研究所副所长

深圳市医学会呼吸内科医师分会会长

广东省医学会呼吸分会感染学组委员

广东省女医师协会呼吸与危重症学组委员

广东省医师协会呼吸医师分会感染学组委员

刘海平硕士研究生

深圳市呼吸疾病研究所

呼吸与危重症医学科主治医师

概述

在美国国家健康和营养调查(NHANES)的参与者中，有一半成人哮喘患者可归并入一种以上的假说驱动表型。在研究同一个体时，数据驱动方法与假说驱动方法相比可能是更为有效的亚分类方法。Rita Amaral等对2007-2012年NHANES成人哮喘患者进行潜在类别分析(LCA)，比较假说驱动和数据驱动哮喘表型。

研究结果表明，无论是数据驱动还是假说驱动方法，采用哮喘常用的临床和生理变量来识别一般成人哮喘表型都不是最优选择。因此，还有待于在更全面的疾病特征基础上进行深入的人群研究来识别哮喘表型。

详解

对象和方法

纳入NHANES中年龄≥18岁的成年现患哮喘病人（n=1 059）。LCA包括常用于哮喘亚分类的各种变量，在进行LCA建模时考虑了NHANES的复杂调查设计，所有其他分析均采用Stata/IC 15.1进行，P<0.05示有统计学意义。

假说驱动哮喘表型

根据报告中吸烟状况、肥胖和炎症生物标志物进行分析，确定了5种哮喘表型：高血嗜酸粒细胞表型(B-Eos≥300/mm³)、高FeNO表型(FeNO≥35 ppb)、低血嗜酸粒细胞及低FeNO表型(如果B-Eos＜150/mm³且FeNO＜20 ppb)、哮喘伴肥胖型（AwObesity，体重指数≥30 kg/m²)、哮喘合并慢性阻塞性肺病型(AwCOPD，如果受试者有报告证实患慢性支气管炎/肺气肿，年龄≥40岁且现在/既往有吸烟史)。如果受试者不符合上述任何一种哮喘表型的分类标准，则被视为“未分类型”。此外，为了减少年龄作为混杂变量的影响，将研究对象分为2个年龄组别进行分析：＜40岁和≥40岁。

数据驱动哮喘表型

LCA以无人监督方式来识别哮喘表型(数据驱动方法)。已建立两种模型来识别“现症哮喘”(表S1)。

模型1基于前面使用的用来定义假说驱动哮喘表型的4个变量 (体重指数≥30 kg/m²，吸烟史，FeNO≥35 ppb，B-Eos≥300/mm³)；模型2则在上述4个变量基础上增加了性别、早期哮喘发病(＜16岁)、喘息相关问题(有/无至少1次喘息发作、活动时气喘、喘息引起的睡眠障碍、喘息引起活动受限、喘息导致旷工)、最近12个月因哮喘发作至急诊科(ED)就诊史、FEV1/FVC＜LLN、FEV1＜LLN和自诉有花粉热。

此外，为了探索不同“哮喘人群”中的结果，还用相似的变量建立了另外2个模型：模型3为“广义哮喘组”，囊括了所有对“医生告诉过你你有哮喘吗？”这一问题作出肯定答复的受试者；模型4为“难治性哮喘组”，纳入了与哮喘相关不良结局的受试者，定义为现症哮喘加上以下至少一项：过去30天中与哮喘相关的急诊就诊、FEV1＜LLN或口服皮质类固醇(n=673)(表S1)。

主要研究结果

1. 模型1中，LCA不能区分现症哮喘患者中的任何哮喘亚型(表S1)；

2. 通过添加更多与哮喘相关的变量(模型2)，在两不同年龄组别的成人现症哮喘患者中均发现了两种数据驱动表型(表S1)。其中A组＜40岁者（n=285，75%）和≥40岁者（n=462，73%))分别与B组＜40岁者(n = 94，25%)及≥40岁者（n = 170，27%)相比，哮喘症状更明显且肺功能更差（表1）；