分享

王凌伟|大数据的重要性:2007-2012年NHANES中假说驱动和数据驱动鉴别哮喘表型的比较

 生物_医药_科研 2019-06-06

王凌伟 

博士、主任医师、硕士生导师

深圳市呼吸疾病研究所副所长

深圳市医学会呼吸内科医师分会会长

广东省医学会呼吸分会感染学组委员

广东省女医师协会呼吸与危重症学组委员

广东省医师协会呼吸医师分会感染学组委员

刘海平 硕士研究生

深圳市呼吸疾病研究所

呼吸与危重症医学科主治医师

  概     述  
01

在美国国家健康和营养调查(NHANES)的参与者中,有一半成人哮喘患者可归并入一种以上的假说驱动表型。在研究同一个体时,数据驱动方法与假说驱动方法相比可能是更为有效的亚分类方法。Rita Amaral等对2007-2012年NHANES成人哮喘患者进行潜在类别分析(LCA),比较假说驱动和数据驱动哮喘表型。

研究结果表明,无论是数据驱动还是假说驱动方法,采用哮喘常用的临床和生理变量来识别一般成人哮喘表型都不是最优选择。因此,还有待于在更全面的疾病特征基础上进行深入的人群研究来识别哮喘表型。

  详     解  
02

对象和方法

纳入NHANES中年龄≥18岁的成年现患哮喘病人(n=1 059)。LCA包括常用于哮喘亚分类的各种变量,在进行LCA建模时考虑了NHANES的复杂调查设计,所有其他分析均采用Stata/IC 15.1进行,P<0.05示有统计学意义。

假说驱动哮喘表型

根据报告中吸烟状况、肥胖和炎症生物标志物进行分析,确定了5种哮喘表型:高血嗜酸粒细胞表型(B-Eos≥300/mm3)、高FeNO表型(FeNO≥35 ppb)、低血嗜酸粒细胞及低FeNO表型(如果B-Eos<150/mm3且FeNO<20 ppb)、哮喘伴肥胖型(AwObesity,体重指数≥30 kg/m2)、哮喘合并慢性阻塞性肺病型(AwCOPD,如果受试者有报告证实患慢性支气管炎/肺气肿,年龄≥40岁且现在/既往有吸烟史)。如果受试者不符合上述任何一种哮喘表型的分类标准,则被视为“未分类型”。此外,为了减少年龄作为混杂变量的影响,将研究对象分为2个年龄组别进行分析:40岁和≥40岁。

数据驱动哮喘表型

LCA以无人监督方式来识别哮喘表型(数据驱动方法)。已建立两种模型来识别“现症哮喘”(表S1)。

模型1基于前面使用的用来定义假说驱动哮喘表型的4个变量 (体重指数≥30 kg/m2,吸烟史,FeNO≥35 ppb,B-Eos≥300/mm3);模型2则在上述4个变量基础上增加了性别、早期哮喘发病(<16岁)、喘息相关问题(有/无至少1次喘息发作、活动时气喘、喘息引起的睡眠障碍、喘息引起活动受限、喘息导致旷工)、最近12个月因哮喘发作至急诊科(ED)就诊史、FEV1/FVC<LLN、FEV1<LLN和自诉有花粉热。

此外,为了探索不同“哮喘人群”中的结果,还用相似的变量建立了另外2个模型:模型3为“广义哮喘组”,囊括了所有对“医生告诉过你你有哮喘吗?”这一问题作出肯定答复的受试者;模型4为“难治性哮喘组”,纳入了与哮喘相关不良结局的受试者,定义为现症哮喘加上以下至少一项:过去30天中与哮喘相关的急诊就诊、FEV1<LLN或口服皮质类固醇(n=673)(表S1)。

  主要研究结果  
03

1. 模型1中,LCA不能区分现症哮喘患者中的任何哮喘亚型(表S1);

2. 通过添加更多与哮喘相关的变量(模型2),在两不同年龄组别的成人现症哮喘患者中均发现了两种数据驱动表型(表S1)。其中A组<40岁者(n=285,75%)和≥40岁者(n=462,73%))分别与B组<40岁者(n = 94,25%)及≥40岁者(n = 170,27%)相比,哮喘症状更明显且肺功能更差(表1);

3.假说驱动表型在两种数据驱动表型中所占的比例相似(P >0.05,图1);

4.炎症生物标记物、吸烟状况、肥胖和花粉热在不同表型之间没有显著差异。

  我的观点  
04

1. 数据驱动和假设驱动是不同的数据分析方法。假设驱动是先有需求后有数据,是一种“自上而下”的分析模式;而数据驱动作为大数据时代新衍生的一种分析方式,是先有数据后有需求,表现为“自下而上”的分析模式。通过增加变量可提高疾病亚型的识别能力,且事先不需要进行疾病分组。

2. 这是第一项在美国普通人群中对传统的假设驱动和新衍生的数据驱动方法区分哮喘表型进行比较的研究,共纳入了NHANES中1 059名现症成人哮喘患者,样本量大,临床研究价值较高。

3. 整体而言,数据驱动方法为发现各种复杂疾病的“新”表型提供了很好的契机。

4. 该研究也有一些相对不足之处,纳入的部分变量有些有一定主观性,可能会产生偏倚并影响最终结果,或许可考虑纳入更多一些客观指标如PEF、诱导痰等检查以促进表型分类。

5. 正如文中所言,无论是数据驱动方法还是假设驱动方法目前在哮喘表型的识别中均还不成熟,可能需要更多的实验研究来进行探索、评估及进一步完善。但大数据的应用,无疑为准确区分哮喘表型带来了曙光。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多