分享

IF=8 (1区)机器学习 NHANES:开发与重金属接触相关的机器学习模型,用于识别冠心病

 葛医生_EP日记 2023-11-10 发布于广西

图片

文章题目:

Development of an interpretable machine learning model associated with heavy metals’ exposure to identify coronary heart disease among US adults via SHAP: Findings of the US NHANES from 2003 to 2018.

中文标题:

通过SHAP,开发一个与重金属接触相关的可解释的机器学习模型,用于识别美国成年人中的冠心病:基于2003年至2018年的美国NHANES的发现。

发表杂志:Chemosphere

影响因子:8 /Q1

发表时间:202210


摘要

目前对重金属接触与冠心病(CHD)之间的联系了解有限。我们旨在建立一个高效且可解释的机器学习(ML)模型,将重金属接触与CHD识别相联系。我们的数据集来自于美国国家健康和营养调查(US NHANES2003-2018年),用于研究重金属与CHD之间的关联。我们建立了五个ML模型,以重金属接触来识别CHD。此外,使用了11个判别特征来测试模型的强度。选择表现最佳的模型进行识别。最后,使用SHapley Additive exPlanations (SHAP)工具来解释特征,可视化所选模型的决策能力。总共有12,554名参与者符合本研究的条件。选择基于13种重金属的最佳性能随机森林分类器(RF)来识别CHDAUC0.82795% CI0.777-0.877;准确率:95.9%)。SHAP值表明,尿液中的铯(1.62)、铊(1.17)、锑(1.63)、二甲基砷酸(0.91)、钡(0.76)、砷酸(0.79)、总砷(0.01)以及血液中的铅(3.58)和镉(4.66)对模型产生了正面影响,而尿液中的钴(-0.15)、镉(-2.93)和铀(-0.13)对模型产生了负面影响。RF模型在识别美国NHANES 2003-2018参与者中重金属接触与CHD之间的关联方面表现出高效、准确和稳健性。铯、铊、锑、二甲基砷酸、钡、砷酸和总砷在尿液中,以及铅和镉在血液中与CHD呈正相关,而钴、镉和铀在尿液中与CHD呈负相关。


文章正文

引言

近年来,冠心病(CHD)的发病率不断增加,全球面临严重的疾病负担(Conrad et al., 2018)。尽管已经有很多研究探讨了CHD的风险因素,包括高血压、高血脂、高血糖、吸烟、饮酒、肥胖、遗传因素、心理因素和脊椎因素(Conrad et al., 2018; Lu et al., 2019; Nugent et al., 2018),但重金属与CHD之间的关联研究还比较有限(Karaouzas et al., 2021; Renu et al., 2021; Xu et al., 2021),大部分的研究采用传统的统计分析方法(Landrigan, 2018; Peralta et al., 2022; Ruiz-Hernandez et al., 2017; Zeng et al., 2022)。因此,使用新的分析方法可能有助于更准确地确定重金属暴露与CHD的关联。

在现有的研究中,利用传统的统计学方法进行疾病识别时,需要使用许多数据标准和前提条件进行数据准备(Dinh et al., 2019; Navar et al., 2016; Petrovic et al., 2020; Zhang et al., 2021)。特别是一些传统的统计方法需要高质量的结构化数据分布,这意味着会丢失很多非结构化数据。随着科学技术的发展,数据收集变得高效且海量化。与此同时,大数据的清洗、分类和分析给研究人员在探索多个数据集背后的隐藏含义时带来了巨大的挑战(Stafford et al., 2020; Wu et al., 2022)。由于机器学习(ML)算法的性质,黑盒方法对于数据准备需要较少的标准和前提条件,提高了研究人员分析个体大量信息以支持疾病诊断、危害识别和健康决策的能力(Alber et al., 2019)。

本研究使用美国国家健康和营养调查(US NHANES2003-2018年)的数据集,研究了重金属与CHD之间的关联。我们找到了五个可以通过重金属暴露来识别CHDML模型,并比较了模型的性能特征。此外,我们的研究结合了基于SHapley Additive exPlanationsSHAP)的先进ML技术,确定了每种重金属对CHD识别的贡献,增强了早期干预的潜力。

2. 方法

2.1. 研究参与者

美国国家健康和营养调查(US NHANES)研究通过多种调查策略对美国人口进行了调查,包括访谈和身体检查。详细信息已经在之前的研究中描述过(NHANES, 2014)。我们的研究样本包括了从2003年到2018年的8个连续周期的US NHANES数据集。纳入标准如下:(1)参与者年龄≥20岁;(2)参与者参加了重金属血液和尿液子研究;(3)根据US NHANES问卷数据确认参与者的CHD状态信息。排除标准如下:(1)总共19种重金属中有超过2种缺失;(2)根据US NHANES问卷,参与者CHD状态=9(意味着CHD状态不确定);(3)样本由于任何原因无法适应模型。最终,本研究分析包括12554名参与者(样本流程详见补充资料1)。

2.2. 数据收集

2.2.1. 研究参与者的人口特征

美国NHANES问卷数据收集了参与者的人口和社会经济特征。特征包括性别、年龄(岁)、体重指数(BMIkg/m2)、种族/西班牙裔、教育水平(大学或以上、高中或同等学历、高中及以下)和贫困收入比(PIR)(≤11-4≥4)(Yang et al., 2018; Zhang et al., 2021)。

2.2.2. 重金属

本研究分析包括尿液和血液中的19种重金属,详细信息请参见补充资料。所有重金属的浓度均通过电感耦合等离子体动态反应池-质谱仪(ICP-DRCMS)在国家环境健康中心实验室进行严格的质量控制检测(NHANES, 2013)。 2.2.3. 结局确定 在美国NHANES中,在20151231日之前,CHD是根据参与者自报的问卷数据确定的。之后,CHD由专业医生通过使用I00-09I11I13I20-51代码确定,这些代码符合《疾病和有关健康问题的国际统计分类第十次修订》(ICD-10)(Mou and Ren, 2020)。

2.3. ML特征的预处理和提取

我们研究的组织数据集最初包括25个变量(在ML中称为特征。详细信息请参见补充材料);21个特征是连续变量,4个特征是分类变量。选择损失率低于10%的特征。连续变量的缺失值用它们的中位数填充,而分类变量则用最近的填充方法填充。在ML模型设置中,使用标准缩放器对特征进行标准化,并使用one-hot编码表示分类变量Rodríguez et al., 2018)。选择K最佳算法通过方差分析在提取特征时使用(Bisong, 2019; Desyani et al., 2020)。在预处理和提取特征后,删除对模型贡献较小的变量,以防止过度拟合。

2.4. 机器学习模型策略

研究数据被分为80%的训练集(n = 10,043)和20%的测试集(n = 2511)。我们使用适应性提升分类器(AdaBoost)、支持向量机(SVM)、随机森林分类器(RF)、决策树分类器(DT)和K最近邻分类器(KNN)五种不同的机器学习模型来识别与重金属暴露有关的CHD这五种模型在分析中被使用,每个模型都有自己的特点。AdaBoost方法通常在数据训练中具有高精度;但是,它会减少不平衡数据的分类精度并增加时间复杂性(HishamHamouda2021)。SVM对数据不敏感,但可以处理非线性、高维数据集(Kim等,2021)。RF可以分析高维数据,同时具有强大的噪声免疫力,但在处理大样本数据时时间复杂度会增加(BelgiuDr˘agu2016; Yang等,2021)。DT易于理解和解释,并支持视觉分析,但容易导致过度拟合问题(Zweck等,2021)。KNN具有高精度、对离群值不敏感、对输入数据没有假设、简单和高效等多种优点;然而,时间复杂度是巨大的(KandhasamyBalamurali2015)。

为了进行模型训练,我们使用训练集来适应五个机器学习模型。为了测试训练模型的目的,我们使用测试集。在汇总每个模型的判别特征后,选择最适合识别疾病的模型。SHAP值被用来说明我们的模型,该模型将与2003年至2018年参与者的CHD相关的风险变量纳入考虑(Mangalathu等,2020; Rudin2019)。

2.5. 统计分析

在本研究中,描述了具有和不具有CHD的研究参与者的人口特征。连续变量报告为中位数(四分位距),而分类变量报告为数字(%)。Wilcoxon双样本检验或卡方检验被用于基于CHD状态比较组间特征。重金属在8个数据发布周期中表示为几何均值和几何标准偏差。在16年中,使用Mann-Kendall检验检查趋势。

模型判别使用每个模型的面积下曲线(AUC)(Pruessner等,2003)和95%置信区间(95CI)、准确性得分、平均精度得分(APS)、精度、灵敏度/召回率、特异度、阴性预测值(NPV)、假阳性率(FPR)、假阴性率(FNR)、假发现率(FDR)、F1分数和Brier得分。

所有分析使用Python 3.8.0进行,P0.05被认为是统计学上显著的。我们的方法概述如图1所示。

图片

3. 结果

3.1. 研究参与者的人口统计特征

参与2003年至2018年(美国NHANES)的被诊断为冠心病(CHD)和未被诊断为CHD的研究参与者的特征总结在表1中。最终分析包括12,554名参与者;其中49.88%为男性,参与者的平均年龄为49.0(四分位数范围,34.0-63.0)。其中,463人被诊断为CHDCHD患者更可能是男性、年龄较大、非西班牙裔白人,并且家庭收入平均水平(所有P <0.05)。

图片

3.2. 16年来重金属的浓度

2描述了每个数据发布周期中尿液或血液中重金属的浓度。基于数据发布周期,尿液中的总砷、亚砷酸、砷酸、二甲基砷酸、单甲基基砷酸、钡、镉、铅、锑和钨以及血液中的镉和铅显示出显着趋势(所有趋势的P <0.05)。

图片

3.3. 训练ML模型以识别CHD

在特征选择中,特征得分范围从0.02474.18。我们选择得分> 0.9的特征来适应我们的ML模型(附图2),然后使用17个变量的训练数据集对US NHANES数据集应用了五个ML模型来进行模型训练。

图片

3.4. 测试ML模型识别CHD的性能

在测试阶段,我们将训练好的模型应用于测试集。随机森林(RF)模型表现出最佳的AUC性能(AUC: 0.827; 95%CI: 0.777–0.877),与其他四个模型相比,相应的AUC值显著更高(P < 0.05);然而,决策树(DT)(AUC: 0.812; 95%CI: 0.761–0.863)、AdaBoostAUC: 0.798; 95%CI: 0.746–0.850)和K最近邻(KNN)(AUC: 0.781; 95%CI: 0.728–0.835)在识别冠心病方面也表现出良好的AUC性能。图2显示了五个机器学习模型的AUC和精确率-召回率曲线。AdaBoost95.9%)、支持向量机(SVM)(95.9%)、随机森林(RF)(95.9%)、决策树(DT)(95.6%)和支持向量机(SVM)(95.9%)在识别冠心病时均表现出良好的准确性。

3.5. 机器学习模型的比较

3展示了评估模型的性能估计结果。随机森林(RF)的APS0.190)在所有五个机器学习模型中表现出最好的判别能力。表3显示了五个机器学习模型的敏感度/召回率、特异度、阴性预测值、误报率、漏报率、假发现率和F1分数。支持向量机(SVM)、随机森林(RF)和K最近邻(KNN)在敏感度/召回率、特异度、阴性预测值、误报率、漏报率和F1分数上表现相当。附录图3展示了五个机器学习模型的混淆矩阵(PriceChapman2018)。

3还描述了模型的Brier分数。AdaBoostSVMRFKNNBrier分数可靠性评估大于决策树(DT)。最后,基于特征的综合分析表明,随机森林(RF)在识别冠心病方面具有最高的准确性和鲁棒性。

图片

3.6. 特征重要性可视化

利用SHAP图形演示RF模型中指定特征对CHD的影响。 SHAP图显示了每个变量(已选择)在ML模型中对测试数据集中识别CHD的影响(图3)。 SHAP值表明尿液中的铯(1.62)、铊(1.17)、锑(1.63)、二甲基砷酸(0.91)、钡(0.76)、亚砷酸(0.79)和总砷(0.01),以及血液中的铅(3.58)和镉(4.66)对该模型产生积极贡献,而尿液中的钴(-0.15)、镉(-2.93)和铀(-0.13)对模型贡献为负。此外,该图显示女性、年龄较大、非西班牙裔黑人和教育水平较低与CHD风险增加有关。

图片

此外,我们应用聚类抽样方法从测试数据集中随机选择了1000名研究参与者。然后,我们对SHAP值矩阵进行转置,绘制了层次聚类相似度热图绘图(附图4),并根据样本进行排列。右侧的条形图表示每个特征对RF模型的影响。

3.7. 个性化预测的解释

在图4中,每条线代表决策图中的一个参与者。特征按重要性排序,并在绘制的观察值上计算。每条线均在0.959处收敛。 SHAP值指示每个特征对最终识别的贡献,并说明RF模型中的特征。

图片

讨论

在本研究中,我们使用解释性机器学习方法研究了2003年至2018年美国NHANES数据集中重金属暴露与冠心病(CHD)的关系。在考虑了五种机器学习模型后,我们发现随机森林(RF)模型表现最佳,并选择该模型来识别CHDRF模型在测试中的平均AUC0.827,代表了较好的分类模型效率和稳定性,显示出较高的准确性:95.9%(有关选择RF算法参数的详细信息请参见补充部分)。此外,利用SHAP博弈理论方法可以说明模型中每个选择的特征的重要性,决策图能够展示RF模型的准确性和韧性。我们的结果表明,与重金属暴露相关的RF模型在CHD识别方面具有良好的潜力。

本研究基于先前应用机器学习算法预测疾病的研究(Akyea等,2020Shah等,2019Srour等,2020)。这些研究发现使用复杂的分类算法可以提高预测的准确性(Shah等,2019)。机器学习是人工智能的一个子集,它利用数学算法在异质数据中发现和分类结构以做出决策(Akyea等,2020Stafford等,2020)。在考虑机器学习算法时,理解是否会产生某些结论是复杂的(Srour等,2020)。同时,解释机器学习算法的困难阻碍了其在辅助医疗决策方面的应用。

然而,我们的RF模型具有一些值得注意的特点。首先,它避免了采集新数据所需的成本,而是利用来自美国NHANES的人口统计数据、实验室数据和问卷数据,利用多源数据应用于机器学习模型来找到前20个相关变量。此外,从2009年到2013年,美国非常重视重金属暴露问题。政府和相关部门提出了各种环境治理计划(GuneyZagury2012Southon等,2013)。政策和治疗计划直接导致环境重金属暴露水平下降,相应的CHD发病率也有所变化(Hannon等,2020Poggio等,2017)。我们使用大量的数据对机器学习模型进行了训练和评估,重点关注个体参与者的血液重金属暴露水平。由于训练数据中没有包括研究参与者的年均重金属暴露水平,因此重金属含量的下降趋势不会影响模型的稳定性。此外,RF模型的平均AUC0.827,显示出我们模型的良好稳定性。

此外,在我们的研究中,我们通过重金属暴露应用了五种机器学习方法来识别CHD,这些方法在其他当代机器学习研究中已经证明可以解决心血管疾病(Conrad等,2018Khera等,2021Rajkomar等,2018Zack等,2019)。一些机器学习模型具有鲁棒性,并可以应用于原始数据。特别是,数据越真实,算法的预测越准确(Rajkomar等,2018)。此外,我们对机器学习模型的预测潜力进行了多层次评估。利用每个模型在判别上的测试数据集,研究结果显示RF模型在分类的韧性方面表现最佳;特别地,11个判别特性全面说明了机器学习模型的性能。同时,本研究中的所有模型都没有过拟合问题(补充表1)。

因为在实践中理解机器学习方法的正确性并且以可视化方式展示识别结果是困难的,所以我们应用了SHAP值来对RF模型进行解释,以实现最佳的影响力和可解释性。正值的SHAP值意味着与该特征相关的数值会在16年美国NHANES调查期间增加冠心病的风险,而负值的SHAP值则表示较低的风险。通过树解释器计算的SHAP值可以帮助个体可视化模型的决策过程。

SHAP结果与早期研究的结果相似,这些研究主要集中在调查重金属暴露对心血管疾病的影响(Esteve-Pastor等,2019FagerbergBarregard2021Lin等,2020)。饮用水中存在的砷以及砷及其组分甲基化能力不足与心脏病风险增加有关。动物研究发现,砷减少了DNA甲基转移酶活性,而摄入砷增加了内皮功能障碍、氧化应激和炎症,从而增加了心血管疾病的风险(Chen等,2013Hosgood等,2020Huo等,2015Ochoa-Martínez等,2019)。此外,一项研究发现低浓度的铊(13.4 g/L60.1 g/L)影响儿童的心脏功能(Tsai等,2021)。此外,尿液和血液中的镉以及血液中的铅与心血管疾病的高风险有关(Deering等,2018Esteve-Pastor等,2019FagerbergBarregard2021Lin等,2020Zheng等,2019)。一项基于人群的队列研究表明,血液金属混合物与心血管疾病的死亡率相关(相对危险度=1.43)(Duan等,2020)。

在未来,对所选特征进行持续跟踪的分析和解释将为专家们提供宝贵的建议,帮助他们得出有理有据的结论,而不仅仅是接受算法的预测。我们还可以集中精力通过扩展数据库和提高临床医生-机器学习模型界面的可解释性来验证模型的性能(Alber等,2019Choi等,2020Li等,2020Zack等,2019)。


参考文献
Li X, Zhao Y, et al. Development of an interpretable machine learning model associated with heavy metals' exposure to identify coronary heart disease among US adults via SHAP: Findings of the US NHANES from 2003 to 2018. Chemosphere. 2023 Jan;311(Pt 1):137039. doi: 10.1016/j.chemosphere.2022.137039. Epub 2022 Oct 29. PMID: 36342026.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多