机器学习是当今科研领域的热门话题,在当今的大数据时代背景下,机器学习可以帮助我们找出这些数据的规律,是使计算机具有智能的根本途径。 今天,老方分享一篇发表于一区7分 SCI上利用5种机器学习算法构建预后模型相关文章,研究数据源自自有队列,一起看看吧~ 1. 特征筛选。该研究采用递归特征消除(RFE)方法筛选预测因子,RFE是机器学习特征筛选的主流筛选方法,有助于提高预测模型的性能和泛化能力。RFE能够精简特征数量,使模型更易解释,有利于临床应用。 2. 机器学习。该研究使用5种机器学习算法(包括SVM、LR、RF、LightGBM和XGBoost),通过性能比较确定了最优预测模型,并进行了外部验证。 3. 实用工具。该研究基于预测变量最优组合的相关指标构建了用于预测患者预后的网络计算器,将研究内容应用于临床实践,完成了从临床到临床的完美闭环!值得临床科研者学习! (PS:数据收集困难或者数据不全/不够的朋友,完全可以考虑使用公共数据库资源,大数据多队列可以让结果更具说服力!想要复现思路的朋友,欢迎找老方设计思路、定制分析!) 题目:用于评估自发性脑出血患者90天预后的基于机器学习的预测模型的开发和验证 杂志:Journal of Translational Medicine IF:7.4 发表时间:2024年3月 回复“原文”即可获取文献(文献编号为20240510) 研究背景 自发性脑出血(sICH)与显著的死亡率和发病率相关,预测sICH患者的预后仍然是一个重要的问题,显著影响治疗决策。 数据来源 数据来自2018年1月-2022年3月合肥市第二人民医院神经内科收治的413例sICH患者,2022年12月-2023年5月在安徽医科大学第一附属医院神经内科住院的74例sICH患者。 研究思路 首先,通过递归特征消除(RFE)综合临床信息、实验室分析结果和与sICH患者相关的成像特征筛选预测因子。其次,使用5种机器学习算法开发并验证模型的有效性,采用内部五重交叉验证来确定模型的最合适的超参数,外部五重交叉验证来评估机器学习模型性能,选择平均性能最好的机器学习模型作为最终模型,并进行外部验证。接着,通过SHAP分析阐明模型中变量的重要性,通过对变量重要性权重和组合的整合确定预测变量的最优组合。最后,基于最优组合中的指标构建用于sICH患者的预后预测的网络计算器。 主要结果 1. 临床特征 通过比较训练集和外部测试集数据之间的基线特征,发现大多数特征无显著差异。训练集中在预后不良组中,老年患者所占比例明显高于预后良好组,预后不良组脑室出血发生率明显高于预后良好组,两组之间的血肿体积存在显著差异(表1)。 表1训练队列中ICH患者的特征(部分) 2. 预测因子的选择 通过递归特征消除(RFE)方法获得最优特征组合,包括美国国立卫生研究院卒中量表(NIHSS)评分、天冬氨酸转氨酶(AST)、年龄、白细胞、血肿量、尿氮、中性粒细胞、血糖、肌酐、收缩压、丙氨酸氨基转移酶(ALT)、淋巴细胞、舒张压、尿酸、格拉斯哥昏迷评分量表(GCS)评分。 3. 多机器学习模型性能 将5种机器学习模型用于训练和测试,通过性能评估发现RF模型的性能指标普遍优于其他模型(表2)。 表2 5种机器学习模型的性能结果比较分析 图1 经过5次外部交叉验证的5个机器学习模型的平均AUC性能 4. 变量重要性和变量解释 通过SHAP分析,显示NIHSS评分较高的个体较评分低个体更容易出现不良预后,AST水平升高个体的预后可能不利,对于血肿容量> 20 ml个体的预后可能不利(图1)。 图1 RF模型预测脑出血患者不良预后的SHAP分析 5. Web计算器的实现 通过对变量重要性权重和组合的整合,确定了预测变量的最优组合:NIHSS评分、AST水平、年龄、白细胞计数和血肿容量(图2)。 图2 基于变量重要性的不同变量组合的RF模型性能比较 基于以上5个指标构建了网络计算器用于对sICH患者的预后风险的个体化预测。 图3基于Web的ICH患者短期预后预测计算器 文章小结 该研究根据RF模型的结果构建了一个预测模型,该模型结合了5个临床可获得的预测因子,对sICH患者的短期预后具有可靠的预测效力,可用于准确预测sICH患者的短期预后。 (PS:想复现思路的朋友,欢迎找老方设计思路、定制分析~) |
|