分享

临床预测模型 | 第16期. 一文讲透模型内部验证

 新用户4064dVjo 2023-08-24 发布于北京
在上期内容中,我们介绍了评价模型的指标,分别是区分度和校准度(第15评价模型用哪些指标?),他们是文章中相当重要的部分。接下来,我们就需要对所建模型进行验证,常见的验证方法包括内部验证以及外部验证,今天我们就向大家介绍内部验证常用的方法。

一、内部验证的定义

内部验证(internal validation)是我们建模后首先要进行的一项模型验证工作,也就是在训练数据集上,应用各种方法来评估模型的性能(主要是对区分度的评价),目的是评估模型在当前数据集上的表现,可以在一定程度上检测是否存在过拟合,以判断其未来在新数据上的泛化能力。但无论如何,内部验证终究是在训练集上进行的操作,无法真正评估模型在新数据上的泛化能力。

二、内部验证的常见方法

内部验证主要包括2大类方法,分别是交叉验证法(Cross Validation和自助法(Bootstrap),下面一一为大家介绍:

1. 交叉验证法是将数据集分成若干个子集,每次使用其中1个子集作为验证集,其余作为训练集,重复多次以获得稳定的性能评估结果。常见的交叉验证方法包括 K 折交叉验证(K-Fold Cross Validation)和留一交叉验证(Leave-One-Out Cross Validation)。

a) K 折交叉验证:将数据分成 K 个子集,每次选择其中1个作为验证集,其余作为训练集,重复K次,最终取平均性能作为评估结果(如下图所示)。

b) 留一交叉验证:每次只将一个样本作为验证集,其余样本作为训练集,重复 N次(N为样本总数),计算平均性能。大家可以看出,留一交叉验证事实上可以被看作是K 折交叉验证的一种特殊情况。

2. 自助法:从原始样本集合中有放回地随机抽取n个样本(n通常等于原始样本数),构建一个新的样本集合,这个新的样本集合称为"Bootstrap样本",因为随机抽取是有放回的,因此某些样本可能多次出现在新的"Bootstrap样本"中(如下图)。之后使用Bootstrap样本进行模型训练,并重复多次(通常重复1000次以上),并计算模型性能。

上述的方法都可以在论文中使用,可以根据具体的情况选取不同的方法。

那么这就是本期的全部内容啦,你学会了吗?大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话”栏目中提出,我们会尽快回复!


参考文献

Iasonos A, Schrag D, Raj GV, Panageas KS. How to build and interpret a nomogram for cancer prognosis. J Clin Oncol. 2008;26(8):1364-1370. doi:10.1200/JCO.2007.12.9791

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多