分享

临床预测模型 | 第4期. 你的模型过拟合了吗?

 新用户4064dVjo 2023-07-22 发布于北京

上期内容中,我们介绍了筛选预测变量的两种方法第3期.变量太多啦,怎么选?)。但是大家知道,在广义线性模型(如Cox风险比例模型和Logistic回归)中,对预测变量的数量有什么样的要求吗?以及当变量的数目庞大时,如何缩小自己的选择范围呢?我们将在这期讲解,继续看下去吧!

一、过拟合
当模型中含有过多的变量时,往往会出现在建模数据集上表现优异,但是无法推广到其他数据集的情况,我们把这个现象叫做过拟合(overfitting)如下图所示,中间图中的曲线是拟合恰到好处的情况,可以允许有一定的误差,并且可以在其他数据集中达到相似的效果。第3张图则是过拟合,模型的变量太多甚至恰好经过了所有的点,但这样的模型往往很难在其他数据集达到同样好的效果。

过拟合图示

为了避免这个情况,在广义线性模型中,我们对预测变量的数量有一定的限制:预测变量的数目不超过“事件数目”/10例如,用logistic回归预测患者是否出现肾损伤,数据集中出现肾损伤者n人,未出现肾损伤者m人,这个情况下变量的数量应不超过n和m中小的那个除以10,即min/(n,m);若使用Cox风险比例模型预测无复发生存率,变量的数量应当不超过复发数/10

二、Bonferroni矫正

在现实中,如果仅使用临床上的指标,结合我们上期的内容,往往是可以达到要求的。但现在越来越多的研究选择用组学数据建模,这涉及数量庞大的基因,我们如何缩小范围呢,Bonferroni矫正会是一个好办法。其原理为:在同一数据集上同时检验n个相互独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n;例如,对1000个基因进行单因素回归分析,探究它们对预后的关系,这便是做了1000次独立的假设检验,将p设置为0.05/1000=5*10-6可以严格控制假阳性的出现,为我们后续纳入建模提供更有力的支撑

用Bonferroni矫正控制假阳性的出现

这篇JCO的文章就采用Bonferroni矫正,在大量基因突变中,筛选出了10个与预后密切相关的基因用于建模。

那么这就是本期的全部内容啦,你学会了吗?大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话” 栏目中提出,我们会尽快回复!

参考文献:

Nazha A, Komrokji R, Meggendorfer M, et al. Personalized Prediction Model to Risk Stratify Patients With Myelodysplastic Syndromes. J Clin Oncol. 2021;39(33):3737-3746. doi:10.1200/JCO.20.02810

写在最后



“观科研”(点击进一步了解我们吧)是由一群北京协和医学院(清华大学医学部)的博士开创的公众号,初心是让医学科研有迹可循,帮助一线的医学科研人员更快地成长,希望大家支持与关注!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多