分享

回归分析时,一定要单因素回归P<0.05的自变量纳入多因素回归吗?

 妙趣横生统计学 2021-06-23
回归分析是医学研究最重要的手段,其中目的是探讨多因素情况下,各个因素的独立效应。那么,困惑诸多分析者的问题是,无论是医院的电子病历、还是调查研究,均涉及到几十个甚至上百个研究因素(我们称之为自变量),如何筛选构建一个多因素回归模型呢?

也就是说,多因素回归时,到底哪些变量作为自变量呢?

筛选自变量,最简单的方式、也最常见的方式是“先单因素后多因素法”,即先开展单因素回归,筛选出P值较小者一起纳入多因素回归模型。这种方法,郑老师上课也推荐给非统计学专业的医学生,不是说它是最好的方法,而是它最简单粗暴、最容易上手。
 
我今天要回答一个问题是,单因素分析后,P值小于多少,才被纳入回归模型?是P<0.05吗?

一、研究案例


这是一项关于胰腺癌病人生存时间的研究。该研究的终点为死亡,此外结局指标还包括生存时间。跟结局有关的研究变量较多,本文分析主要目的是探讨影响因素,也就是影响胰腺癌病人生存时间的因素有哪一些?

二、先单因素、再多因素的统计方法


中国研究者最常见的回归方法就是先单因素、再多因素
第一步,对上述变量均分别采用单因素回归方法。结果如下表2,性别、胰胆管浸润程度、占位数均无统计学差异,手术年龄、术中化疗、有无腹膜转移和TNM分期有统计学差异(P<0.05

第二步,挑选P值较小者,纳入多因素回归模型。本案例挑选P值较小者(P<0.05)的变量:手术年龄、术中化疗、有无腹膜转移和TNM分期,将其纳入回归模型中。
 
第三步,采用向前逐步回归法(Forward),开展多因素分析。结果见表3。最终构建的模型中包括了手术年龄、术中放疗和TNM分期,且各因素与生存时间之间均有统计学意义(P<0.05)。

三、为什么要先单后多


比如,现在研究要评价结胰腺癌患者生存的影响因素(后期来构建预测模型),与患者有关的因素包括患者的基本情况、患者病情、患者入院治疗、用药的各种特征、出院后行为、饮食、以及就诊特征,可能各因素都会影响生存结局。
 
研究影响生存结局的因素可以构建多因素COX回归模型。构建COX回归模型时,是要同时把所有自变量(也就是原因变量)纳入回归方程吗?

当然不能,理由如下:
(1)这些因素作为自变量放在一起,各个变量的复杂的关系,比如共线性问题,比如存在着中间变量,可能会导致模型构建失败。
(2)任何一个回归模型,往往基于有限样本量构建。样本量和纳入模型自变量数量息息相关,太多变量而样本量不足时,同样模型构建失败。因此,回归分析一般对样本量有要求。
(3)回归分析探讨影响因素,后期是为了构建预测模型,自变量个数也不能太多。为什么,预测模型是为了后期预测患者结局,需要采集模型所有的自变量的指标值,测定指标需要成本,自变量个数越多,则预测成本越高。
 
因此,必须筛选为数不多、合适的变量进入回归模型。总的来说,我用一个形容词来说回归模型构建的理念:“大道至简”。模型不要太复杂!

在具体的处理上,我认为可以采用"严进严纳" 的理念进行自变量筛选。严进严纳的方法基本理念是,即在纳入自变量的时候需要严格纳入,在排除自变量的时候,没有多大意义的别在最终模型中来。

四、P<0.05才被纳入模型吗?


大家从第三点可以理解原因:主要就是怕自变量太多而又关系太复杂,样本量不够多,模型构建失败。一个线性回归模型,需要5-10以上的样本量;logistic需要10-15倍的样本量。那么有限的样本量,你不能一下子把所有的感兴趣的变量全部放进去,那样肯定无法成功形成回归模型,造成多因素好回归所有的P值都>0.05。

所以才去的措施是:严纳!挑选少量的自变量进入模型。严纳的方式很多,对于初学者,简单粗暴而且被认可的方法就是把单因素分析P值较小者纳入到回归模型中来。

所以,一定要P值小于0.05才纳入进来吗?不是的!

(1)很多变量虽然单因素回归分析P>0.05,也有可能多因素回归P<0.05。所以,不能就卡在0.05的界限。个中原因我就不多说了!
(2)如果你的自变量非常重要,特别是核心变量,哪怕单因素分析P较大,也值得多因素回归放进去分析
(3)很多时候自变量个数也就是3~5个,而样本量较大,这个时候根本不怕自变量太多,没有必要先单因素后多因素。

因此,我把情况分为以下几种,仅供参考:

第一种:全部纳入
这种方法要求自变量较少,自变量之间关系简单,多重共线性不严重。一般情况下,自变量个数不太多(比如少于10个),且样本量是自变量个数20倍以上,可以采用本方法。

第二种方法:单因素筛选纳入(P值较小者,P<0.2或者<0.1)
这种方法要求自变量不是那么多,但样本量也不是那么大,因此可以考虑先单因素后多因素回归的方法。P值不要过于严格,一般P<0.2就可以了!

第三种方法:单因素筛选纳入(P值较小者,P<0.05)
这种方法出现在自变量非常多几十个上百个,单因素分析P<0.05者超过10个以上(P<0.2的自变量更多了)。这种情况下,严格控制多因素回归自变量个数。P<0.05者纳入多因素回归分析中。

五、特别注意


1.上述的方法是本人统计分析习惯,没有特别的指导文献,请谨慎采纳。

2.“先单后多”的回归方法是初学者模式,若您要发表高水平文章,有更多的选择。详情可见下面的系列文章,会让你大开眼界!
12篇文章,手把手教你如何科学地构建回归模型!

3. “先单后多”的单因素分析,并不是一定要单因素线性回归或者单因素logistic回归,单因素线性回归可以用t检验或者F检验代替;单因素logistic回归可以用卡方检验代替。

详细可见下面链接学习:
两组均数比较,可以用方差分析吗?谈谈结果一样的那些统计方法。

4.本篇文章是本人回归原则“严进严纳”的上篇,下篇我将介绍严纳:要不要使用逐步回归法!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多