分享

回归分析时,单因素P<0.05,而多因素却没有意义,我该如何是好?

 妙趣横生统计学 2020-10-21
如何科学地构建回归模型系列
1.一道饕餮大餐来了!手把手教你如何科学地构建回归模型!
2.一文汇总三大回归的基本应用条件、诊断与处理方法
3.回归分析时何时设置哑变量?如何设置?
4.当回归分析模型遇到连续型自变量,我该怎么办?
5.吃巧克力预防高血压?一文学会P trend计算,掌握趋势性分析
6.你只会“先单后多”吗?如何筛选自变量建立多因素回归模型
7.你认识它吗?--有向无环图(DAG):回归分析中自变量筛选的指导思想
8.中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?
9.控制混杂偏倚的回归自变量筛选法,强烈推荐Change-in-Estimate法
10回归分析筛选自变量,不推荐逐步回归法?那我应该怎么办?

SPSS教程44 单、多因素回归结果结果矛盾的处理方法

这一篇接着介绍先单后多的统计建模方法。

先单后多,最令人沮丧的,莫过于单因素P<0.05,而多因素大多数没有统计学意义,甚至一个都没有。这可怎么办!!怎么回事!!不仅如此,有些时候单因素>0.05,多因素可以出现统计学差异的惊喜局面哦。


1



单因素、多因素结果矛盾原因

这种情况的原因是什么?大概原因包括:

(1)多因素回归自变量个数太多,样本量不够,建模失败

(2)存在着混杂变量

(3)存在着中介变量

(4)存在着交互效应

(5)排除中介变量后,存在着其它多重共线性

主要的原因是存在着混杂变量和中介变量。


2



单因素、多因素结果矛盾如何处理

如何处理?

当然,最重要的是,在多因素回归分析之前,厘清好各变量的因果关系。对!借助DAG的方法能够形成相应的因果网络。

但是,DAG构建并不是那么容易,更多的时候,我们需要借助统计方法,来绘制DAG的连接线。

我推荐的方法是,“两因素建模法”和“去因素建模法”来探索自变量为什么先单后多结果不一致。

两种方法原理相似,他们的关系如同逐步回归法中的“向前逐步”和“向后逐步”方法。也非常容易理解。


3



两因素建模法

”案例分析

例1: Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿,考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。)


本文,关注两个变量,吸烟与早产次数

首先是单因素回归分析的结果:

在所有结果中,随访次数,没有统计学意义,因此多因素排除在外,剩下的全部纳入多因素回归分析(P<0.2)。结果如下:

结果发现,单因素分析中,种族是没有统计学差异,多因素P<0.05!  早产次数,应激性单因素有统计学意义,多因素P>0.05! 此外,吸烟、高血压的效应值(exp(B)即OR值)都在增大,这是为何?

我现在采用“两因素”分析法,一探究竟!

1.为什么种族单因素没有统计学差异,而多因素有?

我建立多个回归模型,每个回归模型因变量是“低出生体重”,自变量是“种族”和一个其他自变量,因此称为2因素回归分析。

然后, 我发现,种族+吸烟的两因素回归模型结果诡异!

吸烟在场,种族的效应具有统计学意义了!

什么原因?因为吸烟对种族而言,是一个中介变量!这个中介变量。这个示意图的效果如下:

种族总的效应是2.3,通过吸烟的是-0.7,而不通过吸烟的是3.0,因此,当两因素在的时候,通过吸烟的作用被阻拦,则效应值则变成了3.0,更为他突出了。

2. 为什么高血压的效应值大大增加了呢?

我同样利用两因素法建立多个回归模型,每个回归模型因变量是“低出生体重”,自变量是“种族”和一个其他自变量

结果发现,孕妇体重影响甚大:

单因素高血压OR=3.365,两因素变为5.998!

那么产妇体重是什么变量?在这里显然,不是中介变量了,而是混杂变量。

高血压总的效应是3.65,而来自于产妇体重的影响则夹杂在其中,为-2.34(高血压与产妇体重负相关),因此,单因素回归分析的OR值比多因素回归分析的结果要低。


4



去因素建模法的应用

我针对早产次数“单因素有统计学意义,多因素P>0.05”的矛盾进行分析吧

我先采用两因素进行分析,探讨影响早产次数的干扰因素。你们觉得谁影响了早产次数呢?答案是应激性和吸烟!

现在采用去因素法建模。“去因素法”指的是,在全因子模型中,剔除被怀疑的因素,在本例,需要剔除应激性与吸烟!

可以看出,应激性和吸烟同时在场,则早产次数没有统计学意义,而应激性和吸烟不在场,早产次数则有统计学意义了,和单因素分析结果一致!

那么应激性与吸烟是中介变量还是混杂呢? 先思考下!文末有答案。


4



小结

第一,两因素法和去因素法是一种探索性的方法,可以帮助诸位粗略地发现结果异常严重的现象,特别是关键变量单因素、多因素的矛盾。不妨结合两种策略来试试!

第二,两因素法和去因素法主要窥探中介与混杂的影响,但是究竟属于中介还是混杂,需要根据理论知识来判定。

第三,老话,在一个模型中,中介变量与混杂都不是我关注的重点,但中介变量不应纳入模型,混杂应该纳入模型;也可以采用多层次多模型法来窥探两个变量的影响

中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?

第四,对于能考虑中介与混杂变量的场景,两因素法和去因素法可能收效甚微!

第五,对于单因素和多因素回归分析结果矛盾时,千万不要觉得沮丧。这反而是你们大展身手的时候!想办法去解释矛盾之处,是一篇论文的亮点!

第六,从理论上分析,应激性与吸烟应该是中介变量!

--本文毕--

系列撰写者:郑卫军,浙江中医药大学医学统计学教研室主任。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多