【原】【1130.】回归建模先单后多法，到底该不该保留无意义变量，理不辨不明

松哥精鼎统计 2021-01-02

展开全文

导读

虽然“先单后多法”进行统计建模，常被人所诟病，但是确实非常常用的统计建模攻略。松哥相信很多人对先单后多法的套路比较熟悉。

就是先对风险因素X逐个进行单因素分析，选择有意义的因素，在一起进行多因素分析。

然而松哥发现众多文献在先单后多结果表达时，有着2种不同的表达方式，孰对孰错，您认为呢？

正常表达

松哥统计说：上图先单发现3个风险因素，然后将3个风险因素一起进行多因素分析，本例非常幸运，3个因素都是有意义的，因此，上述表达没啥问题！

情况一

松哥统计说：依旧先单后多，先发现5个单因素，然后对5个单因素进行多因素分析，结果发现4个有统计学意义，其中Alb单因素分析有意义，多因素分析没有统计学意义，因此在多因素分析结果中，并没有给出结果。下面这篇文章亦如是：

情况二

松哥统计说：先单后多，先单发现5个有统计学意义，后多对5个同时进行分析，发现3个有统计学意义，同时也把2个没有统计学意义的也进行了表达，结果如图中红色框部分。

松哥统计说：先单发现6个有统计学意义的因素，后多发现3个有意义的，3个没有意义的也进行了表达（红色框中部分）。

松哥统计说A

对于上述情况，矛盾点在于“后多”的结果，没有统计学意义的到底该不该表达。目前也有2种观点：

观点一：应该表达，以为表达出来方便比较，以显示每一个变量系数变化的过程，统计辨析思维更为缜密。

观点二：不应该表达，理由（1）因为没有意义，本来就不应该在方程中，应该从方程中剔除；（2）如果不剔除，没意义的变量在方程中，会影响有意义变量的系数；

观点三：如果采用的是Enter法，那么有没有意义都应该表达；如果采用的逐步法，那么就可以删除，因为逐步回归给出的就是有意义变量构成的模型。

为此松哥再次查阅了一些文献，发现很多写着stepwise回归的，依旧给出没有意义的变量，到底该如何抉择，松哥也困惑了！

松哥统计说B

表达一下个人观点，请希望知道真理的智者底部留言一起讨论学习。

（1）建议统计分析方法中，不能仅仅写univariate and multivariate analysis，应该注明具体分析方法，单变量不用说可定是Enter法，但是多变量如果不说，默认就是Enter法，那么此时有没有意义都会展示结果；如果注明了stepwise（具体向前还是向后，暂且不论），那么最终结果就应该只包含有意义的统计量。

（2）采用Enter法得到的结果，松哥不建议写回归模型，因为无意义的变量放在模型中确实会干扰有意义变量的回归系数。从某种层面来说作为风险因素探讨貌似可以，但是依旧不好，道理同前。

（3）采用Enter法得到的结果，如果要构建模型，只有一种可能，那就是没有意义的X确实是Y的风险因素（若干文献证明或者专业定论），但是本次研究并未能从统计学角度纳入模型，因此，按照先专业后统计原则，则必须纳入。此时如果stepwise，则没有进入的机会，那么只能Enter法强制纳入；

（4）要想展现数据剖析的规律，先单，后多采用Enter法，如果有无意义的，应该删除无意义的变量，然后再进行一次强制回归，那么此时构建的模型是可以写回归方程的，而且系数关系才是真实的关系。而且也可以展现系数变化的过程。

（5）对于一些文献中明确描述采用stepwise法构建模型，然后结果中却包含无意义的变量，从统计学角度，不太正确，可能作者是复制了统计分析方法的描述放入文中的结果。

（6）您的意见呢？

---统计思维与理论系列---

【1128.】logistic与Cox回归的三次样条回归实现

【1127.】一张无法解释的ROC曲线，咋回事

【1126.】R语言实现基于多重插补的广义模型

【1125.】终结了，干预前后数值变量，到底该如何分析与制表

【1124.】那些委托第三方进行论文代写代发，要耗子尾汁了哦！

【1123.】卡方检验思想【白话科普】