分享

【1130.】回归建模先单后多法,到底该不该保留无意义变量,理不辨不明

 松哥精鼎统计 2021-01-02
导读

    虽然“先单后多法”进行统计建模,常被人所诟病,但是确实非常常用的统计建模攻略。松哥相信很多人对先单后多法的套路比较熟悉。

    就是先对风险因素X逐个进行单因素分析,选择有意义的因素,在一起进行多因素分析。

    然而松哥发现众多文献在先单后多结果表达时,有着2种不同的表达方式,孰对孰错,您认为呢?

正常表达





松哥统计说:上图先单发现3个风险因素,然后将3个风险因素一起进行多因素分析,本例非常幸运,3个因素都是有意义的,因此,上述表达没啥问题!

情况一





松哥统计说:依旧先单后多,先发现5个单因素,然后对5个单因素进行多因素分析,结果发现4个有统计学意义,其中Alb单因素分析有意义,多因素分析没有统计学意义,因此在多因素分析结果中,并没有给出结果。下面这篇文章亦如是:

情况二





松哥统计说:先单后多,先单发现5个有统计学意义,后多对5个同时进行分析,发现3个有统计学意义,同时也把2个没有统计学意义的也进行了表达,结果如图中红色框部分。

松哥统计说:先单发现6个有统计学意义的因素,后多发现3个有意义的,3个没有意义的也进行了表达(红色框中部分)。

松哥统计说A





 对于上述情况,矛盾点在于“后多”的结果,没有统计学意义的到底该不该表达。目前也有2种观点:

观点一:应该表达,以为表达出来方便比较,以显示每一个变量系数变化的过程,统计辨析思维更为缜密。

观点二:不应该表达,理由(1)因为没有意义,本来就不应该在方程中,应该从方程中剔除;(2)如果不剔除,没意义的变量在方程中,会影响有意义变量的系数;

观点三:如果采用的是Enter法,那么有没有意义都应该表达;如果采用的逐步法,那么就可以删除,因为逐步回归给出的就是有意义变量构成的模型。

为此松哥再次查阅了一些文献,发现很多写着stepwise回归的,依旧给出没有意义的变量,到底该如何抉择,松哥也困惑了!

松哥统计说B





 表达一下个人观点,请希望知道真理的智者底部留言一起讨论学习。

(1)建议统计分析方法中,不能仅仅写univariate and multivariate analysis,应该注明具体分析方法,单变量不用说可定是Enter法,但是多变量如果不说,默认就是Enter法,那么此时有没有意义都会展示结果;如果注明了stepwise(具体向前还是向后,暂且不论),那么最终结果就应该只包含有意义的统计量。

(2)采用Enter法得到的结果,松哥不建议写回归模型,因为无意义的变量放在模型中确实会干扰有意义变量的回归系数。从某种层面来说作为风险因素探讨貌似可以,但是依旧不好,道理同前。

(3)采用Enter法得到的结果,如果要构建模型,只有一种可能,那就是没有意义的X确实是Y的风险因素(若干文献证明或者专业定论),但是本次研究并未能从统计学角度纳入模型,因此,按照先专业后统计原则,则必须纳入。此时如果stepwise,则没有进入的机会,那么只能Enter法强制纳入;

(4)要想展现数据剖析的规律,先单,后多采用Enter法,如果有无意义的,应该删除无意义的变量,然后再进行一次强制回归,那么此时构建的模型是可以写回归方程的,而且系数关系才是真实的关系。而且也可以展现系数变化的过程。

(5)对于一些文献中明确描述采用stepwise法构建模型,然后结果中却包含无意义的变量,从统计学角度,不太正确,可能作者是复制了统计分析方法的描述放入文中的结果。

(6)您的意见呢?

---统计思维与理论系列---

【1128.】logistic与Cox回归的三次样条回归实现

【1127.】一张无法解释的ROC曲线,咋回事

【1126.】R语言实现基于多重插补的广义模型

【1125.】终结了,干预前后数值变量,到底该如何分析与制表

【1124.】那些委托第三方进行论文代写代发,要耗子尾汁了哦!

【1123.】卡方检验思想【白话科普】

【1122.】现代流行学圣经,一本英文原版著作

【1121.】假设检验的思想【白话科普】

【1120.】这种错误非常隐蔽,看《中国妇幼保健》上这篇文章就错了,而且还。。。

【1119.】医学科研设计,这张图基本说清楚了

【1118.】统计三维空间,换种角度理解常用统计

【1117.】临床科研课题统计学审核要点

【1116.】CNKI撤稿和撤回,都有抹不掉的痕迹!

【1115.】PCA、PLS-DA、OPLS-DA到底啥关系?

【1114.】先单后多风险因素发现模型构建论文错误解析

【1113.】医学论文中常用回归分析方法的审核要点[松哥荐读]及对策

【1112.】病例对照研究中的COR和AOR

【1111.】这个北大核心太好发呀!

【1110.】松哥,重测后t检验是咋回事?

【1109.】两独立t如何获取差值的可信区间?

【1108.】SCI论文,有时也错的离谱

【1107.】Y是连续,X是分类,怎么分析?

【1106.】统计问诊:这样的回归,松哥也很少见到

【1105.】统计问诊:松哥为什么我回归模型无法计算可信区间

【1104.】质性研究编码及nvivo操作

[1103.]CNKI升级了,即使撤稿也还能下载,如此留下痕迹,侥幸者要注意啦!

【1102.】[精品资源]回归建模策略(第二版)

【1101.】单组前后测量设计,你得小心了?

【1094.】横断面研究思路与统计分析方法

【1093.】临床设计与统计设计:相爱相杀

【1092.】为什么一篇文章要建立5个模型

【1091】混杂因素与交互作用杂谈!

【1090.】中英文期刊分类(SCI分区和中文核心),一文秒懂!

【1089.】看懂此图,统计开悟!松哥荐读

【1088.】模型发现有交互作用怎么办?怎么解释呢!

【1087.】LASSO:变量选择利器!

【1086.】为啥20分以上SCI论文如此钟情P-interaction!

【1085.】正态性不符合怎么办?其实没啥大事!

【1084.】哎呦妈呀!几何均数还有标准差呀?书中从来没说过呀!

【1083.】交叉验证是啥个意思,是换妻游戏吗?

【1082.】不懂统计思维的统计是没有灵魂的!

【1081.】造假大识别,这种假都敢造!

【1080.】辨析丨啥?统计上还有q值,和P值啥关系?

【1079.】这种造假方式,您能识别吗?

【1078.】SCI相关分析比中文正规的3点理由

【1077.】临床科研设计与数据分析9大易忽视错误(推荐)

【1076.】这种套路可以学,怎么化无意义为有意义!

【1075.】很有意思的一个统计问题,并发症到底该如何分析?

【1074.】一文了解主流统计软件

【1073.】WHAT!计算机随机序列竟然是伪随机

【1072.】单因素Logistic回归变量筛选,你还在用表表达,看看人家如何可视化的,审稿人看了能不开心吗?

【1071.】SCI论文中回归模型样本量确定标准,建议阅读

【1070.】性别和吸烟是专业公认的危险因素,为啥多因素分析性别没意义了?

【1069.】数值变量应该以何种形式进入模型

【1068.】多项分类变量进入模型的正确姿势

【1067.】这种随意拆分的错误不能犯

【1066.】SCI统计方法写作秘籍

【1065.】这篇SCI论文10个统计问题辨析

【1064.】以前认为概念无所谓,其实松哥错了

【1063.】松哥,我发现一处SCI统计错误,非常荒谬!

【1062.】分类变量哑变量设置后,参照到底如何选择?

【1061.】这篇SCI的诊断试验结果看不懂,他到底是咋比的

【1060.】如何向统计老师咨询统计问题的正确姿势

【1059.】生存分析单因素筛选的困惑

【1058.】4种最常用的统计设计解读

【1057.】SPSS统计软件学习终身不忘之必杀技

【1056.】回归家族的书剑恩仇录,高手进阶必经之路

【1055.】单因素是危险因素,多因素却保护因素了,想逆天吗?

【1054.】这种文章统计套路您一定要学,不管你什么专业通杀

【1053.】这个空白对照到底要不要加?

【1052.】同一肝癌患者,同时接受CT、超声和磁共振,如何分析?

【1051.】来自临床真实问题,有点意思,松哥荐读!

【1050.】知道两组数据的样本量均数标准差,怎么算合并统计量呢?

【1049.】meta分析软件Revman5.3卡死解决方案

【1048.】P>0.05,本身就是没意义还是样本量不够?

【1047.】两因素方差分析,如何判断哪个因素对结果影响较大?

【1046.】带基线数据数值变量如何进行统计分析辨析

【1045.】统计学习之最大困惑!!

【1044.】松哥为啥我318样本量统计分析出来确实400样本量?

【1043.】这两个是啥图?区别和联系

【1042.】变量之间到底是单项转化还是双向转化

【1041.】统计水平自我评估表

【1040.】基线分析的3个终极目的

【1039.】统计小白的学习路径

【1038.】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您

【1037.】被我们忽视的生存分析区间删失数据

【1036.】Logistic回归文章的SCI审稿人意见解读

【1035.】统计学上的2K效应,你发现了没?

【1034.】正态分布的3个基因密码,聆听大自然心跳的代码!

【1033.】生存分析K-M法与COX回归结论不一致怎么办?

【1032.】异常值的处理只有删除?

【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1030.】SCI审稿人让我控制2个单因素无意义的变量?

【1029.】量表评价是信度重要还是效度重要?

【1028.】Meta分析要解决的首要任务

【1027.】文章材料与方法中统计方法如何描述

【1026.】这个到底是啥统计设计?一起来看看!

1025.聚类分析稳定性判别的经验总结

【1024.】“参数检验与非参数检验”哪个更好?

【1023.】干预前后数据统计分析方法

【1022.】听完四个小故事,你就明白主成分分析是啥意思了!

【1021.】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1020.】等级与等比,可得分清楚!

【1019.】频率与概率,如胶又似漆!

【1018.】终于发现不用学习,顿悟统计的方法

【1017.】倾向性评分后数据,应该采用配对设计还是成组设计?

【1016.】统计必学的4个核心思想

【1015.】加权最小二乘回归是什么鬼?

【1014.】平行性检验到底应该啥时候做?

【1013】统计的4维空间(一维一层天)

【1012】到底做相关?还是方差分析呢?

【1011】这篇文章凭啥这样分组呢?

【1010】常用统计分析方法选择图解

【1009】P<0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误?

【1008】文章鉴析:这篇文章或许有10处不适!

【1007】R×C卡方的Fisher确切概率法为什么会有卡方值

【1006】大小优指标如何同时制作ROC曲线[经验技巧]

【1005】统计方法与统计思想谁重要?

【1004】别说相关太简单,且听松哥说相关

【1003】正态分布10种鉴别方法汇总【荐藏】

【1002】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

------------------------------

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多