分享

此文将颠覆你对多因素分析建模策略的认识【松哥漫谈】

 萌小芊 2017-08-24

(为伊消得人憔悴;一用就错学不会;舍得应付换应用;案例实战真英雄!)这里没有生涩难懂的统计理论,只有白话统计思维+案例实战。咱们一起成长吧!

缘起

Logistic回归是一种非常重要的单、多因素分析方法,其单因素应用主要目的在于筛选变量,多因素分析,在于获取最终模型,并得到各因素的风险值!多因素分析是统计分析的高级部分,能解其中味者,定能做出一定的研究成果。

对于Logistic回归,松哥认为至少两点大家应该注意,一是:变量如何进入模型,二是:变量以何种形式进入模型。


1.变量如何进入模型


(1)通常我们进行Logistic回归,常规操作为先进行单因素分析(即进行Logistic回归时放入一个自变量X),如果该因素P<>


(2)有时候,以P<><>


(3)将上述筛选的有意义的几个X,同时放入自变量框,构建多因素模型。很多人为了省事,直接采用的就是stepwise(逐步法),松哥称之为“懒人法”。意即最终模型由软件根据各因素的P值决定去留,获取最终模型。




(4)升个级吧!上述的单因素分析、多因素分析的因素去留选择,其实都是基于P值,然而P值在近2年的诟病大家也都有所耳闻!我们进行单因素分析时,P>0.1的变量其真正就与Y无关吗?


因为单因素分析是无法考虑混杂因素的,而混杂是双向的,某因素X单因素分析P>0.1,万一有个混杂因素,与其作用相反,把其拖入无意义界值之外呢?


同理,某个X与Y单因素分析P<>


关键是第一步就被剔除,没有进入多因素分析的X,如果真正与Y有关,将会让我们的研究结局走向相悖的一面。


最近的观点。。。。。。。


那我们到底该如何做呢?军事医学科学院胡良平讲授的观点为:依据专业,选择可能影响Y的相关影响因素X,直接进行多因素分析,让众多X们进行相互残杀,看到底谁有本事留在模型中(以P是否小于0.05为标准)。然而这种做法也有先决条件,自变量X不应该太多,否则样本量无法满足构建模型 的需要。


然而松哥最近看了些高质量杂志发现,多因素分析即使P>0.0.5,也是可以留在模型的。比如上述多因素分析,其中4个P<0.05,留在模型,还有1个p>0.05,是否该剔除呢?新的观点认为,先记下没有剔除前,各危险因素的β系数值,然后剔除再建立模型,再看β值,如果β值改变量达到10%,则该变量不能删除,必须进入模型。


如果你用心看到这里,肯定会问,是前面4个β中的任何一个吗?注意,建立模型的x中,有核心研究变量与混杂因素,我们看核心研究变量的系数β的该变量是否大于10%




再升高一个级别吧,如果你多读一些高质量SCI论文你会发现,结论往往会建立几个模型,而不是我们常规思维构建一个最终模型。当然建立的几个模型的最终解决的意义是不同的。比如研究者更关心X1对Y的影响,则采用Model1,而更关注X2对Y的影响,则采用Model2。如何决定留取几个模型,则必必须须关注建模过程中的β值的变化。


切记,切记,多因素分析,P值已经不是那么那么的重要,β的信息含量远大于P值!


2.变量以何种形式进入模型



我们知道,变量包含三种形式,计量资料、等级资料和分类资料,也就是松哥所说的老大、老二和老三,经常关注松哥统计文章的应该知道其含义。


以血压为例,其既可以是老大、老二,又可以是老三。请问当血压是某个疾病的风险因素时,其应该以老大、老二、还是以老三的形式进行模型呢?


松哥送大家一个口诀,未必放之四海而皆准,但有一定的实际意义,就是“级别对等”。


比如多重线性回归,我们的Y是不是连续性的正态分布资料,也就是计量资料,也就是老大。那血压是以多少mmHg(计量资料)优先考虑进入模型。其结果解释为血压每改变1mmHg,Y的平均改变多少多少,线性回归更注重数量的依存关系。


如果是Logistic回归,或Cox回归,其Y原始形式为计数资料(老二或老三),此时血压最好以老二(高血压、正常、低血压)或老三(正常、异常)的级别进入。


以老三形式为例,结果为,当你需要为异常时,你Y结局发生的风险是正常时的多少倍。


如果你以血压mmHg形式进入,则表示,血压每增高1mmHg,你Y结局发生的风险增加多少倍。而根据专业我们也知道,血压增高1mmHg,能对Y有多少影响呢,可能太微乎其微,也就没有多大的专业意义了。


所以我们以老三形式进入,正常与异常之间的差异就应该比较大,而且有更好解释的专业意义!


如果血压以老二形式进入模型,请问可不可以?好不好?意思是把它当做等级资料,基于专业,我们认为可以,但不好。理由是如果当做等级,结论是,血压每升高一个等级,Y发生的风险。我们会用正常与低血压比,高血压与正常比,这过于统计,而有失专业。此时应该高血压与正常比,低血压与正常比才对,才有专业意义。


如此这样,老二形式的血压,应该当做老三无序分类,然后设定正常为参照,让高、低血压都与正常比,这才对!


刚才选择的变量为血压,专业上已经有高低的标准,如果是身高,是连续性资料,建立Logisticc回归,如果以老大进入,则结果为身高每增高1cm,Y发生的风险,同样的道理,1cm的身高变化,到底能有多大风险呢!专业意义不大!


身高如何变成老二或者老三呢?常规做法是,将身高进行四分位数分组,然后变成变量,以1、2、3、4形式进入模型。但是万一Y疾病结局的发生并不按着1、2、3、4成线性递增或者递减,此时,就得将身高当做老三进行模型,而多项无序老三进行模型,必须设置哑变量,我想这你是懂滴!


身高先考虑由老大变老二,老二不合适再考虑变老三。变法除了四分位数分组,还有三分位数分组,可以多次尝试,以期找到最佳的形式。在进行线性回归时,还需要考虑变量的阈值效应和饱和效应(不说了,我想多数的你已经晕了)!

松哥统计说

多因素分析是真正体现统计思维、统计功底的分析。然绝大多数人(包括松哥),都不能解对其神秘面纱!本文撰写参考一些书籍与发表论文,同时也包括松哥个人的经验与观点,不妥处请大家一起讨论,集思广益嘛!


总结下吧!

(1)变量该如何进入模型

常规做法:放宽进入,然后关门打狗

现代做法:全部进来,看关系(β)


(2)变量以何种形式进入

建议:级别对等


洋洋洒洒数千言,辛辛苦苦几小时,积累沉淀18载

本文,您坚持看到这里了吗?看到了底部留个言!




    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多