此文将颠覆你对多因素分析建模策略的认识【松哥漫谈】

萌小芊 2017-08-24

展开全文

功能介绍（为伊消得人憔悴；一用就错学不会；舍得应付换应用；案例实战真英雄！）这里没有生涩难懂的统计理论，只有白话统计思维+案例实战。咱们一起成长吧！

缘起

Logistic回归是一种非常重要的单、多因素分析方法，其单因素应用主要目的在于筛选变量，多因素分析，在于获取最终模型，并得到各因素的风险值！多因素分析是统计分析的高级部分，能解其中味者，定能做出一定的研究成果。

对于Logistic回归，松哥认为至少两点大家应该注意，一是：变量如何进入模型，二是：变量以何种形式进入模型。

1.变量如何进入模型

（1）通常我们进行Logistic回归，常规操作为先进行单因素分析（即进行Logistic回归时放入一个自变量X），如果该因素P<>

（2）有时候，以P<><>

（3）将上述筛选的有意义的几个X，同时放入自变量框，构建多因素模型。很多人为了省事，直接采用的就是stepwise（逐步法），松哥称之为“懒人法”。意即最终模型由软件根据各因素的P值决定去留，获取最终模型。

（4）升个级吧！上述的单因素分析、多因素分析的因素去留选择，其实都是基于P值，然而P值在近2年的诟病大家也都有所耳闻！我们进行单因素分析时，P>0.1的变量其真正就与Y无关吗？

因为单因素分析是无法考虑混杂因素的，而混杂是双向的，某因素X单因素分析P>0.1，万一有个混杂因素，与其作用相反，把其拖入无意义界值之外呢？

同理，某个X与Y单因素分析P<>

关键是第一步就被剔除，没有进入多因素分析的X，如果真正与Y有关，将会让我们的研究结局走向相悖的一面。

最近的观点。。。。。。。

那我们到底该如何做呢？军事医学科学院胡良平讲授的观点为：依据专业，选择可能影响Y的相关影响因素X，直接进行多因素分析，让众多X们进行相互残杀，看到底谁有本事留在模型中（以P是否小于0.05为标准）。然而这种做法也有先决条件，自变量X不应该太多，否则样本量无法满足构建模型的需要。

然而松哥最近看了些高质量杂志发现，多因素分析即使P>0.0.5，也是可以留在模型的。比如上述多因素分析，其中4个P<0.05，留在模型，还有1个p>0.05，是否该剔除呢？新的观点认为，先记下没有剔除前，各危险因素的β系数值，然后剔除再建立模型，再看β值，如果β值改变量达到10%，则该变量不能删除，必须进入模型。

如果你用心看到这里，肯定会问，是前面4个β中的任何一个吗？注意，建立模型的x中，有核心研究变量与混杂因素，我们看核心研究变量的系数β的该变量是否大于10%。

再升高一个级别吧，如果你多读一些高质量SCI论文你会发现，结论往往会建立几个模型，而不是我们常规思维构建一个最终模型。当然建立的几个模型的最终解决的意义是不同的。比如研究者更关心X1对Y的影响，则采用Model1，而更关注X2对Y的影响，则采用Model2。如何决定留取几个模型，则必必须须关注建模过程中的β值的变化。

切记，切记，多因素分析，P值已经不是那么那么的重要，β的信息含量远大于P值！

2.变量以何种形式进入模型

我们知道，变量包含三种形式，计量资料、等级资料和分类资料，也就是松哥所说的老大、老二和老三，经常关注松哥统计文章的应该知道其含义。

以血压为例，其既可以是老大、老二，又可以是老三。请问当血压是某个疾病的风险因素时，其应该以老大、老二、还是以老三的形式进行模型呢？

松哥送大家一个口诀，未必放之四海而皆准，但有一定的实际意义，就是“级别对等”。

比如多重线性回归，我们的Y是不是连续性的正态分布资料，也就是计量资料，也就是老大。那血压是以多少mmHg（计量资料）优先考虑进入模型。其结果解释为血压每改变1mmHg，Y的平均改变多少多少，线性回归更注重数量的依存关系。

如果是Logistic回归，或Cox回归，其Y原始形式为计数资料（老二或老三），此时血压最好以老二（高血压、正常、低血压）或老三（正常、异常）的级别进入。

以老三形式为例，结果为，当你需要为异常时，你Y结局发生的风险是正常时的多少倍。

如果你以血压mmHg形式进入，则表示，血压每增高1mmHg，你Y结局发生的风险增加多少倍。而根据专业我们也知道，血压增高1mmHg，能对Y有多少影响呢，可能太微乎其微，也就没有多大的专业意义了。

所以我们以老三形式进入，正常与异常之间的差异就应该比较大，而且有更好解释的专业意义！

如果血压以老二形式进入模型，请问可不可以？好不好？意思是把它当做等级资料，基于专业，我们认为可以，但不好。理由是如果当做等级，结论是，血压每升高一个等级，Y发生的风险。我们会用正常与低血压比，高血压与正常比，这过于统计，而有失专业。此时应该高血压与正常比，低血压与正常比才对，才有专业意义。

如此这样，老二形式的血压，应该当做老三无序分类，然后设定正常为参照，让高、低血压都与正常比，这才对！

刚才选择的变量为血压，专业上已经有高低的标准，如果是身高，是连续性资料，建立Logisticc回归，如果以老大进入，则结果为身高每增高1cm，Y发生的风险，同样的道理，1cm的身高变化，到底能有多大风险呢！专业意义不大！

身高如何变成老二或者老三呢？常规做法是，将身高进行四分位数分组，然后变成变量，以1、2、3、4形式进入模型。但是万一Y疾病结局的发生并不按着1、2、3、4成线性递增或者递减，此时，就得将身高当做老三进行模型，而多项无序老三进行模型，必须设置哑变量，我想这你是懂滴！

身高先考虑由老大变老二，老二不合适再考虑变老三。变法除了四分位数分组，还有三分位数分组，可以多次尝试，以期找到最佳的形式。在进行线性回归时，还需要考虑变量的阈值效应和饱和效应（不说了，我想多数的你已经晕了）!

松哥统计说

多因素分析是真正体现统计思维、统计功底的分析。然绝大多数人（包括松哥），都不能解对其神秘面纱！本文撰写参考一些书籍与发表论文，同时也包括松哥个人的经验与观点，不妥处请大家一起讨论，集思广益嘛！

总结下吧！

（1）变量该如何进入模型

常规做法：放宽进入，然后关门打狗

现代做法：全部进来，看关系（β）

（2）变量以何种形式进入

建议：级别对等

洋洋洒洒数千言，辛辛苦苦几小时，积累沉淀18载！

本文，您坚持看到这里了吗？看到了底部留个言！

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：萌小芊 > 《统计》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

萌小芊

关注对话

TA的最新馆藏

[转] 基因注释软件GeneMarks和RAST
[转] 中国古代建筑等级制度
[转] Pandas处理文本数据|Pandas字符串处理|Pandas .str 属性|脑洞大开
[转] 一文读懂全外显子测序家系突变筛选策略
[转] 如何利用GAPIT进行GWAS分析
[转] 基因组注释2. 非编码基因和编码基因预测tRNAScan-SE、rRNAmmer和Prodigal

喜欢该文的人也喜欢更多

热门阅读换一换