【原】分类变量哑变量设置后，参照到底如何选择？【1061】

松哥精鼎统计 2020-10-23

展开全文

缘起

不管您是线性、Logistic还是Cox回归，分类变量进入模型，务必设置哑变量，可是哑变量设置后，到底以哪一种为参照设置哑变量呢，您考虑过吗？

精鼎47期《统计思维与SPSS实战研习班》详情点击

2019年1月11日-13日·中国广州

微信联系人，添加好友备注“报名”

情景说明

比如我们研究血型（1=A,2=B,3=AB,4=O），此时1、2、3、4仅是血型的代码，本身这4个数字是不能进行加减法运算的。

它们之间是平等的关系，因此加入模型，会以其中的一个为参照设置哑变量，因此4种血型会设置为3个哑变量，以Logistic回归为例，比如以A型血为参照，则3个哑变量分别表示血型为B、AB、O不是A型血发生结局的风险。

但是问题是，在没有进行Logistic回归之前，是如何确定以哪种血型为参照设置哑变量的呢？ this is a problem。

松哥建议

目前关于这个问题，有两种说法，供您参考

方法一：专业为王

以专业为纲领，选择专业认可的对照组，比如某变量包括（正常人、I型糖尿病、II型糖尿病），那么依据专业，还是设置正常人为参照比较合适。

方法二：统计指导

比如研究血型（1=A,2=B,3=AB,4=O）与某种疾病发生之间的关系，如果专业上无法确定哪种血型发生最低，也就是无法确定专业上的参照，那如何选择呢？

很多人会说，那我就以每种血型最为参照设置一遍，根据统计分析结果，然互找到那个倒霉蛋，以倒霉蛋为参照。这种做法也可以，但似乎得符合一定的条件。

松哥统计说

统计思维

有一种思维叫做统计思维，大家试想，4种血型在我们研究人群中的分布是不一样的，意即各型血型人数不一，如果A型血40人，B型血120人，O型血90人，AB型血150人，此时，如果以A型血作为参照就不合适，因为A型血的人数较少，意思是40人可能并不能代表A型血人的特性，因此A型为参照不合适哦！

那么此时，应该以样本量较大的为参照，至少保证那个倒霉蛋是稳定的，这很重要哦！

多因素回归分析样本量

松哥常说“样本量，要适当，少不达，多则溢”，然而对于描述性分析和差异性分析，基本都有现成的样本量计算公式，然而对于高级找关系的多因素模型构建，样本量目前主要是一些适用原则，一般要求样本量是自变量个数的10-15倍。但是当设置哑变量之后，等于自变量个数增加，样本量要适当增加哦！

但是还要注意点，对于logistic回归和Cox回归，样本量的大小不是指全部观察者的数量，是观察者中，目标结局发生者的数量哦！

统计思维与统计理论系列[1]

点击即可阅读哦！

【1060】松哥，这篇SCI的诊断试验结果看不懂，他到底是咋比的？

【1059】如何向统计老师咨询统计问题的正确姿势

【1058】生存分析单因素筛选的困惑

【1057】4种最常用的统计设计解读

【1056】SPSS统计软件学习终身不忘之必杀技

【1055】回归家族的书剑恩仇录，高手进阶必经之路

【1054】单因素是危险因素，多因素却保护因素了，想逆天吗？

【1053】这种文章统计套路您一定要学，不管你什么专业通杀

【1052】这个空白对照到底要不要加？

【1051】同一肝癌患者，同时接受CT、超声和磁共振，如何分析？

【1050】来自临床真实问题，有点意思，松哥荐读！

【1049】知道两组数据的样本量均数标准差，怎么算合并效应量呢？

【1048】P>0.05，本身就是没意义还是样本量不够？

【1047】昨天之后，偏埃塔方的界值标准

【1046】两因素方差分析，如何判断哪个因素对结果影响较大？

【1045】带基线数据数值变量如何进行统计分析辨析

【1044】统计学习之最大困惑！！

【1043】统计书没有告诉你的统计规律，你发现了没？

【1042】这两个是啥图，区别和联系

【1041】变量之间到底是单项转化还是双向转化

【1040】统计水平自我评估表

【1039】基线分析的3个终极目的

【1038】统计小白的学习路径

【1037】SCI论文中Logistic回归模型“门当户对”原则，松哥心得推荐给您

【1036】被我们忽视的生存分析区间删失数据

【1035】Logistic回归文章的SCI审稿人意见解读

【1034】统计学上的2K效应，你发现了没？

【1033】正态分布的3个基因密码，聆听大自然心跳的代码！

【1032】生存分析K-M法与COX回归结论不一致怎么办？

【1031】异常值的处理只有删除？

【1030】没有比较就没有伤害，让咱们互相伤害吧，教你4大类统计伤害方法

【1029】SCI审稿人让我控制2个单因素无意义的变量？

【1028】量表评价是信度重要还是效度重要？

【1027】Meta分析要解决的首要任务

【1026】文章材料与方法中统计方法如何描述

【1025】聚类分析稳定性判别的经验总结

【1023】“参数检验与非参数检验”哪个更好？

【1022】聚类分析只需这1张图就够了！

【1021】干预前后数据统计分析方法

【1020】听完四个小故事，你就明白主成分分析是啥意思了！

【1019】方差分析P>0.05，两两比较LSD法P<0.05，这可咋整？

【1018】倾向性评分后数据，应该采用配对设计还是成组设计？

【1017】双重差分模型，何方神圣？

【1016】等级与等比，可得分清楚！

【1015】频率与概率，如胶又似漆！

【1014】终于发现不用学习，顿悟统计的方法

【1008】啥！统计也会犯错，还分犯I类和II类错误？

【1007】统计必学的4个核心思想

【1006】别说相关太简单，且听松哥说相关

【1005】统计方法与统计思想谁重要？

【1004】正态分布10种鉴别方法汇总【荐藏】

【1003】连续变量变成等级变量后，原来有意义的变量变得没意义了？

【1002】别人让我出了5道选择题，顺便你也测测！

【1001】SCI论文中的P for trend是什么鬼？为什么高分文章经常采用呢

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：松哥精鼎统计 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

松哥精鼎统计

关注对话

TA的最新馆藏

奇了怪了，P>0.05为啥软件还会留该因素在多因素模型中
连续性变量截断家族又添一成员
先单之后，到底逐步向前，还是逐步向后，进行多因素PK呢？
生物医药领域，咱们低估了STATA
为啥你SPSS就做不出来倾向性评分！看松哥如何搞定
为啥会出现这样的ROC曲线，怎么解决呢？

喜欢该文的人也喜欢更多

热门阅读换一换