分享

分类变量哑变量设置后,参照到底如何选择?【1061】

 松哥精鼎统计 2020-10-23

缘起

    不管您是线性、Logistic还是Cox回归,分类变量进入模型,务必设置哑变量,可是哑变量设置后,到底以哪一种为参照设置哑变量呢,您考虑过吗?

精鼎47期《统计思维与SPSS实战研习班》详情点击

2019年1月11日-13日·中国广州

微信联系人,添加好友备注“报名

情景说明

比如我们研究血型(1=A,2=B,3=AB,4=O),此时1、2、3、4仅是血型的代码,本身这4个数字是不能进行加减法运算的。

它们之间是平等的关系,因此加入模型,会以其中的一个为参照设置哑变量,因此4种血型会设置为3个哑变量,以Logistic回归为例,比如以A型血为参照,则3个哑变量分别表示血型为B、AB、O不是A型血发生结局的风险。

但是问题是,在没有进行Logistic回归之前,是如何确定以哪种血型为参照设置哑变量的呢? this is a problem。

松哥建议

目前关于这个问题,有两种说法,供您参考

方法一:专业为王

以专业为纲领,选择专业认可的对照组,比如某变量包括(正常人、I型糖尿病、II型糖尿病),那么依据专业,还是设置正常人为参照比较合适。

方法二:统计指导

比如研究血型(1=A,2=B,3=AB,4=O)与某种疾病发生之间的关系,如果专业上无法确定哪种血型发生最低,也就是无法确定专业上的参照,那如何选择呢?

很多人会说,那我就以每种血型最为参照设置一遍,根据统计分析结果,然互找到那个倒霉蛋,以倒霉蛋为参照。这种做法也可以,但似乎得符合一定的条件。

松哥统计说

统计思维

有一种思维叫做统计思维,大家试想,4种血型在我们研究人群中的分布是不一样的,意即各型血型人数不一,如果A型血40人,B型血120人,O型血90人,AB型血150人,此时,如果以A型血作为参照就不合适,因为A型血的人数较少,意思是40人可能并不能代表A型血人的特性,因此A型为参照不合适哦!

那么此时,应该以样本量较大的为参照,至少保证那个倒霉蛋是稳定的,这很重要哦!

多因素回归分析样本量

松哥常说“样本量,要适当,少不达,多则溢”,然而对于描述性分析和差异性分析,基本都有现成的样本量计算公式,然而对于高级找关系的多因素模型构建,样本量目前主要是一些适用原则,一般要求样本量是自变量个数的10-15倍。但是当设置哑变量之后,等于自变量个数增加,样本量要适当增加哦!

但是还要注意点,对于logistic回归和Cox回归,样本量的大小不是指全部观察者的数量,是观察者中,目标结局发生者的数量哦!

统计思维与统计理论系列[1]

点击即可阅读哦!

【1060】松哥,这篇SCI的诊断试验结果看不懂,他到底是咋比的

【1059】如何向统计老师咨询统计问题的正确姿势

【1058】生存分析单因素筛选的困惑

【1057】4种最常用的统计设计解读

【1056】SPSS统计软件学习终身不忘之必杀技

【1055】回归家族的书剑恩仇录,高手进阶必经之路

【1054】单因素是危险因素,多因素却保护因素了,想逆天吗?

【1053】这种文章统计套路您一定要学,不管你什么专业通杀

【1052】这个空白对照到底要不要加?

【1051】同一肝癌患者,同时接受CT、超声和磁共振,如何分析?

【1050】来自临床真实问题,有点意思,松哥荐读!

【1049】知道两组数据的样本量均数标准差,怎么算合并效应量呢?

【1048】P>0.05,本身就是没意义还是样本量不够?

【1047】昨天之后,偏埃塔方的界值标准

【1046】两因素方差分析,如何判断哪个因素对结果影响较大?

【1045】带基线数据数值变量如何进行统计分析辨析

【1044】统计学习之最大困惑!!

【1043】统计书没有告诉你的统计规律,你发现了没?

【1042】这两个是啥图,区别和联系

【1041】变量之间到底是单项转化还是双向转化

【1040】统计水平自我评估表

【1039】基线分析的3个终极目的

【1038】统计小白的学习路径

【1037】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您

【1036】被我们忽视的生存分析区间删失数据

【1035】Logistic回归文章的SCI审稿人意见解读

【1034】统计学上的2K效应,你发现了没?

【1033】正态分布的3个基因密码,聆听大自然心跳的代码!

【1032】生存分析K-M法与COX回归结论不一致怎么办?

【1031】异常值的处理只有删除?

【1030】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1029】SCI审稿人让我控制2个单因素无意义的变量?

【1028】量表评价是信度重要还是效度重要?

【1027】Meta分析要解决的首要任务

【1026】文章材料与方法中统计方法如何描述

【1025】聚类分析稳定性判别的经验总结

【1023】“参数检验与非参数检验”哪个更好?

【1022】聚类分析只需这1张图就够了!

【1021】干预前后数据统计分析方法

【1020】听完四个小故事,你就明白主成分分析是啥意思了!

【1019】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1018】倾向性评分后数据,应该采用配对设计还是成组设计?

【1017】双重差分模型,何方神圣?

【1016】等级与等比,可得分清楚!

【1015】频率与概率,如胶又似漆!

【1014】终于发现不用学习,顿悟统计的方法

【1013】加权最小二乘回归是什么鬼?

【1012】统计世界的4维空间

【1011】平行性检验到底应该啥时候做?

【1010】这篇文章凭啥这样分组呢?

【1009】常用统计分析方法选择图解

【1008】啥!统计也会犯错,还分犯I类和II类错误?

【1007】统计必学的4个核心思想

【1006】别说相关太简单,且听松哥说相关

【1005】统计方法与统计思想谁重要?

【1004】正态分布10种鉴别方法汇总【荐藏】

【1003】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1002】别人让我出了5道选择题,顺便你也测测!

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多