缘起 不管您是线性、Logistic还是Cox回归,分类变量进入模型,务必设置哑变量,可是哑变量设置后,到底以哪一种为参照设置哑变量呢,您考虑过吗? 2019年1月11日-13日·中国广州 微信联系人,添加好友备注“报名” 比如我们研究血型(1=A,2=B,3=AB,4=O),此时1、2、3、4仅是血型的代码,本身这4个数字是不能进行加减法运算的。 它们之间是平等的关系,因此加入模型,会以其中的一个为参照设置哑变量,因此4种血型会设置为3个哑变量,以Logistic回归为例,比如以A型血为参照,则3个哑变量分别表示血型为B、AB、O不是A型血发生结局的风险。 但是问题是,在没有进行Logistic回归之前,是如何确定以哪种血型为参照设置哑变量的呢? this is a problem。 目前关于这个问题,有两种说法,供您参考 方法一:专业为王 以专业为纲领,选择专业认可的对照组,比如某变量包括(正常人、I型糖尿病、II型糖尿病),那么依据专业,还是设置正常人为参照比较合适。 方法二:统计指导 比如研究血型(1=A,2=B,3=AB,4=O)与某种疾病发生之间的关系,如果专业上无法确定哪种血型发生最低,也就是无法确定专业上的参照,那如何选择呢? 很多人会说,那我就以每种血型最为参照设置一遍,根据统计分析结果,然互找到那个倒霉蛋,以倒霉蛋为参照。这种做法也可以,但似乎得符合一定的条件。 统计思维 有一种思维叫做统计思维,大家试想,4种血型在我们研究人群中的分布是不一样的,意即各型血型人数不一,如果A型血40人,B型血120人,O型血90人,AB型血150人,此时,如果以A型血作为参照就不合适,因为A型血的人数较少,意思是40人可能并不能代表A型血人的特性,因此A型为参照不合适哦! 那么此时,应该以样本量较大的为参照,至少保证那个倒霉蛋是稳定的,这很重要哦! 多因素回归分析样本量 松哥常说“样本量,要适当,少不达,多则溢”,然而对于描述性分析和差异性分析,基本都有现成的样本量计算公式,然而对于高级找关系的多因素模型构建,样本量目前主要是一些适用原则,一般要求样本量是自变量个数的10-15倍。但是当设置哑变量之后,等于自变量个数增加,样本量要适当增加哦! 但是还要注意点,对于logistic回归和Cox回归,样本量的大小不是指全部观察者的数量,是观察者中,目标结局发生者的数量哦! 统计思维与统计理论系列[1] 点击即可阅读哦! 【1060】松哥,这篇SCI的诊断试验结果看不懂,他到底是咋比的? 【1056】SPSS统计软件学习终身不忘之必杀技 【1055】回归家族的书剑恩仇录,高手进阶必经之路 【1054】单因素是危险因素,多因素却保护因素了,想逆天吗? 【1051】同一肝癌患者,同时接受CT、超声和磁共振,如何分析? 【1049】知道两组数据的样本量均数标准差,怎么算合并效应量呢? 【1046】两因素方差分析,如何判断哪个因素对结果影响较大? 【1037】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您 【1030】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法 【1019】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整? 【1018】倾向性评分后数据,应该采用配对设计还是成组设计? |
|