今天下午碰到一个老师咨询我有关Logistic回归结果解读的问题,我觉得有必要给大家整理分享一下。
首先,我们要先了解什么是Logistic回归?
logistic回归主要用来预测离散因变量(分类因变量)与一组解释变量(自变量)之间的关系。最常用的是二分类logistic,即因变量的取值只包含两个类别,例如:“好”和“坏” ;“发生”和“不发生”。那么,因变量常用Y=1(发生)或Y=0(不发生)表示, X则表示自变量。
比如,我们想了解一下影响直肠癌术后患者对手术决策的满意度情况,那么我们研究的问题就是“满意度”——结局自然分成两类:“满意”和“不满意”。探讨一下①医生与患者实际交流程度②担心手术失败③是否通过与家人交流了解治疗方案信息等几个因素对“满意度”的影响。那么, 因变量就是“满意”和“不满意”,自变量就是上面的①②③,这个时候就是要采用Logistic回归分析。
Logistic回归分析简单说就是为了分析因变量发生概率大小的。比如说,分析在“①医生与患者实际交流程度”情况下,发生“不满意”的概率是多少?
用公式来表示就是:
P(Y=1|X)表示在X的条件下Y=1的概率;
logistic回归的数学表达式为:
log(p/1-p)=A+BX =L,其中p/1-p称为优势比(ODDS) 即发生与不发生的概率之比。
而Logistic回归给出的OR(odds ratio)值是用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。公式:
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。撇开了参照组,相对危险度就没有意义了。
Logistic回归的用法
一般而言,Logistic回归有两大用途,首先是寻找危险因素,如:找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。