logistic回归分析是啥?能干嘛?Logistic回归分析,中文名:逻辑回归分析,英文名:Logistic regression analysis或Logit regression analysis。Logistic模型用于建立某事件发生(如:成或败、生或死、健康或生病等)的概率与各影响因素之间的关系。Logistic回归分析经常用于数据挖掘、风险因素分析及趋势分析等。比如:最常见的是医学领域中用于分析某种疾病的致病因素、发病概率等(流行病学分析),还经常用于经济学、社会学、工程技术等需要用到统计数据的领域。具体例子详解:见本文“Logistic回归分析实例”部分。 Logistic回归分析实例问题描述注意:该表数据来源自维基百科,版权属原作者所有。 已知20位学生的准备考试时间和最终考试结果的数据。表中,“通过与否”一栏,0表示未通过考试,1表示通过考试。现想知道考试结果与准备考试时间之间的关系。
求解结果首先,明确问题的性质。从考试结果使用0-1的方式来表示,而不是用0~100分数的方式来表示,可知因变量为分类变量,而不是数字变量。因此,我们不宜用普通的线性回归分析,而是用逻辑回归进行分析。 为建立逻辑回归模型,我们可以做如下假设: (1)用X表示小时数,Y表示通过与否; (2)考试通过的概率为,p= P(Y=1); (3)考试通过概率与所花小时数之间的关系(逻辑模型)为,ln(p/(1-p))= k0 + k1*X,其中k0为截距,k1为系数; (4)逻辑模型也可表示为指数形式,即p/(1-p)= b^( k0 + k1*X)。 利用20位学生的数据,采用极大似然估计(maximum likelihood estimation),进行参数估计得到:k0= -4.0777(对应的P值 0.0206),k1= 1.5046 (对应的P值 0.0167)。于是,有: ln(p/(1-p)) = k0 + k1*X = -4.0777 + 1.5046*X = 1.5046*(X– 2.71),或者 p/(1-p) = exp(-4.0777 + 1.5046*X) = exp(1.5046*(X – 2.71))。 可得,通过考试的概率 p = 1/( 1 + exp( -1.5046*(X – 2.71)) )。 从以上概率公式可得, (1)对于一个学习了2小时的学生,其通过概率约为0.26; (2)对于一个学习了4小时的学生,其通过概率约为0.87。 结果解释(1)系数k1= 1.5046的意义: 从以上概率公式可得,多花1小时准备考试可以使得考试通过概率提高约4.5倍(即exp(1.5046))。 (2)截距k0= -4.0777的意义: 为通过考试,学生平均需要花2.71小时(即4.0777/1.5046)准备考试。 (3)P值的意义: 当p值小于0.05时,估计得到的参数值才有统计学意义。所以,以上估计得到的k0和k1都是有统计学意义的。 (4)odds值的含义: Odds = p/(1-p),指的是某事件发生的可能性(概率)与不发生的可能性之比,称为几率、比值或比数。该例中,Odds= p/(1-p) = exp(-4.0777 + 1.5046*X) = exp(1.5046*(X – 2.71)),即X每增加1,Odds值为原来的exp(1.5046)= 4.5倍。 与常用线性回归分析的关系从以上实例不难看出:Logistic回归本质上是一种广义的线性回归分析模型;但是,它与线性回归分析又有所不同:
对于Logistic回归分析,当因变量(输出)只有两个值(如:0-1)时,称为二项逻辑分布(binary logistic regression);超过两个时,称为多项逻辑回归(multinominal logistic regression)。 Logistic回归与普通线性回归分析之间如何转化?其实,从以上实例不难看出,如果将考试结果用具体的0~100之间的成绩表示,而不是用0和1分类表示,以上问题就变成了普通的线性回归分析。 Logistic回归分析中需要注意的问题(1)有时候会因为(自变量)参数过多而出现无法收敛的情况,此时,可以通过排除一些因素进行进一步分析; (2)注意估计得到的参数只有在P值小于0.05时才有统计学意义。 Logistic回归分析常用软件SPSS、Stata、SAS、R语言、Python、MATLAB等。 主要参考资料百度百科、维基百科、MathWorks、知乎等。 |
|
来自: 医路人生xamili > 《科研》