分享

一文搞懂logistic回归分析

 医路人生xamili 2021-11-20

logistic回归分析是啥?能干嘛?

Logistic回归分析,中文名:逻辑回归分析,英文名:Logistic regression analysis或Logit regression analysis。Logistic模型用于建立某事件发生(如:成或败、生或死、健康或生病等)的概率与各影响因素之间的关系。Logistic回归分析经常用于数据挖掘、风险因素分析及趋势分析等。比如:最常见的是医学领域中用于分析某种疾病的致病因素、发病概率等(流行病学分析),还经常用于经济学、社会学、工程技术等需要用到统计数据的领域。具体例子详解:见本文“Logistic回归分析实例”部分。

Logistic回归分析实例

问题描述

注意:该表数据来源自维基百科,版权属原作者所有。

已知20位学生的准备考试时间和最终考试结果的数据。表中,“通过与否”一栏,0表示未通过考试,1表示通过考试。现想知道考试结果与准备考试时间之间的关系。

小时数(X)

通过与否(Y)

0.50

0

0.75

0

1

0

1.25

0

1.50

0

1.75

0

1.75

1

2

0

2.25

1

2.50

0

2.75

1

3

0

3.25

1

3.50

0

4

1

4.25

1

4.50

1

4.75

1

5

1

5.50

1

0.50

0

求解结果

首先,明确问题的性质。从考试结果使用0-1的方式来表示,而不是用0~100分数的方式来表示,可知因变量为分类变量,而不是数字变量。因此,我们不宜用普通的线性回归分析,而是用逻辑回归进行分析。

为建立逻辑回归模型,我们可以做如下假设:

(1)用X表示小时数,Y表示通过与否;

(2)考试通过的概率为,p= P(Y=1);

(3)考试通过概率与所花小时数之间的关系(逻辑模型)为,ln(p/(1-p))= k0 + k1*X,其中k0为截距,k1为系数;

(4)逻辑模型也可表示为指数形式,即p/(1-p)= b^( k0 + k1*X)。

利用20位学生的数据,采用极大似然估计(maximum likelihood estimation),进行参数估计得到:k0= -4.0777(对应的P值 0.0206),k1= 1.5046 (对应的P值 0.0167)。于是,有:

ln(p/(1-p)) = k0 + k1*X = -4.0777 + 1.5046*X = 1.5046*(X– 2.71),或者

p/(1-p) = exp(-4.0777 + 1.5046*X) = exp(1.5046*(X – 2.71))。

可得,通过考试的概率

p = 1/( 1 + exp( -1.5046*(X – 2.71)) )。

从以上概率公式可得,

(1)对于一个学习了2小时的学生,其通过概率约为0.26;

(2)对于一个学习了4小时的学生,其通过概率约为0.87。

结果解释

1)系数k1= 1.5046的意义:

从以上概率公式可得,多花1小时准备考试可以使得考试通过概率提高约4.5倍(即exp(1.5046)

2)截距k0= -4.0777的意义:

为通过考试,学生平均需要花2.71小时(即4.0777/1.5046)准备考试。

3P值的意义:

当p值小于0.05时,估计得到的参数值才有统计学意义。所以,以上估计得到的k0和k1都是有统计学意义的。

(4)odds值的含义:

Odds = p/(1-p),指的是某事件发生的可能性(概率)与不发生的可能性之比,称为几率、比值或比数。该例中,Odds= p/(1-p) = exp(-4.0777 + 1.5046*X) = exp(1.5046*(X – 2.71)),即X每增加1,Odds值为原来的exp(1.5046)= 4.5倍。

与常用线性回归分析的关系

从以上实例不难看出:Logistic回归本质上是一种广义的线性回归分析模型;但是,它与线性回归分析又有所不同:


线性回归分析

Logistic回归分析

自变量X类型

数字型变量

数值型变量、分类变量(如:二分类0-1)均可,

还可以是字符型变量(需要重新编码)

因变量Y类型

数字型变量

数字型变量、分类变量(如:二分类0-1)均可,

还可以是字符型变量(需要重新编码)

自变量、因变量值的数量

可以多个

可以多个

对于Logistic回归分析,当因变量(输出)只有两个值(如:0-1)时,称为二项逻辑分布(binary logistic regression);超过两个时,称为多项逻辑回归(multinominal logistic regression)。

Logistic回归与普通线性回归分析之间如何转化?

其实,从以上实例不难看出,如果将考试结果用具体的0~100之间的成绩表示,而不是用0和1分类表示,以上问题就变成了普通的线性回归分析。

Logistic回归分析中需要注意的问题

(1)有时候会因为(自变量)参数过多而出现无法收敛的情况,此时,可以通过排除一些因素进行进一步分析;

(2)注意估计得到的参数只有在P值小于0.05时才有统计学意义。

Logistic回归分析常用软件

SPSS、Stata、SAS、R语言、Python、MATLAB等。

主要参考资料

百度百科、维基百科、MathWorks、知乎等。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多