logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。
一、有关logistic的基本概念
logistic回归主要用来预测离散因变量与一组解释变量之间的关系
最常用的是二值型logistic。即因变量的取值只包含两个类别
例如:好、坏 ;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则
P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:
log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS) 即发生与不发生的概率之比
可以根据上式反求出P(Y=1|X)=1/(1+e^-L)
根据样本资料可以通过最大似然估计计算出模型的参数
然后根据求出的模型进行预测
下面介绍logistic回归在SAS中的实现以及输出结果的解释
二、logistic回归模型初步
SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数
预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行
(1)模型的整体拟合优度
主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验
1、Hosmer-Lemeshowz指标
HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。
在SAS中这个指标可以用LACKFIT选项进行调用
2、AIC和SC指标 即池雷准则和施瓦茨准则
与线性回归类似AIC和SC越小说明模型拟合的越好
(2)从整体上看解释变量对因变量有无解释作用
相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio
test)进行检验
(3)解释变量解释在多大程度上解释了因变量
与线性回归中的R^2作用类似
在logistic回归中可以通过Rsquare和C统计量进行度量
在SAS中通过RSQ来调用Rsquare,C统计量自动输出
(4)
模型评价指标汇总
统计量
|
趋势
|
拟合
|
作用
|
SAS调用命令
|
备注
|
AIC、SC
|
越小
|
越好
|
类似与多元回归中的残差平方和
|
模型自动输出
|
|
似然比卡方
|
越大
|
越好
|
类似与多元回归中的回归平方和
|
自动输出
|
P值越小越好
|
RSQUARE
|
越大
|
越好
|
类似与多元回归中的R^2
|
用RSQ选项调用
|
|
C统计量
|
越大
|
越好
|
度量观测值和条件预测的相对一致性
|
自动输出
|
|
HL统计量
|
越小
|
越好
|
度量观测值和预测值总体的一致性
|
用LACKFIT选项调用
|
P值越大越好
|
说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。AIC和RSQUARE极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。(注:引自姚志勇的《SAS编程与数据挖掘商业案例》)
(5)以SAS帮助中例子为例对输出结果进行解释说明
data Remission;
input remiss cell smear infil li blast temp;
cards;
1
.8 .83
.66 1.9
1.1
.996
1
.9 .36
.32 1.4
.74
.992
0
.8 .88
.7
.8
.176 .982
0
1
.87 .87
.7 1.053
.986
1
.9 .75
.68 1.3
.519 .98
0
1
.65 .65
.6
.519 .982
1 .95
.97 .92
1
1.23
.992
0 .95
.87 .83 1.9
1.354 1.02
0
1
.45 .45
.8
.322 .999
0 .95
.36 .34
.5
0
1.038
0 .85
.39 .33
.7
.279 .988
0
.7 .76
.53 1.2
.146 .982
0
.8 .46
.37
.4
.38 1.006
0
.2 .39
.08
.8
.114 .99
0
1
.9
.9 1.1
1.037 .99
1
1
.84 .84 1.9
2.064 1.02
0 .65
.42 .27
.5 .114
1.014
0
1
.75 .75
1
1.322 1.004
0
.5 .44
.22
.6
.114 .99
1
1 |