分享

[转载]logistic回归模型总结

 wenasunny 2016-12-29
 

       logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。

一、有关logistic的基本概念

  logistic回归主要用来预测离散因变量与一组解释变量之间的关系

最常用的是二值型logistic。即因变量的取值只包含两个类别 例如:好、坏 ;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则

P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:

log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS) 即发生与不发生的概率之比

可以根据上式反求出P(Y=1|X)=1/(1+e^-L)

根据样本资料可以通过最大似然估计计算出模型的参数

然后根据求出的模型进行预测

下面介绍logistic回归在SAS中的实现以及输出结果的解释

二、logistic回归模型初步

SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数

预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行

(1)模型的整体拟合优度

主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验

1、Hosmer-Lemeshowz指标

        HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。

在SAS中这个指标可以用LACKFIT选项进行调用

2、AIC和SC指标 即池雷准则和施瓦茨准则

         与线性回归类似AIC和SC越小说明模型拟合的越好

(2)从整体上看解释变量对因变量有无解释作用

          相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio test)进行检验

(3)解释变量解释在多大程度上解释了因变量

          与线性回归中的R^2作用类似 在logistic回归中可以通过Rsquare和C统计量进行度量

在SAS中通过RSQ来调用RsquareC统计量自动输出

 (4) 模型评价指标汇总

统计量

趋势

拟合

作用

SAS调用命令

备注

AICSC

越小

越好

类似与多元回归中的残差平方和

模型自动输出

 

似然比卡方

越大

越好

类似与多元回归中的回归平方和

自动输出

P值越小越好

RSQUARE

越大

越好

类似与多元回归中的R^2

RSQ选项调用

 

C统计量

越大

越好

度量观测值和条件预测的相对一致性

自动输出

 

HL统计量

越小

越好

度量观测值和预测值总体的一致性

LACKFIT选项调用

P值越大越好

说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。AIC和RSQUARE极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。(注:引自姚志勇的《SAS编程与数据挖掘商业案例》)

(5)以SAS帮助中例子为例对输出结果进行解释说明

data Remission;       input remiss cell smear infil li blast temp;
      cards;

    .8   .83  .66  1.9  1.1     .996
    .9   .36  .32  1.4   .74    .992
    .8   .88  .7    .8   .176   .982
      .87  .87   .7  1.053   .986
    .9   .75  .68  1.3   .519   .98
      .65  .65   .6   .519   .982
    .95  .97  .92    1.23    .992
    .95  .87  .83  1.9  1.354  1.02
      .45  .45   .8   .322   .999
    .95  .36  .34   .5      1.038
    .85  .39  .33   .7   .279   .988
    .7   .76  .53  1.2   .146   .982
    .8   .46  .37   .4   .38   1.006
    .2   .39  .08   .8   .114   .99
      .9   .9   1.1  1.037   .99
      .84  .84  1.9  2.064  1.02
    .65  .42  .27   .5   .114  1.014
      .75  .75    1.322  1.004
    .5   .44  .22   .6   .114   .99
      .63  .63  1.1  1.072   .986
      .33  .33   .4   .176  1.01
    .9   .93  .84   .6  1.591  1.02
      .58  .58     .531  1.002
    .95  .32  .3   1.6   .886   .988
      .6   .6   1.7   .964   .99
      .69  .69   .9   .398   .986
      .73  .73   .7   .398   .986
   ;
run;

proc logistic data= Remission desc;

model  remiss=cell smear infil li blast temp

                       /selection=stepwise

                       lackfit

                      Rsquare;

run;

输出结果如下:红色字体是对输出结果的注释

(一)

SAS 系统

The LOGISTIC Procedure
                                                       SAS 系统

                                                The LOGISTIC Procedure


Model Information
Data Set WORK.TEST    (注:指明模型所用的数据集)  
Response Variable TRAD (注:指明模型的因变量) Complete Remission
Number of Response Levels          (注:指明模型因变量取两类值)  
Model binary logit (注:指明模型是二分类logistic回归模型)  
Optimization Technique Fisher's scoring (注:指明采用的是fisher优化方法)  

Number of Observations Read 165
Number of Observations Used 165


Response Profile
Ordered
Value
remiss Total
Frequency
1 1 82
2 0 83
(注:指明因变量的取值类型及取每一类变量的频数)


Probability modeled is remiss=1.(注:这个要关注 指明了模型求的是在自变量作用下因变量remiss=1的概率)
(二)
Stepwise Selection Procedure(注:逐步回归的选择过程,说明了模型是怎么一步步根据一定的原则来选择最终进入模型的变量的)

Step 0. Intercept entered:(注:第一步只包含截距项而无变量时时的结果)

Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
(注:用来判断模型的收敛状态的,也就是说经过迭代模型是否求得了参数satisfied说明收敛了,unsatisfied说明没收敛)

-2 Log L = 228.733


Residual Chi-Square Test
Chi-Square DF Pr ChiSq
62.1911 4 <.0001

Step 1. Effect FAC4_1 entered:(变量FAC4_1进入模型)


 

Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.



 

Model Fit Statistics
Criterion Intercept
Only
Intercept
and
Covariates
AIC 230.733 105.210
SC 233.838 111.422
-2 Log L 228.733 101.210

(注:AIC、SC和-2 Log L都变小了说明加入变量FAC4_1后模型拟合的更好了)

 

R-Square 0.5383 Max-rescaled R-Square 0.7178



 

Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr ChiSq
Likelihood Ratio 127.5226 1 <.0001
Score 58.4568 1 <.0001
Wald 37.8154 1 <.0001

(注:原假设是所有变量的参数为0 ,根据检验结果可以看出P<0.001拒绝原假设,即变量的参数不全为0)

 

Residual Chi-Square Test
Chi-Square DF Pr ChiSq
11.2572 3 0.0104

接下来的跟上面的一样都是些变量的选择过程,进进出出的

(三)最终的结果如下

 

Note: No effects for the model in Step 1 are removed.




Step 2. Effect FAC3_1 entered:



Summary of Stepwise Selection
Step Effect DF Number
In
Score
Chi-Square
Wald
Chi-Square
Pr ChiSq Variable
Label
Entered Removed
1 FAC4_1   1 1 58.4568   <.0001 FAC4_1
2 FAC3_1   1 2 8.9660   0.0028 FAC3_1


Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard
Error
Wald
Chi-Square
Pr ChiSq
Intercept 1 -2.6404 0.5092 26.8906 <.0001
FAC3_1 1 -1.1846 0.4843 5.9825 0.0144
FAC4_1 1 -4.7236 0.7924 35.5318 <.0001


Odds Ratio Estimates
Effect Point Estimate 95% Wald
Confidence Limits
FAC3_1 0.306 0.118 0.790
FAC4_1 0.009 0.002 0.042


Association of Predicted Probabilities and
Observed Responses
Percent Concordant 95.1 Somers' D 0.902
Percent Discordant 4.9 Gamma 0.903
Percent Tied 0.0 Tau-a 0.454
Pairs 6806 c 0.951


Partition for the Hosmer and Lemeshow Test
Group Total trad = 1 trad = 0
Observed Expected Observed Expected
1 17 0 0.01 17 16.99
2 17 0 0.29 17 16.71
3 17 4 1.17 13 15.83
4 17 0 2.93 17 14.07
5 17 8 6.82 9 10.18
6 17 8 11.06 9 5.94
7 17 16 14.49 1 2.51
8 17 17 16.32 0 0.68
9 17 17 16.91 0 0.09
10 12 12 12.00 0 0.00


Hosmer and Lemeshow Goodness-of-Fit
Test
Chi-Square DF Pr ChiSq
15.8290 8 0.0449


-2 Log L = 34.372


Residual Chi-Square Test
Chi-Square DF Pr ChiSq
9.4609 6 0.1493
  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多