分享

SAS系列36:Logistic回归实战(一)

 松哥精鼎统计 2020-11-09
导读

   上一期Logistic回归的数学模型、基本原理、分析步骤。今天就开始介绍Logistic回归的SAS实现。

三、Logistic回归模型的SAS实现





(一)Logistic回归模型的SAS语句         

       Logistic回归模型可以通过PROC LOGISTICPROC PHREG过程步实现,其中PROC PHREG过程步是基于COX比例危险模型对生存数据进行回归分析,也可以用于配对设计的条件Logistic回归分析,因此,此过程步简单介绍与Logistic回归分析相关的主要语句。两个过程步中与Logistic模型拟合相关的语句详见表11—4

表11-4 PROC LOGISTIC和PROC PHREG过程步常用语句介绍

(二)Logistic回归分析的实例         

1. 非条件Logistic回归模型
       为了研究少年儿童肥胖症与胆固醇、甘油三酯等因素之间的关系,在一次现况研究中对某地7~18岁年龄段的1352名中小学生的身体做了有关检查(数据来源于孙振球主编《医学统计学》第四版)。具体赋值详见表11-5

表11-5 数据中各变量命名及赋值

1)单因素Logistic回归模型初步分析各因素与肥胖症的关系
    为了节省篇幅,单因素分析结果仅呈现模型参数估计与OR值估计结果。
PROCLOGISTICDATA=FAT DES;   MODEL FAT=GENDER;   WEIGHT FREQ;RUN; 
PROCLOGISTICDATA=FAT DES;   CLASS AGE (PARAM=REFERENCE REF=FIRST);   MODEL FAT=AGE;   WEIGHT FREQ;RUN;
PROCLOGISTICDATA=FAT DES;   MODEL FAT=CHOL;   WEIGHT FREQ;RUN;
PROCLOGISTICDATA=FAT DES; MODEL FAT=TG;   WEIGHT FREQ;RUN;

                            11-13 性别回归模型的参数估计结果

11-14 年龄回归模型的参数估计结果

图11-15 胆固醇回归模型的参数估计结果

图11-16 甘油三酯回归模型的参数估计结果

       单因素Logistic回归模型对各个自变量的初步分析结果显示:4个自变量均有统计学意义。因此在进行多因素分析时考虑将4个自变量纳入到模型中。
(2)多因素Logistic回归模型
PROCLOGISTICDATA=FAT;   CLASS AGE(PARAM=REFERENCE REF=FIRST);   MODEL FAT=GENDER AGE CHOL TG/ AGGREGATESCALE=DEVIANCE RSQ;   WEIGHT FREQ;RUN;

图11-17 4个自变量回归模型拟合优度结果

图11-18 4个自变量回归模型最大似然估计结果

图11-19 4个自变量回归模型OR估计结果

       图11-17模型拟合优度结果显示:模型拟合较好;图11-18最大似然估计结果显示:自变量胆固醇和性别无统计学意义,但自变量性别的P=0.0582接近于0.05,考虑先剔除胆固醇后再拟合模型。另外:应用PROC REG过程步对模型的多重共线性进行了共线性诊断,自变量间不存在多重共线性问题(具体结果此处省略)。 
PROCLOGISTICDATA=FAT DES;   CLASS AGE(PARAM=REFERENCE REF=FIRST);   MODEL FAT=GENDER TG /AGGREGATESCALE=DEVIANCE RSQ;   WEIGHT FREQ;RUN;

图11-20 3个自变量回归模型拟合优度结果

图11-21 3个自变量回归模型最大似然估计结果

图11-22 3个自变量回归模型OR估计结果

     剔除胆固醇后的模型拟合优度结果显示:模型拟合较好。参数估计结果显示:性别和年龄无统计学意义,但是性别的P=0.1048;10岁年龄组与7岁年龄组比较其P值=0.0529,P值均不太大。在尝试剔除自变量性别保留年龄后模型虽有意义但其自变量均无统计学意义;尝试剔除年龄保留性别后模型有意义,参数估计均有统计学意义,但其模型拟合优度与其他模型比较并不理想(详见表11-6),MODEL2的拟合优度指标最小。综上分析:选用自变量为性别、年龄和甘油三酯的模型。目前数据有限不能进一步的分析,如果数据允许可以对自变量年龄考虑重新分组,或者还有重要的自变量未纳入模型中。

(一)Logistic回归的数学模型及其基本原理         

       上两期介绍的多元线性回归模型在定量数据分析中是最常用的多因素统计分析方法,但是当因变量是分类变量时,多元线性回归就不适用了。我们先

二、Logistic回归分析的步骤





(一)Logistic回归模型分析的参数估计      

(1)参数估计

      在Logistic回归分析中,回归系数的估计方法通常是最大似然法,最大似

       整理不易,欢迎点亮再看哦!

参考文献:

[1] 高惠璇. SAS系统SAS/STAT软件使用手册[M]. 北京:中国统计出版社, 1997.

[2] 孙振球, 徐勇勇. 医学统计学[M].北京:人民卫生出版社, 2014.

[3] 张家放. 医用多元统计方法[M]. 武汉:华中科技大学出版社, 2002.

[4] 武松. SPSS实战与统计思维[M]. 北京:清华大学出版社, 2017.

[5]冯国双, 刘德平. 医学研究中的logistic回归分析及SAS实现. 北京: 北京大学医学出版社,2011.

[6]缪佳, 译. Logistic回归中的交互效应. 上海: 格致出版社, 2014.

[6]赵亮员, 译. 定序因变量的Logistic回归模型. 上海: 格致出版社, 2018.

.

SAS系列推文

【赠人玫瑰,手留余香】

----------------------------------------------

SAS系列35:Logistic回归模型理论

SAS系列34:多元线性回归SAS实践

SAS系列33:SAS高级统计(二)多元线性回归

SAS系列32:SAS高级统计(一)

SAS系列31:SAS宏语言(四)

SAS系列30:SAS宏语言(三)

SAS系列29:SAS宏语言(二)

SAS系列28:SAS宏语言(一)

SAS系列27:线性回归

SAS系列26:双变量数据假设检验

SAS系列25:双向有序列联表检验

SAS系列24:单向有序列联表资料的假设检验

SAS系列23:列联表资料假设检验方法

SAS系列22:定性数据假设检验

SAS系列21:SAS统计推断(六)

SAS系列20:SAS统计推断(五)

SAS系列19:SAS统计推断(四)

SAS系列18:SAS统计推断(三)

SAS系列17:SAS统计推断(二)

SAS系列16:SAS统计推断(一)

SAS系列15:SAS数据可视化结果输出

SAS系列14:SAS数据可视化(三)

SAS系列13:SAS数据可视化(二)

SAS系列12:SAS数据可视化(一)

SAS系列11:SAS基础统计过程(三)

SAS系列10:SAS基础统计过程(二)

SAS系列09:SAS 基础统计计算过程

SAS系列08:SAS函数

SAS系列07:SAS数据整理(三)

SAS系列06:SAS数据整理(二)

SAS系列05:SAS数据整理(一)

SAS系列04:SAS数据导入

SAS系列03:SAS入门(二)之SAS编程语言基础

SAS系列02:SAS入门(一)

SAS系列01:统计分析航空母舰-SAS简介

----------------------------------------------

精鼎特邀

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多