分享

SAS系列38:Logistic回归的交互效应(一)

 松哥精鼎统计 2020-11-30
导读
      最近阅读了一本《Logistic回归中的交互效应》的书,觉得有必要讲一讲Logistic回归的交互效应。上一期介绍了Logistic回归分析的SAS实现,今天我们继续介绍Logistic回归的交互效应。

五、Logistic回归模型的交互效应



  

(一)交互效应的定义    

      在多元统计分析中,交互效应是指某因素的作用随其他因素水平的不同而不同,两因素同时存在时的作用不等于两因素单独作用之和或之积。将交互效应置于因变量、自变量和调节变量的框架中进行讨论是应用比较广泛的一种方法,这种方法有利于理解交互项参数的意义。其中,因变量受自变量的影响,当自变量对因变量的影响因调节变量的取值不同而不同时,说明存在交互效应。例如,社会阶层对就医行为的影响在不同的族群中不一样,在这个例子中,社会阶层是自变量,就医行为是因变量,族群就是调节变量。
    因此,在应用调节变量的框架分析交互效应时,需要有清晰的理论假设来界定关键自变量、调节变量。一般情况下,研究在提出研究问题时,通常会假设某个自变量可能会受其他调节变量的影响。例如,有研究者研究吸烟饮酒对胃癌患病率的影响,此时,是否饮酒是关键自变量,是否吸烟是调节变量。模型中调节变量的确定也会因研究目的的不同而不同。
      目前多采用在Logistic回归方程中纳入因素乘积项的方法进行分析交互效应。式1是一个含有两个连续自变量的Logistic回归模型(不含交互项):
假设本研究中存在交互效应,即关键自变量X对结果变量的影响因调节变量Z取值的不同而不同。为了表示这种关系,可以将β1写成一个关于Z的线性函数:
                                 
将式2代入式1得以下方程:          
  
       Logistic回归中的交互效应分析一般都会用多层次完全模型,即模型包含了最高阶交互项的所有低阶组成部分。如果要检验以上假设的模型,即式3(包含交互效应)与式1(不包含交互效应)两个模型,只要比较式3与式1的拟合优度即可,如果两个模型的拟合优度的差别有统计学意义,说明交互项是有意义的。以下我们就用实例来讲解交互效应的参数估计和解释。

(二)定性变量间的交互效应      

 
       在一个回顾性的研究中,随机抽查了某地区818个人的吸烟和饮酒等生活方式以及各种慢性疾病的患病情况。表11-8中列出了一部分调查结果。试分析吸烟饮酒对胃病患病率的影响程度以及它们的交互影响程度。(数据据来源张家放主编《医用多元统计学》)
表11-8 吸烟饮酒与胃病的调查数据
11-9 吸烟与饮酒交互效应的设置
/*设置交互效应的哑变量*/DATA STOMACH; SET STOMACH; IF X1=1 AND X2=1 THEN X11=1; ELSE X11=0; IF X1=1 AND X2=0 THEN X10=1; ELSE X10=0; IF X1=0 AND X2=1 THEN X01=1; ELSE X01=0; IF X1=0 AND X2=0 THEN X00=1; ELSE X00=0;RUN;/*无交互效应的模型*/PROC LOGISTIC DATA=STOMACH DES; MODEL Y=X1 X2; WEIGHT FR;RUN;/*有交互效应的模型*/PROC LOGISTIC DATA=STOMACH DES; MODEL Y=X11 X10 X01; WEIGHT FR;RUN;
      在此主要是为了讲解模型中交互效应的估计和解释,结果不详细呈现,把两个模型的参数估计列于表11-10。
表11-10 无交互效应与有交互效应模型的参数估计结果
       无交互效应的方程如下:
              Logit(P)=-2.6380+0.2068(X1)+ 0.2131(X2)
       当X1、X2分别取值1,0时得以下:
  Logit(P)= -2.6380+1.0230 (1)+ 0.6616 (1)由此计算OR= e(1.0230+0.6616)=5.3893
Logit(P)= -2.6380+1.0230 (1)+ 0.6616 (0)由此计算的OR= e1.0230=2.7812
Logit(P)= -2.6380+1.0230 (0)+ 0.6616 (1)由此计算的OR= e0.6616=1.9378
Logit(P)= -2.6380+1.0230 (0)+ 0.6616 (0) 由此计算的OR=e0=1
由以上计算结果可以看出即吸烟又喝酒、仅吸烟不喝酒、不吸烟仅喝酒的OR值与交互效应模型中交互效应的哑变量的OR值是非常接近的。在有交互效应的模型中显示三个哑变量均有统计学意义,参照水平是即不吸烟也不喝酒,结果显示:在既吸烟又喝酒患胃病的概率是既不吸烟又不喝酒的5.381倍,仅吸烟者患胃病的概率是不吸烟又不喝酒的2.765倍,仅喝酒者患胃病的概率是不吸烟又不喝酒的1.928倍。
上述例子中两个变量都是二分类变量,即吸烟和喝酒构成的一个2*2的双向交互效应,理解起来比较简单。当Logistic回归中分类变量含有三个或三个以上的水平时比本例要复杂一些,但是其分析过程本例基本一样,也是将其处理成多个哑变量,并相应生成多个交互乘积项,每个乘积项都对应着条件主效应参数之间,或条件双向交互效应参数之间,或三向交互效应参数之间的单个自由度比较。

       撰写不易,欢迎点亮再看哦!

参考文献:
[1] 张家放医用多元统计方法[M]. 武汉:华中科技大学出版社, 2002.
[2] 缪佳. Logistic回归中的交互效应上海格致出版社, 2014.
[3] 赵亮员定序因变量的Logistic回归模型上海格致出版社, 2018.

SAS系列推文

【赠人玫瑰,手留余香】

----------------------------------------------

SAS系列37:Logistic回归模型与SAS实现(二)

SAS系列36:Logistic回归实战(一)

SAS系列35:Logistic回归模型理论

SAS系列34:多元线性回归SAS实践

SAS系列33:SAS高级统计(二)多元线性回归

SAS系列32:SAS高级统计(一)

SAS系列31:SAS宏语言(四)

SAS系列30:SAS宏语言(三)

SAS系列29:SAS宏语言(二)

SAS系列28:SAS宏语言(一)

SAS系列27:线性回归

SAS系列26:双变量数据假设检验

SAS系列25:双向有序列联表检验

SAS系列24:单向有序列联表资料的假设检验

SAS系列23:列联表资料假设检验方法

SAS系列22:定性数据假设检验

SAS系列21:SAS统计推断(六)

SAS系列20:SAS统计推断(五)

SAS系列19:SAS统计推断(四)

SAS系列18:SAS统计推断(三)

SAS系列17:SAS统计推断(二)

SAS系列16:SAS统计推断(一)

SAS系列15:SAS数据可视化结果输出

SAS系列14:SAS数据可视化(三)

SAS系列13:SAS数据可视化(二)

SAS系列12:SAS数据可视化(一)

SAS系列11:SAS基础统计过程(三)

SAS系列10:SAS基础统计过程(二)

SAS系列09:SAS 基础统计计算过程

SAS系列08:SAS函数

SAS系列07:SAS数据整理(三)

SAS系列06:SAS数据整理(二)

SAS系列05:SAS数据整理(一)

SAS系列04:SAS数据导入

SAS系列03:SAS入门(二)之SAS编程语言基础

SAS系列02:SAS入门(一)

SAS系列01:统计分析航空母舰-SAS简介

----------------------------------------------

精鼎特邀

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多