在这个复杂的世界,因素与因素之间往往不是单独的,割裂的对因变量发生着作用,往往变量间发生着相互掺杂的关系,我们称之为交互作用。今天我们继续介绍Logistic回归的交互效应。 定性变量和定量变量的交互效应可分为两种情况:一种是定性变量为调节变量、定量变量为关键自变量;另一种是定量变量为调节变量、定性变量为关键自变量。这两种情况的模型和参数估计是一样的,但是其参数解释的意义是不一样的。今天借《Logistic回归中的交互效应》一书中的例子对定性变量为调节变量、定量变量为关键自变量的交互效应进行讲解。 研究受教育程序和社区成员政治参与的关系,假设相对了教育程度低的人而言,教育程度越高的人更有可能参与投票,以及这种关系在不同种族中是否有区别。研究者就调查了美国黑人、西班牙裔和白人的教育程度和投票行为,因变量是是否参与投票。教育年限(定量变量)为关键自变量,种族(定性变量)是调节变量。所有种族在分析中要设为哑变量,Raceblack和Racehispanic,白人是参照组。种族的哑变量和教育年限(Education)交互产生两个乘积项,那么在Logistic回归模型中就有5个自变量:Raceblack、Racehispanic、Education、Raceblack*Education、Racehispanic*Education。表11-11列出了Logistic回归模型的回归系数、OR值及其95%的可信区间。 表11-11 定性和定量变量交互效应 表11-11中的模型1是以白人为参照组的Logistic回归模型。模型中的教育年限是关键自变量,种族是调节变量。模型中的截距项对应的OR值是5.3026,指一个受了10年教育的白人,参与投票的概率是不投票概率的5.3026倍; 教育年限的回归系数是0.4556,此时回归系数不能理解为“主效应”,而理解为“条件效应”,即调节变量为0时的效应;OR值是1.5772,意义是指相对于白人,教育年限每增加一个单位,投票的发生比是原来的1.5772倍,其95%CI是(1.3003,1.9129),没有包含1,说明教育年限的作用是有统计学意义的。 当Logistic回归模型中含有定量(关键自变量)、定性变量(调节自变量)、以及定量/定性变量的交互效应时,那么定量变量的Logistic回归模型的OR值是一个乘积因子,其意义是指定量变量每增加一个单位,定性变量的参照组发生比的变化速度。如对于一个白人来说,教育年限增加一个单位时,投票的发生比为5.3026/1.5772=8.3633;如果增加两个单位时,投票的发生比为8.3633/1.5772=13.1906。 如果要研究教育年限对投票的作用在三个种族中是否相同,可以重新定义参照组,再进行变量赋值,生成新的交互项,再构建Logistic回归。表11-11中的模型2和模型3 分别以西班牙裔和美国黑人为参照组构建的模型。如果教育年限的效应对三个种族是一样的,即不存在交互效应,那么3个种族的乘积因子也应当相同。如果乘积因子相同,那么两个乘积因子的比值应等于1或接近1,如果越远离1,他们的相差就越大。 表11-12 3个种族乘积因子及其95%可信区间 表11-12列出了3个种族的乘积因子及其95%可信区间,通过计算2个种族间乘积因子比值可以比较两者之间的差异,例如: 美国黑人与白人:1.2919/1.5772=0.8191 西班牙裔与白人:2.4942/1.5772=1.5814 白人与与西班牙裔:1.5772/2.4942=0.6323 美国黑人与西班牙裔:1.2919/2.4942=0.5180 白人与美国黑人:1.5772/1.2919=1.2208 西班牙裔与美国黑人:2.4942/1.2919=1.9306 由以上计算结果可以知道计算的比值与模型1、模型2、模型3中的交互效应的回归系数相同。模型1为例,美国黑人的乘积因子与白人的比值是0.8191,接近于1,其OR值的95%可信区间为(0.6522,1.0288),包含了1,说明这两个乘积因子的差异没有统计学意义。由此可知,在变换参照组后,交互项的回归系数相应改变,但是多项交互效应的多层检验结果不会改变。 [1] 缪佳, 译. Logistic回归中的交互效应. 上海: 格致出版社, 2014.[2] 赵亮员, 译. 定序因变量的Logistic回归模型. 上海: 格致出版社, 2018.
|