在进行多重线性回归时,如果解释变量中存在多分类变量,我们需要将其设置为哑变量。哑变量也称虚拟变量,实际上就是将具有K个水平的多分类变量转变成k-1个编码为0和1的二分类变量。哑变量可以将多分类变量的数量化,因为两个点一定是呈线性的,不过一个多分类变量生成的哑变量需要遵循同进同出的原则。 哑变量是将多分类变量的参照水平编码为0,其他每个水平都编码为0和1。本例我们以白人为参照水平,可通过[编码成不同的变量]过程来实现。 生成新变量race_1标识白人,为参照水平,全部赋值为0;新生成变量race_2标识黑人,1=黑人,0=非黑人;新生成变量race_3标识其他人种,1=其他人种,0=非其他人种。可通过三次编码来实现,也可以通过修改程序代码来实现,具体如下: 后面进行正常的线性回归就可以了,可参见《多重线性回归分析》。Analyze>>Regression>>Linear… 将bwt选入因变量,将age、lwt、smoke及race_1、race_2、race_3选入自变量。本例race_1为参照水平,取值均为0,纳入模型或者不纳入结果都是一样的。 方差分析表与参数估计表如下:该过程直接将多分类变量的每个水平都编码全为0和1,不编码参照水平。在进行后面的回归时,指定为参照水平的变量不纳入模型即可。 Transform>>Create Dummy Variables 将bwt选入因变量,将age、lwt、smoke及race_2、race_3选入自变量。需要注意的是采用[创建哑变量]过程创建的哑变量,分类变量的每个水平都编码全为0和1,并没有具体给出参照水平的编码,在进行回归分析时不纳入水平就是参照水平。 方差分析表与参数估计表如下:Analyze>>General Linear Model>>Univariate… 因变量选入bwt,分类自变量选入因子框(smoke、race),连续自变量选入协变量框(lwt、age);不考虑交互作用的话在[模型]按钮中构建主效应模型;在[选项]按钮中选中”参数估计”,其他选项也根据需要进行选择,可参见《多因素方差分析前的正态性和方差齐性考察》,比如模型方差齐性等都是非常实用的一些选项。 |
|
来自: Memo_Cleon > 《待分类》