有序多分类Logistic回归，我见过的最详细SPSS教程！

医学院的石头 2018-01-12

展开全文

一、问题与数据

研究者想调查人们对“本国税收过高”的赞同程度：Strongly Disagree——非常不同意，用“0”表示；Disagree——不同意，用“1”表示；Agree--同意，用“2”表示；Strongly Agree--非常同意，用“3”表示。

另外，研究者也调查了一些其它情况，包括：是否是“雇主”（biz_owner：Yes——是，用“0”表示；No——否，用“1”表示）、年龄（age）和党派（politics：Lib——党派1，用“1”表示；Con——党派2，用“2”表示；Lab——党派3，用“3”表示）。部分数据如下图：

二、对问题的分析

使用有序Logistic进行回归分析时，需要考虑4个假设。

假设1：因变量唯一，且为有序多分类变量，如城市综合竞争力等级可以分为高、中、低；某病的治疗效果分为痊愈、有效、无效等。
假设2：存在一个或多个自变量，可为连续、有序多分类或无序分类变量。
假设3：自变量之间无多重共线性。
假设4：模型满足“比例优势”假设。意思是无论因变量的分割点在什么位置，模型中各个自变量对因变量的影响不变，也就是自变量对因变量的回归系数与分割点无关。

有序多分类的Logistic回归原理是将因变量的多个分类依次分割为多个二元的Logistic回归，例如本例中因变量“本国的税收过高”的赞同程度有4个等级，分析时拆分为三个二元Logistic回归，分别为(0 vs 1+2+3) 、(0+1 vs 2+3)、(0+1+2 vs 3)，均是较低级与较高级对比。

在有序多分类Logistic回归中，假设几个二元Logistic回归中，自变量的系数相等，仅常数项不等，结果也只输出一组自变量的系数。因此，有序多分类的Logistic回归模型，必须对自变量系数相等的假设（即“比例优势”假设）进行检验（又称平行线检验）。如果不满足该假设，则考虑使用无序多分类Logistic回归。

三、前期数据处理

对假设进行验证前，我们需要将分类变量设置成哑变量。

1. 为什么要设计哑变量

若直接将分类变量纳入Logistic回归方程，则软件会将分类变量按连续变量处理。例如，如果把性别按“1”——男、“2”——女进行编码，然后直接把性别纳入方程，方程会认为“女”是“男”的2倍。为了解决这个问题，需要用一系列的二分类变量“是”或“否”来表示原始的分类变量，这些新的二分类变量被称为“哑变量”。

在SPSS软件的二项Logistic回归模型中，将分类变量选入categorical，软件会自动设置一系列的哑变量。由于验证假设3(自变量之间无多重共线性)需要通过线性回归实现，而在线性回归中，就需要手动设置哑变量。因此，这里需要先手动设置哑变量。

2. 设置哑变量的思路

哑变量的数目是分类变量类别数减一。本例中，党派1、党派2和党派3的原始编码为1、2和3。设置哑变量时，需要对党派1和党派2进行重新编码。

建立新变量Lib（党派1），若调查对象选了党派1，则Lib编为“1”，代表是；若未选党派1，则Lib编为“0”，代表否。同样，建立新变量Con（党派2），将是否选党派2编为“1”或“0”。此时，若既未选党派1，又未选党派2，则两个新变量Lib和Con的编码都为“0”，代表党派3。此时，党派3在模型中是参考类别（Reference）。

3. 在SPSS中设置哑变量

(1) 首先，先创建新变量“Con”，在主菜单下选择Transform→Recode into Different Variables... ，如下图：

(2) 在Recode into Different Variables对话框中，将politics选入右侧Numeric Variable-->Output Variable下，在右侧Output Variable中填写“Con”。点击Change→Old and New Values。

(3) 出现Recode into Different Variables: Old and New Values对话框，在左侧的Old Value下的Value中填入2，在右侧的New Value下的Value中填入1，点击Add。

(4) 将其它值变为“0”：左侧点击All other values，在右侧Value中填入“0”，点击Add→Continue。

(5) 如果数据中有缺失值，点击左侧System-missing，右侧点击System-missing→Add，保持缺失值：

设置得到的结果如下图：

本例中没有缺失值，可省略这一步。

(6) 继续创建新变量“Lib”，与以上步骤相似。两个变量创建完成后，点击变量视图，可以看到在最右侧已经生成了两个新变量“Con”和“Lib”，如下图：

四、对假设的判断

假设1-2都是对研究设计的假设，需要研究者根据研究设计进行判断，所以这里主要对数据的假设3-4进行检验。

1. 检验假设3：自变量之间无多重共线性

(1) 在主菜单点击Analyze→Regression→Linear...

(2) 将tax_too_high选入Dependent，将biz_owner、age、Con、Lib选入Independent(s)。

(3) 点击Statistics，出现Linear Regression：Statistics对话框，点击Collinearity diagnostics→Continue→OK。

结果如下图：

如果容忍度（Tolerance）小于0.1或方差膨胀因子（VIF）大于10，则表示有共线性存在。

本例中，容忍度均远大于0.1，方差膨胀因子均小于10，所以不存在多重共线性。如果数据存在多重共线性，则需要用复杂的方法进行处理，其中最简单的方法是剔除引起共线性的因素之一，剔除哪一个因素可以基于理论依据。

2. 检验假设4：模型满足“比例优势”假设

“比例优势”假设可以在后面结果部分的“平行线检验”中看到。

五、SPSS操作

SPSS中，可以通过两个过程实现有序Logistic回归。分别是Analyze → Regression → Ordinal...和Analyze → Generalized Linear Models → Generalized Linear Models...。

其中，Analyze → Regression → Ordinal模块，可以检验 “比例优势”假设，但无法给出OR值和95%CI。而Analyze → Generalized Linear Models → Generalized Linear Models模块可以给出OR值和95%CI，但无法检验“比例优势”假设。

这里，我们主要介绍Analyze → Regression → Ordinal过程。

(1) 在主菜单点击Analyze→Regression→Ordinal...

(2) 出现Ordinal Regression对话框，将tax_too_high选入Dependent，将biz_owner和politics选入Factor(s)，将age选入Covariate(s)，再点击Output。

(3) 出现Ordinal Regression: Output对话框。在原始设置的基础上，勾选Display下方的Test of parallel lines，勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability，这四个选项会在SPSS数据集中产生新的变量，如下图所示。点击Continue。

(4) 点击Location，出现Ordinal Regression: Location对话框，如果自变量间有交互作用，则通过该对话框进行选择。本例中自变量间无交互作用，所以点击Continue→OK。

六、结果解释

1. 假设4的检验结果

在结果解释之前，我们需要先看一下假设4的检验结果（平行线检验的结果）。

在Ordinal Regression：Output对话框中，选则Test of parallel lines后出现，的结果如下表。本例中平行线检验χ²= 8.620, P = 0.375，说明平行性假设成立，即各回归方程相互平行，可以使用有序Logistic过程进行分析。

如果平行线假设不能满足，可以考虑一下两种方法进行处理：①进行无序多分类Logistic回归，而非有序Logistic回归，并能接受因变量失去有序的属性；② 用不同的分割点将因变量变为二分类变量，分别进行二项Logistic回归。

但是，当样本量过大时，平行线检验会过于敏感。即当比例优势存在时，也会显示P<>

2. 单元格

输出结果中，首先会给一个警告，内容为：有235（63.2%）个频率为零的单元格。如果存在过多频数为0的单元格，则会影响模型的拟合，导致拟合优度检验不可信。

扩展阅读

要理解这一点，就需要理解“协变量模式（covariate pattern）”的概念。协变量模式是指数据中自变量数值的组合，与因变量无关。比如，在本数据中，一个协变量模式是23岁（age），雇主（biz_owner）和党派3（politics）。对于每种协变量模式，可能有多个研究对象。比如，如果有4个研究对象是23岁、雇主和党派3，这代表一个协变量模式。

需要理解的另一个概念是“单元格模式（cell pattern）”，它是指自变量和因变量数值的组合，与协变量模式相似，但加上了因变量。对于同一个协变量模式，如果协变量模式能对应因变量所有值，就没有“缺失”的单元格。但实际中，一个协变量模式对应的因变量可能只有一个值。假如，有1个23岁、雇主和党派3研究对象的因变量是“Agree”，但由于因变量总共有4个水平，所以此时单元格“缺失”3个。

因此，协变量模式与单元格模式之间的联系是：（1）所有可能的单元格总数是协变量模式个数乘以因变量的分组个数；（2）实际的单元格是指单元格模式中频率不为0的单元格。单元格频率为零的比率为（总单元格的个数-实际单元格的个数）÷总单元格的个数。

3. 拟合优度检验结果

下图为拟合优度检验的结果，分别为Pearson和Deviance两种拟合优度检验。本例中，Pearson检验的结果χ²= 745.367，P<><>²= 232.618，P=0.960>0.05，说明Deviance检验结果为模型拟合好。

这两个统计量对于上述单元格频数为0的比例十分敏感。本例中频数为0的单元格非常多，这两个统计量不一定服从卡方分布，而基于卡方分布计算的P值也不可信，所以本例中这两个检验结果都不可信。

4. 伪决定系数

下图给出了三个伪决定系数：Cox and Snell，Nagelkerke和McFadden，这三种方法是最常用的计算伪决定系数的方法。由于三种方法并没有得到广泛的应用，所以我们也不用关注该结果。

5. 模型拟合信息

Model Fitting Information的结果是对模型中所有自变量的偏回归系数是否全为0的似然比检验。结果χ²=87.911（该值为仅有常数项的模型和最终模型的-2 Log Likelihood值之差），P<>

6. 模型预测准确度

另一种看模型拟合程度的方法是看模型对因变量的预测情况。在Ordinal Regression: Output对话框中，勾选Saved Variables下方的Estimated response probabilities、Predicted category、Predicted category probability和Actual category probability后，会在SPSS数据集中产生新的变量，如下图所示。

EST1_1、EST2_1、EST3_1和EST4_1分别代表对因变量的四个程度（Strongly Disagree、Disagree、Agree和Strongly Agree）的预测概率。

第一行（case 1），可以看到EST1_1、EST2_1、EST3_1和EST4_1相加的概率为1，其中EST1_1的概率最大，为0.44，对应的PRE_1为0（Strongly Disagree），因变量的观察值也是0（Strongly Disagree），此时模型准确的预测了因变量。

而第三行（case 3），EST1_1、EST2_1、EST3_1和EST4_1中EST3_1最大，预测的PRE_1为2（Agree），而因变量实际的观察值为0（Strongly Disagree），此时模型没有准确的预测因变量。

那么，如何看出模型预测因变量的程度呢？可以按照下述步骤建立表格。

(1) 在主界面下选择Analyze→Descriptive Statistics→Crosstabs...

(2) 将tax_too_high选入Row(s)，将PRE_1选入Column(s),点击Cells。

(3) 在已选的Observed基础上，点击Row→Continue→OK。

(4) 结果如下图。当tax_too_high=0，即为Strongly Disagree时，模型预测正确的有11人（45.8%）。相似的，当tax_too_high分别为Disagree、Agree和Strongly Agree时，模型预测正确的分别有9人（23.7%）、76人（83.5%）和11人（28.2%）。模型预测的总准确度可以通过计算获得，即四个分组中预测正确人数除以总人数=（11+9+76+11）÷192=55.7%。

7. 参数估计

在Parameter Estimates中，得到了回归方程的参数，包括常数项（Estimates或B）及其标准误和95%置信区间等。

(1) Threshold（常数项）中，第一行tax_too_high=0代表“Strongly Disagree” VS 其它组的累积概率模型的截距；tax_too_high=1代表 “Strongly Disagree”和“Disagree”VS其它组的累积概率模型的截距；tax_too_high=2代表 “Strongly Disagree”、“Disagree”和“Agree” VS“Strongly Agree”的累积概率模型的截距。

(点击图片看大图)

(2) 除了常数项不同，Location中自变量的系数都是同一个系数，这也是为什么要求有序Logistic回归需要满足比例优势的假设。最终拟合的三个方程如下：

但是Analyze→Regression→Ordinal模块，并不能直接给出OR值及其95%CI，此时可以借助Analyze→Generalized Linear Models→Generalized Linear Models模块计算。该模块的操作见后面第八部分。

(3) 借助Analyze→Generalized Linear Models→Generalized Linear Models模块得到OR值后，我们得到如下结果：雇主认为“税收过高”的OR值是非雇主的1.944倍（95%CI：1.101-3.431），χ²= 5.255, P = 0.022。

(4) 以党派3为对照组，党派1认为“税收过高”的OR值是党派3的1.038倍（95%CI: 0.509-2.116），χ² = 0.010，P = 0.919；党派2认为“税收过高”的OR值党派3的3.194倍（95%CI: 1.626 -6.277），χ² = 11.358，P = 0.001。

这样可以看到党派1 VS 党派3、党派2 VS 党派3的结果，但是没有党派1和党派2比较的结果。此时，可以对Politics重新编码，将党派1编为3，党派3编为1，再进行上述操作，即可得到结果。

(5) age：年龄每增加一岁，认为税收过高的OR值增加为原来的1.274倍（95%CI：1.196-1.357），χ² = 56.355，P<>

七、撰写结论

运用符合比例优势假设的有序Logistic回归分析是否是雇主、投票选举的党派和年龄对“税收过高”的效应。

平行线检验的结果为χ²= 8.620，P=0.375，说明比例优势假设存在。Deviance拟合优度检验显示模型拟合好，χ²= 232.618，P=0.960，但是有大部分（63.2%）频数为0的单元格。模型拟合信息显示，本模型优于只有常数项的模型，χ² = 87.911，P <>

雇主认为“税收过高”的OR值是非雇主的1.944倍（95%CI: 1.101-3.431），χ²= 5.255，P=0.022。以党派3为对照组，党派1认为“税收过高”的OR值是党派3的1.038倍（95%CI: 0.509-2.116），χ² = 0.010，P= 0.919；党派2认为“税收过高”的OR值党派3的3.194倍（95%CI: 1.626 -6.277），χ² = 11.358，P=0.001。

八、利用其它模块计算OR值

上述Analyze→Regression→Ordinal模块，可以检验 “比例优势”假设，但无法给出OR值和95%CI。而Analyze→Generalized Linear Models→Generalized Linear Models模块可以给出OR值和95%CI。

1. SPSS操作

(1) 在主菜单点击Analyze→Generalized Linear Models→Generalized Linear Models。出现Generalized Linear Models对话框后，在Ordinal Response下选择Ordinal logistic。

(2) 点击上方的Response，出现 Response对话框。将tax_too_high选入Dependent Variable，下方的category order行可以选择Ascending或Descending。

本例中tax_too_high共有四个等级，“0”表示“非常不同意”。如果选择ascending，则“0”是最低的等级；如果选择Descending，则表示“0”为最高的等级。

(3) 点击上方的Predictors，出现Predictors对话框。将biz_owner和politics选入Factors，将age选入Covariates。

(4) 点击上方的Model，出现Model对话框。将biz_owner、politics和age选入右侧的Model中。

(5) 点击Estimation，出现Estimation对话框。在Method中选择Fisher。

(6) 点击Statistics，出现Statistics对话框。在原始设置下，再勾选Print下的Include exponential parameter estimates，勾选该选项会输出OR值及其95%的置信区间，然后点击OK。

2. 结果解释

Generalized Linear Models模块不会给出单元格信息、伪决定系数和平行线检验结果。模型拟合信息在Ominibus Test表中，该结果与Regression→Ordinal的Model Fitting Information结果一致。

参数估计的OR值和95%CI见下图：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：医学院的石头 > 《SPSS》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

医学院的石头

关注对话

TA的最新馆藏

最全的生存分析网页版工具，你掌握了吗
还在为生信分析发愁？这个软件一jian搞定
一文掌握GSEA，超详细教程
GEPIA
[转] 长见识！进行TCGA数据差异分析最好的方法竟然是这个！
GEPIA：点点鼠标分析TCGA数据

喜欢该文的人也喜欢更多

热门阅读换一换