【原】一文读懂 Logistic回归的前世今生 | 护理科研

Nursing小班长 2020-08-23

展开全文

（图源：pexels）

作者 | 何耀北京大学公共卫生学院

责编 | 阿拉煤油灯

#护理科研：一文搞懂 “相关” 和 “回归” ！

多重线性回归的SPSS实现以及文献案例分析 | 护理科研

前文我们已经讲解了相关与回归的基础知识，并且结合文献重点讨论了多重线性回归的应用，今天的文章，我们来看看在护理研究中应用同样广泛的统计学方法——Logistic回归。

1. Logistic回归与多重线性回归的区别

读过我们前面“线性回归”文章的老师，肯定已经知道，采用线性回归的第一准则：因变量Y需要是“定量变量”，例如得分、收入等连续型的，可以计算均数和标准差的变量。而Logistic回归最大的不同在于：Y是分类变量。

Logistic回归的Y是分类变量（这句话希望大家在心里默读三遍）

这是进行Logistic回归最基本的条件。什么是分类变量呢？大家最常见的可能是：发病与不发病。比如我们用Y来表示“是否患有糖尿病”，用Y=1表示“患病”；用Y=0，表示“不患病”，这里的Y就是一个典型的二分类变量。此时，当我们希望通过回归分析的方法来探讨“糖尿病患病与否的影响因素”，则应该选择“Logistic回归分析”。

同多重线性回归一致，对进行Logistic回归分析的自变量X并没有限制，可以是定量变量，如年龄，也可以是分类变量，如性别等等。所以，按照我们前面文章所强调的，进行研究前首先要找XYZ，而当考虑是进行多重线性回归，还是Logistic回归时，原则上只需看Y（即因变量、或称反应变量）的类型：定量变量就用多重线性回归，分类就用Logistic回归。

2. 线性概率模型

理清了Logistic回归与一般线性回归的区别后，我们再来看看Logistic回归是如何构造出来的。在这之间，我们要先介绍一个新词：线性概率模型。什么叫线性概率模型，它与Logistic回归有什么关系，我们一一道来。

首先，既然大家都叫“回归”，Logistic回归与线性回归当然存在联系的。实际上，Logistic回归仅仅只是对线性回归的因变量进行了一个变换，模型的主体结构仍然属于“线性回归”。

仍然以“糖尿病患病的影响因素”为例进行说明。某研究团队想要探讨某地区糖尿病患病的影响因素，收集了如下数据：

上述数据的赋值说明如下：

本研究的目的是获得“影响因素”，因此，除变量Y（是否患病）以外，其他所有因素都可以作为潜在的影响因素，即自变量X纳入模型。如上表，Y属于二分类变量，其取值模式是“0、0、0…1、1、1”，其中“1”表示“是”；“0”表示“否”，所以符合进行Logistic回归的基本条件。

在Logistic回归诞生之前，人们首先考虑的是按照“多重线性回归”的方法，忽略变量Y的变量类型，直接将Y与各个X强行进行多重线性回归。

在前文，我们讲过Y上面添加一个“^”符号，表示Y的估计值。结合本例，如果我们将是否患有糖尿病与各个X进行回归，也会得到Y的估计值。可是如何解释这个估值值呢？人们想出一个办法：概率。

概率是我们在中学就接触过的内容，表示的是“某个事件发生可能性的大小”，比如某人患糖尿病的概率是80%，意味着他的患病风险很高。当我们从概率的角度进行线性回归时，得到的模型特称为“线性概率模型”。

如上式，我们用P来表示Y的估计值，专门代表患病概率。什么意思呢？我们现在构造的模型是用来研究各个影响因素与糖尿病患病概率的相关关系，不再是是否发病。也就是说，通过模型，我们可以计算出预测值，此时的预测值代表该对象患糖尿病的可能性大小。

这个地方需要特别理清的是，每一个研究对象是否患有糖尿病我们提前已经知晓。如上表，编号为“1”的对象，其变量Y=0，意味着“没有患病”，可是现在又说他的预测值代表他患病的可能性大小，这不是有一点前后矛盾吗？

实际并没有，这里的预测值是根据模型（即由X计算出来的），并非实际情况。我们可以推测：如果模型预测效果好，那对于第1名对象而言，其预测值（即患病概率）应该接近于0，表明患糖尿病概率很低；反之，对于已经患病的人群（即Y=1），根据模型计算的患病概率则应该接近1，即患病概率高。

确实如此，上述线性概率模型并非理论假想，而是存在实际应用，它与多重线性回归的思路和操作方法完全相同，唯一特殊的是，这里“Y”的预测值专门由“P”表示，指代概率。这种方法在经济学等社会科学领域十分广泛，常与Logistic回归结合使用。

3. Logistic回归的由来

但是，这个“线性概率模型”有一个很严重或者说“致命”的问题。

根据模型来看，Y的估计值（即这里的P）理论上可以取所有实数，可是，对于大于1或者小于0的预测值，该做何种解释呢？常识告诉我们，概率（即可能性）不会大于“1”或者小于“0”，可是通过模型计算出来的预测概率几乎一定会出现大于1或小于0的情形。为了解决这个问题，人们就考虑对P进行变换。

数学上发现，通过对P进行如下变换即可解决问题：logit (P) = ln (P/1-P)，(其中ln为自然对数函数)。这个变换即所谓的“logit”变换，通过对P进行变换之后再次纳入回归模型，得到的模型即为“Logistic回归模型”：

在实际应用中，这些变换都不需要我们手动操作，只需要把数据整理成上述“原始数据”表格中的形式，SPSS软件会进行完整的分析过程。但我们需要特别明确的是，进行Logistic回归后，软件输出的“预测值”，就是这里的“P”，即概率，均是0-1的数字。整体来看（将logit(P)看做一个整体），Logistic回归模型仍然是一个线性回归模型，一般称作“广义线性模型”。

对于logistic回归模型的SPSS操作演示、回归系数的解读以及文献案例分析等内容，就留到下一篇文章给大家详细讲解。