【原】逻辑回归能摆平二分类因变量，那……不止二分类呢？| 协和八

协和八 2020-09-18

展开全文

❉说人话的统计学❉

通过前面的五期「说人话的统计学」专栏，我们已经把逻辑回归的基本理论知识和应用技巧讨论了一遍。相信大家已经了解，逻辑回归能帮助我们解决的，是因变量有且只有两种类别的问题，比如我们之前例子里，一场选举中选民投票给两位候选人中的哪一位。通过逻辑回归，我们可以研究各种自变量与我们关心的二分类因变量之间的相关关系，而这些自变量既可以是二分类的（如性别），也可以是多分类的（如职业），还可以是连续的（如收入、教育程度）。

毫无疑问，这个世界上有不少问题的答案就是非此即彼的，因而逻辑回归的用途很广泛。尤其在医学领域，诸如是否患有某种疾病，某个疗法是否有效，这些几乎就是医学研究和实践的核心问题。运用逻辑回归，我们可以把病人的各种指标作为自变量，从而对疾病的风险因素、药物或手术的适应症等问题进行严谨的研究。

但是，同样也有很多其他我们关心的事情，其结果不一定只有两种情况。比方说，你辗转反侧地琢磨你暗恋多时的女神究竟对你有没有意思，可别傻乎乎地掰起花瓣儿「她爱我、她不爱我、她爱我……」了！谁知道除了这两种情况以外，是不是还有「想和你暧昧」「想拿你当备胎」「想培养你当男闺蜜」之类的其他可能性呢？

换回一张正经脸，实际工作和科研中同样存在类似的多分类（多于两种类别）问题。我们曾经在《数据到手了，第一件事该干啥？》里讲过，多分类变量可以进一步分成两种：名义变量（nominal variable）和定序变量（ordinal variable）。名义变量的不同分类是没有顺序可言的，比如说基因型、疾病的分型等；而有定序变量的不同分类则有逻辑上的顺序，比如客户满意度调查中的选项「非常不满意」「不满意」「一般」「满意」「非常满意」。现在我们的问题是，如果因变量是多分类变量，那么要用怎样的统计学模型研究与其相关的因素？多分类因变量的类别有或无顺序时，方法是否有所不同？

对于第二个问题的答案，也许你已经猜到，对付这两种情形，的确要用到不太一样（但是颇有共通之处）的方法。我们今天就先来讨论一下，当因变量的类别没有顺序（即为名义变量）时，要建立怎样的统计学模型。

既然多分类是二分类的拓展和延伸，那么我们就从已经熟悉的逻辑回归模型出发，来找找灵感：

这条式子大家已经看过许多遍了，右边与线性回归相似，是一堆自变量x_i(i=1,2,…,k)的线性叠加（注意x_i不仅可以是单个自变量，也可以是若干其他自变量的交互作用，例如x₃·x₅），对应的回归系数β_i(i=1,2,…,k)代表各自对因变量的效应大小，当然还有一个我们通常不太关注的截距β₀。而左边呢，p代表了在两个可能的类别中，因变量为某一个事先选定的类别（比如男／女中的女）的概率。

注意式子左边对数里头的分母1-p，它代表了什么？当因变量只有两个可能的类别时，既然p是取其中一个类别（称为类别1）的概率，那么1-p自然就是另一个类别（称为类别2）的概率了。也就是说，我们可以把前面的模型写成

这样一来，我们就更能清楚地看到，这个模型描绘的是因变量取两个类别的概率的比值。因此，对于逻辑回归来说，回归系数β_i描述了当其他自变量都保持不变，而自变量增加时，因变量在类别1和2之间的「倾向性」的变化。更具体地说，如果β_i是正数，则x_i越大，因变量更可能取类别1；如果β_i是负数，则x_i越大，因变量更可能取类别2。

现在，我们将踏出关键的一步——类别只有不止两个的时候呢？比如说，5个类别？

在这种情况下，我们5个类别之间两两比较有多少不同的组合？这个可就多了（回忆一下高中时学过的组合数，5选2一共有10种组合），但我们并不需要穷尽所有的组合。一种方便的做法是，选定一个类别固定做分母（比如说类别5，称其为「参考类别」），然后让剩下的类别轮流做分子，因此有，，，四个比例。

为什么这样就够了呢？首先，有了这四个比例，所有涉及类别5的组合就都照顾到了。其次，如果我们要关心不涉及类别5的组合，比如说，那又怎么办呢？好办，我们只需拿除以，把分母上共同的类别5消掉，就能得到了。因此，我们只需要对，，，这四个比例建立统计模型，就能够全方位地覆盖这5个类别之间的概率比例关系了。究竟选哪个类别做参考类别，其实不影响模型得到的结论，但回归系数的解读会有所不同，这一点我们以后还会有进一步的阐释。其实，这里的思想和《线性回归能玩多变量，逻辑回归当然也能！》里面的「哑变量」方法是一脉相承的，只不过哑变量是对名义变量作为自变量时的处理方式，而我们今天讲的是名义变量做因变量时的建模方法。推广到一般情形，如果因变量有k种分类，那么我们需要对k-1个比例关系进行建模。

既然如此，我们就依葫芦画瓢，按照一般的二分类逻辑回归模型的样子，写出关于上面的四个比例的模型（注意，为了简明起见，下面我们省去了关于第几个数据点的下标，但是我们仍要记住，对于每一个数据点，自变量x_1，x_2，x_3，… x_k取值不同，各等式左边的p_类别1，p_类别2，…p_类别5也会不同）：

其中，等式最右边用了求和符号，只是为了把中间一长串的β_0,类别1+β_1,类别1x₁+β_2,类别1x₂+…+β_k,类别1x_k之类写得简单一些，而且对后续的表述会有帮助。

很容易看到，这几条式子与二分类的逻辑回归模型很相似，这样的一组模型，称为「多项逻辑回归」(multinomial logistic regression)。需要着重点出的是，在多项逻辑回归里，因变量除了参考类别以外的每一个类别，都拥有自己的一套回归系数，因此，大家会注意到，回归系数不像以前那样只有一个对应自变量x_i的下标i。在本文中，各个β下标的第一部分依然表明该回归系数对应于哪一个自变量，而第二部分则表示该回归系数对应的是因变量的哪一个类别（在上面的式子中用红色标出）。比如说，β_2,类别3对应于自变量x₂和类别3，它的意义是，当自变量x₂增长一个单位、而其他自变量保持不变时，因变量取类别3的概率与取类别5的概率之比例的对数值（或称两者的分对数）会相应发生多少变化。推广到一般情况，如果我们有k个自变量，因变量总共有m个类别（包含选做参考类别的那一个）的话，多项逻辑回归模型里就一共包含(m-1)(k+1)个回归系数（含截距）。

根据上面的模型，我们还可以进一步推出，对于任何一个数据点，如果我们知道了它所有自变量x_1，x_2，x_3，… x_k的取值，那么它的因变量取各个不同类别的可能性（概率p_类别j）是多少。根据对数的定义，前面的四条式子可以变成：

别看右边e的幂那么一大堆很复杂的样子，现在我们关心的是p_类别1，p_类别2，p_类别3，p_类别4，p_类别5，所以其他的都可以看成是常数。此时，简单做个移项，把左边的分母都挪到右边去，我们就能发现，这四条式子只不过是类似于y=0.3x，z=1.2y 那样简单的一次方程组而已：

既然是一次方程组，我们知道，要能解得出来，有几个未知数就要有几个方程。现在我们有5个未知数p_类别1，p_类别2，p_类别3，p_类别4，p_类别5，可是上面只有四个方程。缺了一个怎么办呢？仔细想想，其实对于这5个未知数，还有一个条件我们没用上：因为已经知道因变量y只可能取这5个类别中的一个，没有别的可能，那么这5个概率加起来一定是1：

p_类别1+p_类别2+p_类别3+p_类别4+p_类别5=1

这下好了，5个未知数，5个一次方程，我们可以解出：

看着满眼的符号很吓人吧？其实都是纸老虎，仔细看看其实你会发现，翻来覆去都是那几项，而且计算机和统计学软件会帮我们打点一切。关键在于，对于任何一个数据点，把自变量x_1，x_2，x_3，… x_k的具体数值代入到上面的式子里，我们就能用各个回归系数β_i_,类别j(i=1,…,k; j=1,…,m)表示出p_类别1，p_类别2，p_类别3，p_类别4，p_类别5。这个数据点的因变量y是哪个类别，那么相应的那一个𝑝类别j就是这个数据点的似然函数。对所有数据点都这么做，然后把各数据点的似然函数乘起来，我们就能得到整个样本基于上述模型的似然函数。

有了似然函数，我们就可以像在线性回归和二分类逻辑回归里那样，用极大似然估计方法来找出回归系数（关于极大似然估计，可回顾《回归线三千，我只取这一条》和《逻辑回归的袅娜曲线，你是否会过目难忘？》）。换言之，给定一个样本的各个数据点，似然函数便是关于所有回归系数的一个函数，极大似然估计就是在各个回归系数的组合中，寻找使得似然函数取值最大（即最可能）的那一组，并以其作为这些回归系数的估计值。这一过程与线性回归和二分类逻辑回归在概念上是相同的，具体的实现也都交给统计软件，在此就不再重复了。在下一集文章里，我们将用一个实例来进一步巩固对多项逻辑回归的理解，并着重讨论回归系数的解读及有关统计检验。

作者：张之昊

编辑：鹅不食草

质控：六月雪叶

* 阅读本系列文章可回复关键词「说人话的统计学」

干货

第 1 章高屋建瓴看统计

第 2 章算术平均数与正态分布

第 3 章 t 检验：两组平均数的比较

只有 15 个标本，也能指望 t 检验吗？

样本分布不正态？数据变换来救场！

数据变换的万能钥匙：Box-Cox 变换

t 检验用不了？别慌，还有神奇的非参数检验

只讲 p 值，不讲效应大小，都是耍流氓！

找出 t 检验的效应大小，对耍流氓 say no！

用置信区间，就是这么（不）自信！

如何确定 t 检验的置信区间

优雅秀出你的 t 检验，提升 Paper 逼格！

要做 t 检验，这两口毒奶可喝不得！

第 4 章方差分析（ANOVA）：多组平均数的比较

听说，成对t检验还有 ANOVA 进阶版？

重复测量 ANOVA：你要知道的事儿都在这里啦

没听说过多因素 ANOVA ？那你就可就 OUT 了！

多因素 ANOVA＝好几个单因素 ANOVA？可没这么简单！

两个因素相互影响，ANOVA 结果该如何判读？

ANOVA 还能搞三四五因素？等等，我头有点儿晕

第 5 章线性回归：统计建模初步

天啦噜！没考虑到混杂因素，后果会这么严重？

回归系数不显著？也许是打开方式不对！

评价线性模型，R 平方是个好裁判吗？

如果R平方是砒霜，本文教你三种解药！

线性模型生病了，你懂得怎样诊断吗？

「脱离群众」的数据点，是「春风化雨」还是「秋风扫落叶」

第 6 章广义线性模型：统计建模进阶

（未完，更新中）

你在或者不在需要逻辑回归来算

逻辑回归的袅娜曲线，你是否会过目难忘？

自检

番外篇

作者简介

张之昊

2010 年本科毕业于清华大学生命科学学院，获理学学士学位。2016 年 5 月在耶鲁大学跨院系神经科学项目获得哲学博士学位。在耶鲁期间，他利用功能核磁共振成像（fMRI）技术与计算建模研究人类经济决策的脑科学基础及其与肥胖症的联系，曾以第一作者身份在 Nature Communications, Current Biology 等顶尖学术杂志上发表多篇论著，并受到 BBC 新闻、CBC、洛杉矶时报、果壳网等知名媒体的关注和报道。他还曾任耶鲁大学 StatLab 数据咨询师（Data Consultant），为耶鲁师生提供实验设计、数据分析及统计学软件的咨询服务。2016 年 8 月至今在伯克利加州大学（UC Berkeley）哈斯商学院市场营销系担任博士后研究学者（Postdoctoral Scholar），致力于运用神经科学、经济学模型、自然语言处理及大数据方法研究消费者行为与决策。

作者简介

田菊

2010 年本科毕业于清华大学工程物理系，获工学学士学位。2016 年 5 月在哈佛大学医学院神经科学项目获得哲学博士学位。她在攻读博士期间研究基于奖赏的学习行为的神经回路及其计算模型，曾以第一作者或共同作者身份在 Nature，Cell, Neuron，Nature Neuroscience，Trends in Cognitive Science 等顶尖学术杂志上发表多篇论著。2016 年 6 月至今在 Facebook 担任数据科学家（ Data Scientist ），运用大数据和人工智能解决网络诈骗、虚假新闻和不良广告等信息安全相关问题。