戏说统计学习笔记（4）——多元回归分析

心理諮商張老師 2019-02-08

展开全文

我们已经发出了李连江教授的《戏说统计》课程中的三篇学习笔记：相关分析、显著性检验与回归分析。今天，我们将发出第四篇学习笔记：多元回归分析。希望我们的整理可以继续供大家讨论学习。

多元回归分析

多变项分析：由面到体

一果多因：多元回归分析

提纲：

1. 一果多因，与哲学上所说的一因多果相对应

2. 净（偏）回归系数

3. 多元回归系数是合力

比如正相关和负相关，正相关就是往上拉，负相关就是往下拉。当有多个自变量的时候，有的自变量往上拉，有的自变量往下拉，最后形成的力量就是合力。

4. 判定系数告诉我们合力的威力

如果只有一个自变量，那么判定系数就告诉我们这一个自变量可以解释掉方差的百分之多少。如果有多个自变量，那么就是这几个自变量合在一起的合力能够解释掉方差的百分之多少。

正文：

第一点，一果多因

我们想了解为什么工资会因人而异，头几次我们考虑到会不会是受教育程度影响。但是我们根据常识也好，根据科学研究也好，我们知道一个结果不是因为一个原因。一果多因的情况要求我们解释一个结果的出现或者因变项的变异的时候考虑到不止一个自变项，这个时候就要运用到多元回归分析。多元指的是有两个或两个以上的自变项，这里需要注意的是回归分析只允许有一个因变量。多元回归分析不是简单的多变项回归分析，而是多个自变项回归分析。

这个图表中，因变量是现在的年薪（红色圈中）。在前面的分析中我们只看教育程度对工资的影响，现在我们既看教育程度又看是不是经理以及是不是少数民族。在分析教育程度对工资的影响的时候，我们看到教育程度每增加一年，工资会增加3909。但是现在的表中不是3909了，变成了1620了。原因是什么呢？原因是只看教育程度对工资的影响，看的是它的毛重。这个毛重里面，有一部分是教育程度的，还有一部分是受教育程度影响的人是不是能够当经理，这一部分是当经理的贡献。我们现在如果把当经理的贡献拿掉以后，再看教育程度的贡献，仍然是教育程度每增加一年，会对工资有一定影响。但是这个影响已经不是3909了，而是1620，1620就是所谓的净回归系数。这里仍然是未标准化的回归系数，也就是说这里变化一个单位是按照它原来测算的单位。原来我们测算教育程度的时候，1就是1年，2就是2年，所以每变化一个单位就是变化10年。1620是指工资的变化，一年里面一个美元作为测量单位。那么为什么会出现28361这么大的数呢？这个大的数是因为我们测量是不是当经理就是1和0。从0到1变化一个单位就是你从非经理变成了经理。那么你从0到1就意味着你的工资要增加28361。接下来我们分析一下少数民族这个因素。如果是1那么你就是少数民族，如果是0那么你就不是少数民族。看相关系数首先是看它的正负号，然后看它的绝对值大小，还要看它是不是显著的。在图表中，我们可以看到其相对应的显著程度是0.47，这意味着我们如果认为少数民族的地位会影响工资的话，那么我们犯一类错误的概率是47%，这是我们无法承担的，所以我们不会认为它有显著影响。这里的负数是指少数族裔的地位增加一个单位，那么工资是会减少的。这个时候我们看三个变项的力量的话，教育程度以及是不是经理是使正劲的，少数族裔的地位是使倒劲的。多元回归分析的时候考虑到多个变项对工资的影响是更贴近事件，更贴近现实的，但是也变得更加难以理解。在做双变项分析的时候，我们培养一种鸟瞰能力，把整个地图看清楚；讲到多变项分析的时候，要培养空间的想象能力，因为是一个三维的甚至是多维的空间。比如说教育程度每增加一年，工资会增加1620；从非经理变成经理，工资会增加28361，我们很难想象这两个变项是如何起作用的。教育程度和工资构成一条面，是否是经理和工资又构成一条面，是不是少数民族跟工资构成第三个面。这三个面交汇在一起，就不是二维空间，而是思维空间甚至是多维空间了。

第二点，净（偏）回归系数

什么叫净贡献？DV是因变量，淡蓝色的地方指的是DV的方差。结合前面的知识，它是一个方差，是一个误差的总量，而这个误差的总量指的是如果我们仅仅根据DV一变量的平均值来猜测样本里面所有的个体在这个属性上的取值的话你会得到这么多的误差。在图中C就是工资总的方差，工资是一个因变项，仅仅根据这474个人的平均工资来猜测每个人具体的工资那会有一个误差，误差的总和除以样本量得出的就是方差。方差总的大小就是C。那么我们考虑到一个解释变量比如A，A是教育程度，如果我们仅仅看这两个变项之间的关系，就相当于我们是把紫色的部分拿掉。所以我们之前得出教育程度每增加一年可以解释掉很大的工资的变化，因为右边两个圆交叉的部分是很大的。IV1和DV交叉的部分就是43%，但是如果今天我们再把B考虑进来，就是第二个解释变量，即经理的变化。经理的变化也可以解释工资的变化，是不是当经理与教育程度又是相关的，所以经理与教育程度之间也有交叉。那么教育程度可以解释掉C的变化，经理的变化也可以解释掉C的变化，中间的黑色部分是交互重叠的地方。我们看教育程度对工资的影响，仍然是看D和F，但是我们看净贡献的时候，就必须把黑色部分去掉。同样的，如果我们是看是否当经理对工资的影响，求净贡献的时候也是要把黑色部分去掉的。多个自变项对因变项总的解释的时候，绿色、黑色以及蓝色部分都在里面。蓝色部分是当经理的净贡献，绿色部分是教育程度的净贡献，黑色部分是双方共同的贡献。这三个部分在一起就是教育程度和经理对工资的总贡献。

我们讲到正态分布的时候提到正态分布有两个要点，一个是平均值，另一个是标准差，这两个要点帮助我们认识世界的时候起到简化的作用，就是我们可以把一个量给标准化。为什么要标准化呢？比如说我们看到是否是经理变化一个单位，工资会变化28361；教育程度变化一个单位，工资会变化1620。这个时候我们就要思考教育程度与是否当经理到底哪一个贡献大。这两个变量是不能直接比的，因为它们的测量单位不一样。如果想要比较它们之间的大小就需要把28361标准化，把1620也标准化，然后去看教育程度提高一个标准差，工资会变化几个标准差，是否是经理提高一个标准差，工资会变化几个标准差。经过标准化之后，就得到了红色方框中的数，分别是0.274，0.635和0.019。这里我们不需要考虑正负号，因为在正态分布下面，正数就是指往右边走了几步，负数就是指往左边走了几步，左右是对称的，因此只看绝对值就可以比较出来这几个自变项哪个对工资的影响最大。可以看出是否是经理对工资的影响是最大的，但是这里只是比其它变项大了一倍多。是否是经理上升了一个标准差，工资就会变化0.635个标准差；教育程度增加一个标准差，工资会增加0.274个标准差，这直接就比出来了。

第三点，判定系数告诉我们合力的威力

刚才提到了一下判定系数，这个时候如果我们把这三个自变量的情况都考虑在内，总的平方和仍然是1379E，那么现在已经可以解释掉958E，剩下421E。之前我们讨论过如果只考虑教育程度，还剩下771E误差，也就是可以解释掉43%的变异。我们考虑另外两个变项之后三个变项合在一起可以解释掉70%的变异，即70%的误差。