分享

多元线性回归分析与预测

 湖经松哥 2023-05-04 发布于湖北

   多元线性回归(multiple linear regression)是一元线性回归(也称简单线性回归)的推广,它考虑多个因素对一个结果的影响,是一种常用的多变量统计分析方法。用y表示因变量,x表示自变量,y只有一个,设x有p个,用向量形式可以表示为(x1,...,xp)。多元线性回归使用最小二乘法来解决方程的估计和检验问题,回归方程的数学模型为:

图片

        图片为常数项,又称截距,是当所有自变量取值为0时因变量的估计值;图片为偏回归系数(partial regression cofficient),表示当其他自变量保持不变时,自变量每改变一个单位引起因变量的变化,也表示每个自变量对因变量的影响程度。ε为随机误差,又称残差(residual),是y的变化中不能用自变量解释的部分,独立服从均值为0的正态分布。

      由样本估计的多元线性回归方程为:

图片

      正如一元线性回归分析那样,多元线性回归分析也需要满足line条件。但多元线性回归分析也有其特殊性,具体需要满足的条件如下:

(1) 自变量与因变量存在线性关系;

(2) 残差间相互独立;

(3) 残差服从正态分布;

(4) 残差具有方差齐性;

(5) 因变量为连续变量;

(6) 自变量为连续变量或分类变量;

(7) 自变量间不存在多元共线性,共线性即自变量之间存在很强的相关性。

      在多元线性回归分析中,需要引入几个新的指标。第一个是:标准化偏回归系数,当有多个因素(自变量)对一个结果(因变量)产生影响时,我们自然会问,到底哪一个因素造成的影响更大呢?比如自变量分别为身高和体重,根据回归系数很容易就知道每增加1cm的身高或每增加1kg的体重,引起的对因变量Y的影响大小,但是两者相比之下,到底谁的作用大谁的作用小呢?身高和体重的量纲不同,该如何比较呢?

      数据的标准化是消除量纲差异影响常用的方式。数据标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值,也就是标准化数值,使各指标的数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。

      对于多元线性回归方程来说,可以先对因变量和所有自变量进行Z-score标准化,也叫标准差标准化法。具体方法如下:

      首先计算每个变量(包括因变量和自变量)的均值图片和标准差(SD,然后用该变量的每一个观察值(x 或者 y)减去均值,再除以标准差,即:

图片

或者:

图片

      经过Z-score标准化后,数据将符合标准正态分布,即将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的均值为0,标准差为1。

      自变量和因变量标准化之后,再通过最小二乘法求出的偏回归系数,就称为标准化偏回归系数,即下列公式中的图片

图片

      未标准化偏回归系数体现的是自变量变化对因变量的绝对作用大小,而标准化偏回归系数反映的是不同自变量对因变量的相对作用大小,可以显示出不同自变量对因变量影响的重要性。

      大家需要注意,如果用标准化偏回归系数构建方程,得到的结论是有偏差的,因为此时自变量和因变量的数据都发生了转化,成为了标准化数据,因此标准化偏回归系数不能用于构建回归方程,只用于比较不同自变量对因变量的影响程度。只有通过未标准化偏回归系数和常数项构建的方程,才可以对因变量进行预测。

       我们曾学习了一元线性回归分析与预测,从中知道决定系数是评估回归方程优劣的一个重要指标。

图片

图片

      从上述R2的计算过程来看,无论是一元,还是多元线性回归方程,R2的计算方式是相同的。

      另外两个指标,一个是

图片

复相关系数的实质就是因变量y的实际观察值与由p个自变量预测的值的相关程度,换一种说法,就是一个变量(因变量),与若干个变量(自变量)线性组合之间的相关程度;另一个是

图片

(p为自变量的个数),决定系数R2有一个不足,如果一个对因变量没有显著影响(或者说没有统计学意义)的自变量纳入到回归方程中,R2可能会随之增大,这与我们的期望不符,理想的情况应该是,回归方程中的每个自变量都对因变量有显著影响,R2越大,越应该反应回归方程是比较优的。纳入一个没有显著影响的自变量,也使得R2增大,这背离了我们的期望。而调整的R2可以规避这个问题,也即回归方程如果纳入一个没有显著影响的自变量,调整的R2不会随之增大,反而可能会缩小,这样调整的R2还有一个作用,它可以检测一个自变量是否对因变量有显著影响。
      下表是不同年份下五种植物的种植面积,以及所有植物总的榨油量。很明显,五种植物的种植面积是自变量,榨油量是一个因变量。下面需要根据下表中的样本数据求出多元线性回归方程。在这五个自变量中,可能并非所有自变量对因变量的影响都有统计学意义,多元线性回归分析其中的一个目的是建立一个最优回归模型,即对自变量进行筛选:将没有显著影响的自变量剔除,将对因变量有统计学意义的自变量纳入模型中,同时也将共线性强的自变量剔除。自变量筛选的一个基本指导思想就是:回归模型包含尽量多的自变量,以提高预测的精确度,同时也要尽量避免包含作用不显著的自变量,以减少计算量和计算误差,降低在建立回归方程后用于监控和预测的成本。

图片

     下面使用SPSS工具实现多元线性回归分析。

     依次选择“分析->回归->线性”,见图-1。

图片

图-1

       接着设置因变量和自变量,也就是告诉工具哪个变量是因变量,哪些变量是自变量。这里我们将“榨油产出量”移入“因变量”一栏中,将五个自变量移入“自变量”一栏中。自变量的筛选的方法选择“步进”。具体见图-2。

      SPSS通过对偏回归系数进行显著性检验,选择有统计学意义的自变量构成回归模型。自变量的筛选方法有:输入、步进、除去、后退、前进。实际应用最多的是逐步回归法(stepwise),它将上述两种方法结合起来筛选,逐步回归事先设定自变量进入、剔除的标准,每向模型引入一个新变量,同时考察原来在模型中的自变量是否还有统计学意义,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为最优回归方程。

      前进法(Forward),它是一种观前不顾后的自变量筛选方法。首先分析N个自变量与因变量的相关关系,假设只有n个自变量与因变量的相关关系是显著的(显著性P<0.05);那么首先将与因变量相关系数最大的自变量纳入到回归模型中。第二步是在已经引入第一个自变量(不妨设为X1)的基础上,分别拟合自变量为(X1+X2),(X1+X3),……,(X1+Xn)的n-1个回归方程,通过最小二乘法可以分别计算出X2,X3,…Xn的偏回归系数,并计算出它们t检验时的P值,最后将P值最小且有统计学意义(即p<=0.05)的那个自变量引入回归模型,作为第二个自变量,如果X2,X3,…Xn的偏回归系数全部都没有统计学意义(即p>0.05)则运算过程终止。第三步在已经引入两个变量(不妨设为X1,X2)的基础上,分别拟合自变量为(X1+X2 +X3),(X1+X2+X4),……,(X1+X2+Xn)的n-2个回归方程,通过最小二乘法可以分别计算出X3,X4,…Xn的偏回归系数,并计算出它们t检验时的P值,最后将P值最小且有统计学意义的那个自变量引入回归模型,作为第三个自变量,如果X3,X4,…Xn的偏回归系数全部都没有统计学意义,则运算过程终止。反复执行这个过程,直至模型外的自变量均无统计学意义为止。前进法(forward)的局限在于只进不出,后续变量的引入可能使得先前的变量不再有影响却无法排除。

      后退法(Backward),它与前进法的过程相反。首先拟合包含全部N个自变量的线性回归模型,然后考察其中无统计学意义的自变量(也即对每个偏回归系数做t检验),将其中检验概率值(t检验的P值)最大者且大于0.05的自变量首先剔出模型;第二步,对现有模型中包含的剩下N-1个自变量再次通过最小二乘法求出各自的偏回归系数,并对每个偏回归系数做t检验,同样剔除检验概率值最大且无统计学意义的变量。如此反复进行,直至模型中剩余的所有自变量均有统计学意义为止。后退法(backward)的局限在于只出不进,开始剔除的变量后来即使变的对因变量有影响也无法再进入方程。

      步进法(Stepwise),也称逐步回归法,它是前进法和后退法的结合。步进法的前两步与前进法的前两步相同,拟合出一个包含两个自变量的回归模型;第三步是考察第一步引入模型的自变量X1是否仍有统计学意义(使用t检验),若没有统计学意义,则将其剔出模型;第四步按照前进法继续向回归模型引入新的自变量;第五步引入新自变量之后,考察回归模型中原有自变量是否仍有统计学意义,若没有统计学意义,则将其剔出模型中。如此反复,直到模型外的自变量都没有统计学意义,而模型内的自变量都有统计学意义。从步进法的过程来看,该方法是一种观前顾后的“谨慎”方法,每向模型中引入新自变量,还要考察之前引入的自变量是否依旧有意义,它是我们最常用的自变量筛选方法。

      输入法,是SPSS默认的自变量进入回归模型的方式,它将自变量框中所有的自变量都纳入到回归模型中,不涉及自变量筛选问题。

      除去法(Remove),规定为Remove的自变量被强制剔除出模型,这种方法需要与其他方法一起使用。在SPSS中,可以同时设置多种自变量的筛选的方法,比如第一种方法采用“步进”,第二种方法采用“输入”,这样工具先采用“步进”的方法拟合回归模型,然后在拟合好的回归模型基础上,再采用第二种方法,“输入”指定的自变量,也就是将指定的自变量追加到回归模型中。除去法不能作为第一种方法,只能作为第二种方法,或者第三种方法等等。比如第一种方法采用“步进”,第二种方法是“除去”,工具先采用“步进”的方法拟合回归模型,然后在拟合好的回归模型基础上,再采用第二种方法,“除去”指定的自变量,也就是将指定的自变量从拟合好的回归模型中剔除掉。

图片

图-2

       接着点击右侧的“统计”按钮,在“统计”界面中,勾选希望工具展示的统计信息,见图-3。“模型拟合”是系统默认项,工具将输出复相关系数R,R2R2修正值,估计值的标准误,方差分析表等信息。“R方变化量”:在回归方程中增加或剔除一个自变量时,R2的变化。“描述”:工具输出基本的统计描述。“部分相关性和偏相关性”:工具输出相关系数及偏相关系数。“共线性诊断”:展示用于分析各自变量之间共线性的统计量,包括容忍度和方差膨胀因子、特征值、条件指标等。“德宾-沃森”是检验残差是否存在自相关的方法。

图片

图-3

      点击“图”按钮,勾选“直方图”,“正态概率图”,用于检验残差是否服从正态分布,以保证我们的多元线性回归分析是满足line前提条件的。

图片

图-4

       点击“选项”按钮,设置步进法条件,也即自变量进入方程与从方程中被剔除的条件,一般使用默认值即可,自变量进入方程的条件是:t检验的p值小于0.05;从方程中被剔除的条件是:t检验的p值大于0.10。具体见图-5。

图片

图-5

      下面是SPSS工具执行多元线性回归分析之后输出的信息。

      下图是对样本数据的基本描述统计。

图片

图-6

      下图为各变量(包括自变量和因变量)之间的Pearson相关系数,以及显著性P值。其中主要关注因变量与各个自变量之间的相关性,只有具有线性相关性,多元线性回归分析才有意义。另外,也需要关注自变量之间的相关性,一般认为相关系数 > 0.7可考虑自变量间存在共线性。在本例中结果显示存在自变量之间相关系数均> 0.7,且P值均 < 0.05的情形,表明自变量间相关性较强,存在共线性,后续要注意消除共线性。

图片

图-7

       图-8,图-9为采用步进法筛选自变量的过程,每进入,或者每剔除一个自变量,就对应一个模型(也就是回归方程)。从图-7中可知“向日葵”自变量与因变量相关性最强,所以作为第一个自变量进入模型中,实际上如果每个自变量分别与因变量拟合为一个一元线性回归方程,那么“向日葵”自变量的回归系数的t检验p值应该也是最小的,且小于0.05(符合在图-5中设置的步进条件),所以应该进入模型中,此时即为图-8中的模型1,此时只有一个自变量。

       接着选取第二个自变量,此时还没有进入模型的自变量见图-9中模型1,大家注意区分一下,图-8的模型1所展示的自变量为新进入本模型的自变量,而图-9的模型1所展示的自变量为还未进入本模型的自变量,图-10的模型1所展示的自变量为本模型中已有的自变量,图中的模型2、模型3也如此。图-9的模型1所展示的自变量中,“大豆”自变量的偏回归系数的t检验p值最小,且小于0.05,所以作为第二个自变量进入了模型中,此时对应图中的模型2。大家看图-10中的模型2,当前已有两个自变量,先前进入模型的“向日葵”,其偏回归系数的t检验P值小于0.1,所以不需从模型中剔除出去。从图-9的模型2可看出,目前还有“芝麻”,“花生”,“油菜”三个自变量没有进入模型中,而且“油菜”自变量的偏回归系数的t检验P值最小,且小于0.05,所以可以作为第三个变量进入模型中,此时对应图中的模型3,从图-10的模型3看出,此时模型中已有三个自变量,而且以前进入模型的“向日葵”和“大豆”自变量,其偏回归系数的t检验P值都小于0.1,无需被剔除出去。再看图-9的模型3,此时还有两个自变量没有进入模型中,为“芝麻”,“花生”,它们各自的偏回归系数的t检验P值都大于0.05,所以都不能进入模型中。至此,多元线性回归方程拟合完成。

       对于图-9的每个模型,其中的每个未被选入模型的自变量的t显著性是如何计算出来的呢?我们再简单说明一下。

第一个模型中,选取了“向日葵”,那么没有被选入的四个自变量,分别与“向日葵”组合在一起,作为方程中的两个自变量,此时可以通过最小二乘法算出这个还未被选入的自变量的偏回归系数显著性,对于“芝麻”就是0.080,在下一次筛选新自变量时,就可以将显著性最小且小于0.05的“大豆”选入模型中。

        在第二个模型中,现在已经选入了“向日葵”和“大豆”了,此时还未被选入的自变量分别与“向日葵”和“大豆”组合在一起,作为方程中的三个自变量, 然后求出这个未被选入的自变量的偏回归系数的t显著性,在下一次筛选新自变量时,将显著性最小且小于0.05的“油菜”自变量选入模型中。

图片

图-8

图片

图-9

       图-10的模型3即为最终的多元线性回归方程,方程如下:

榨油量=0.123+0.015*向日葵种植面积+0.001*大豆种植面积-0.002*油菜种植面积

       注意回归方程中的偏回归系数为未标准化系数,反应每个自变量对因变量的影响程度。如“向日葵种植面积”的偏回归系数b1为0.015,说明在其他因素不变的情况下,“向日葵种植面积”每增加1个单位,榨油量就增加0.015个单位。而标准化回归系数只用来比较各自变量对因变量影响的大小,比如“大豆”和“油菜”,其标准化回归系数分别为0.758和-0.952,标准化回归系数的绝对值越大,自变量对因变量的影响越大,由此可知,“油菜”的影响要大于“大豆”。

      另外,大家需要注意,共线性诊断的两个指标,即Tolerance(容差)和VIF(方差膨胀因子),二者互为倒数关系。一般认为如果Tolerance < 0.2或VIF > 10,则提示要考虑自变量之间存在多重共线性的问题。本例中在模型3中出现了Tolerance < 0.2,VIF > 10的情形,提示“向日葵”,“大豆”,“油菜”自变量存在共线性,同时再参见图-7,三者的相关系数也确实大于0.7,相互得到印证。后续需要采取措施来消除共线性,否则回归模型估计失真或难以估计准确。

图片

图-10

       图-11展示了各个模型的复相关系数R,决定系数R2,调整的R2,很明显拟合优度非常好。德宾-沃森值为1.394,该统计值的取值范围为0 ~ 4之间,如果残差间相互独立,则该值≈ 2。若德宾-沃森值偏离2,向0或者4的方向接近,则提示残差不独立。本例中该值比较接近于2,表明残差间没有明显的相关性,即残差独立,满足line中的Independent要求。

图片

图-11

       图-12显示方差分析的结果,检验拟合的3个模型中是否所有偏回归系数都为0,下表中,所有显著性值为.000(p<0.001),表明在步进法筛选自变量的引入、剔除(条件:0.05、0.1)自变量的过程中,所拟合的3个模型都具有统计学意义。

图片

图-12

      判断是否存在共线性,除了看容差与VIF值外,还可以参考共线性诊断中的特征值与条件指标,见图-13。当特征值约等于0、条件指标的值大于10、方差比例接近1时(其中一项符合即可),均可说明存在比较严重的共线性。大家观察图-13中的红色方框,很明显步进法筛选出的三个自变量存在共线性问题。

图片

图-13

图-14为预测值和残差的基本统计描述。

图片

图-14

        图-15,图-16,通过标准化残差的直方图(Histogram)可以直观的看出,标准化残差服从均值为0,标准差为1的正态分布。同时从正态概率图(P-P图)也可以看出,散点基本围绕在第一象限对角线上散布,从而判断残差基本服从正态分布,满足line中的Normal distribution要求。

图片

图-15

图片

图-16

      图-17,通过对标准化残差和标准化预测值绘制的散点图可以看出,标准化残差的散点波动范围基本保持稳定,不随标准化预测值的变化而变化,可以认为基本满足方差齐性,满足line中的Equal variance要求。

图片

图-17

       最后我们消除多元共线性问题。

       在上述最终拟合的多元线性回归方程中,包含“向日葵”,“大豆”,“油菜”三个自变量,而且从工具展示的统计信息来看,三者存在共线性,消除共线性最简单的一种方法就是删除掉一些自变量,因为存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量以减少重复信息。但是应该删除哪些自变量呢。这时我们可以参考一下图-10,不难发现,“油菜”自变量与因变量的偏相关和部分相关(具体含义大家可以查看相关资料)相对较小,说明“油菜”与因变量的相关性较弱,我们可以考虑从模型中删除“油菜”自变量,只保留“向日葵”和“大豆”自变量。

      下面我们重新执行多元线性回归分析,只选取“向日葵”和“大豆”两个变量,采用“输入”筛选的方法,见图-18.

图片

图-18

     大家再看图-19的共线性统计信息,共线性问题得到了改善。

图片

图-19

      下面我们总结一下多元线性回归分析的过程。

      1、首先我们要明确为何要做多元线性回归分析,首先通过多元线性回归来了解哪些因素对结局变量y有影响,其次通过多元线性回归方程来做预测和控制;

      2、对于多元线性回归分析与预测来说,样本数据也要满足line的要求,具体可参见《一元线性回归分析与预测》,SPSS工具会自动输出各类统计信息,帮助我们判断样本数据是否满足各种前提条件;

      3、通过最小二乘法来计算回归方程中的截距和偏回归系数;

      4、通过F检验来判断回归方程作为一个整体是否有统计学意义,也就是说所有的偏回归系数是否不全部为0;

      5、通过t检验来判断每一个偏回归系数是否等于0;

      6、在拟合回归方程的过程中,需要对自变量进行筛选,判断一个回归方程优劣的指标,主要是决定系数R2,调整的R2,残差的均方(越小越好);

      7、自变量筛选有不同的策略:前进法,后退法,步进法等等;

      8、已知自变量的值,通过多元线性回归方程来预测结局变量y的平均值;

      9、通过多元线性回归方程来实现控制,通过控制自变量的取值,来控制y在一定范围内取值。

扫码听课

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多