分享

回归分析方法介绍

 HelenChen0532 2022-10-09 发布于山东


图片

转载:数学中国

图片

一、回归分析的主要内容

“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿收集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。当高尔顿对试验数据进行深入研究时发现了一个很有趣的现象:当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们儿子的身高比他更矮的概率要小于比他更高的概率。这反映出一个规律,即儿子的身高有向他们父辈的平均身高回归的趋势,这就是所谓的回归效应。

相互有联系的现象(或变量)之间的联系方式及密切程度各不相同。变量之间的关系可以分成两类:一类是确定的函数关系,另一类是不确定的统计相关关系。变量之间的统计相关关系可以由相关分析和回归分析来研究。回归分析是研究一个变量关于另一个(或一些)变量的依赖关系的计算方法和理论。目的在于通过后者的已知或设定值,去估计和预测前者的(总体)均值。前一个变量称为被解释变量或响应变量,后一个变量称为解释变量或自变量。

回归分析是一种预测性的实验方法,它研究事物之间不完全确定的相关变量之间的数量关系。回归分析是数学实验和分析数据的重要工具。回归分析首先是根据所研究问题和目的设置因变量y,再选取与y有统计关系的一些变量作为自变量。这种方法通常用于预测分析、时间序列模型以及发现变量之间的因果关系。例如,探讨司机的鲁莽驾驶与道路交通事故之间的数量关系,就可以采用回归分析的办法进行研究。

回归分析研究的内容主要包括线性回归、非线性回归以及含有定性变量的回归等。

二、建立实际问题回归模型的过程

首先是根据一个具体的经济或社会问题设置相关的指标变量,然后收集相关的数据,根据收集的数据构建理论模型,由已有的数据确定模型的未知参数,再对问题进行合理性检验,运用检验后的模型进行分析、预测和控制等。

1. 指标设置

回归分析主要是揭示事物之间相关变量之间的数量联系。首先需要根据所研究问题的目的设置因变量y,也称为被解释变量。其次选取与y有统计关系的一些变量x1,x2,...,xn作为自变量,也称为解释变量。对于一个具体的研究而言,当研究的目的确定后,被解释变量也就随之确定下来。而解释变量的确定并不十分容易,首先是因为我们对研究问题认识的局限性,无法保证选取的变量就是被解释变量的最重要因素;其次是按照模型要求选取的变量应是彼此不相关的。但是在实际问题中很难找到彼此之间完全不相关的变量;最后,对于研究的实际问题,有些重要的数据可能无法获得,只能将该因素分解成几个因素或选取能够近似代表该指标的变量来替代。

选取的指标并不是越多越好。一个模型漏掉重要的指标会影响模型的使用效果,但是选取的指标过多,同样会因为喧宾夺主而冲淡主要影响因素的作用。此外,选取变量过多,难免会出现相关性过高而产生对某一个或某几个因素叠加造成共线性问题;并且变量选取过多必然会造成因为计算量过大导致的精度下降问题。

2. 数据的收集

数据的收集和整理是建立模型进行数学实验的一项重要基础工作。样本数据的质量,直接决定了回归模型的表达程度。

常用的样本数据分时间序列数据和截面数据。时间序列数据就是按照时间顺序排列的统计数据,如新中国成立以来每年的国民生产总值、历年接受高等教育的人数等都是时间序列数据。时间序列数据的使用需要特别注意数据的可比性和数据的统计口径。例如,讨论20世纪60年代人们的消费水平和现在人们的消费水平,就需要对收集到的当年的消费水平数据进行转换,而不能直接进行比较,否则就失去了本来的意义。

截面数据是指同一个时间截面上的数据。例如,2017年我国不同省份城镇居民的收入和消费支出之间的关系数据就是截面数据。使用截面数据进行分析时最容易产生的问题是异方差。

无论是时间序列数据还是截面数据,为了使模型的参数估计更为有效,通常要求样本量的容量n大于解释变量的个数p。当然对于n与p的关系到底多少更为合理,没有一个统一的要求。英国统计学家肯德尔(M.Kendall)在《多元统计》一书中认为样本量n的个数最好是解释变量p个数的10倍以上。

3. 数据的初步处理

在利用给定数据进行回归分析之前,应该先对数据进行初步的分析,处理异常值。异常值的判断及处理见第1章,在数据量比较大,且异常值较少时,可以通过直接去掉该点的方式,使用新数据进行回归分析,增加回归分析的拟合精度。如果选取样本的数据量本身就较小,或者问题研究中就存在一些特殊情况需要特别关注的话,则应该根据具体问题进行深入细致的分析。

三、线性回归模型与回归方程

1. 回归模型

如果变量x1,x2,...,xp与随机变量y之间存在相关关系,即当变量x1,x2,...,xp取定值后,y有相应的概率分布与之对应。随机变量y与相关变量x1,x2,...,xp之间的概率模型为

图片

其中,随机变量y称为被解释变量或因变量,x1,x2,...,xp称为解释变量或自变量。上述的随机方程分为两部分:一部分是由一般变量x1,x2,...,xp的确定性关系表达的部分f(x1,x2,...,xp),另一部分是x1,x2,...,xp的确定性关系不好描述的随机误差部分ɛ。其中随机误差包含下列的影响因素:

(1)由于人们认识的局限性或其他各种原因制约未引进回归模型的,但是对回归模型产生影响的因素;

(2)样本数据采集过程中变量观测值的观测误差;

(3)模型设定的误差;

(4)其他随机因素;

这些因素应该是微小的,不占模型主要地位的部分。

2. 线性回归模型

当模型(2-1)中回归函数f(x1,x2,...,xp)为线性函数时,(2-1)可以表达成:

其中β0,β1,β2,...,βp为未知参数,称为回归系数。线性回归模型的“线性”是指β0,β1,β2,...,βp这些未知参数是线性的。线性回归是回归模型中最重要的部分。一方面是因为线性模型的应用最广泛,另一方面是因为许多非线性的模型可以经过适当的转换化为线性模型进行处理。

对于一个实际问题,如果已经获得了n组观测数据(xi1,xi2,...,xip,yi)(i=1,2,...,n),则线性回归方程可以表示为:

写成矩阵表示就是:

图片

图片

3. 回归模型的基本假设

如果(xi1,xi2,...,xip,yi)(i=1,2,...,n)为变量的一组观测值,则线性回归模型的未知参数可以通过对变量的观察值来进行估计和拟合得到具体数值。为了对模型的参数进行估计,首先需要对回归模型进行基本假设:

(1)解释变量x1,x2,...,xp是确定性的非随机变量,观测值xi1,xi2,...,xip,yi是常数。

(2)等方差及随机误差不相关的假设:

E(εi)=0 i=1,2,...,n,

图片i,j=1,2,...,n。

(3)正态性假设:

εi~N(0,σ2)i=1,2,...,n,ε1,ε2,...,εn相互独立。

(4)样本量的个数多于解释变量的个数,即n>p。

4. 线性回归方程

描述y的期望值依赖于x1,x2,...,xp的线性方程,称为多元线性回归方程。根据回归模型的假定,多元线性回归方程为

多元线性回归方程描述了因变量y的期望与自变量x1,x2,...,xp之间的关系。例如,两个自变量的多元线性回归方程形式为

可以在三维空间中将图像画出来,二元线性回归方程的图像是三维空间中的一个平面,如图2-1所示。

图片

图2-1 二元线性回归方程的直观图

5. 线性回归方程系数的解释

首先以一个实际案例进行说明。

例2.1 建立手机销售量的预测模型时,用y表示手机的销售量,x1表示手机的销售价格,x2表示消费者的可支配收入,则可以建立二元线性回归模型为

图片

对式(2-7)两边取期望得

图片

在式(2-8)中,保持x2不变,为一个常数,则:图片,即β1可以解释为在消费者的可支配收入x2不变的情况下,手机的价格x1每增加一个单位,手机销售量y的平均增加速度。一般来讲,随着手机的价格上升,手机的销售量是减少的,因此β2的符号应该是负的。

在式(2-8)中,如果x1保持不变,为一个常数,则:图片,即β2可以解释为在手机价格x1不变的情况下,消费者的可支配收入x2每增加一个单位,手机销售量y的平均增加速度。一般来讲,随消费者可支配收入的增加,手机的销售量是增加的,因此β2的符号应该是正的。

对一般含有p个自变量的多元线性回归而言,每个回归系数βi表示在回归方程中其他自变量保持不变的情况下,自变量xi每增加一个单位时,因变量y的平均增加程度。多元回归中的回归系数称为偏回归系数,本书中也称为回归系数。

5. 估计的多元线性回归方程

由于回归方程中的参数β0,β1,β2,...,βp是不知道的,需要利用样本数据对它们进行估计。当用样本数据去估计参数时,就得到了估计的回归方程,一般形式为

图片

6. 回归方程的参数估计

回归方程中的参数

图片

一般可以用普通最小二乘法(OLS)、极大似然法(ML)或矩估计(MM)等方法进行估计。Matlab、SPSS、STATA等软件均可以方便地根据样本数据进行未知参数的估计。

本书仅介绍最小二乘估计。也就是使得残差平方和

图片

由此通过微积分求偏导数,可以求出图片

的方程组为

图片

当n≥p+1且X′X为非奇异矩阵时,可以通过普通最小二乘法或极大似然估计的方法进行参数估计,得到:

图片

四、回归方程的拟合优度

回归方程在一定程度上描述了因变量y和自变量x1,x2,...,xp之间的数量关系,根据这一方程中自变量x1,x2,...,xp的取值来估计及预测y的值。其中估计及预测的精度取决于回归方程对观测数据的拟合程度。回归方程与各观测点的接近程度称为回归方程对数据的拟合优度。一般用多重判定系数进行描述。在多元线性回归中,回归平方和占总平方和的比例称为多重判定系数,计算公式为

图片

其中SSR是回归平方和,SST为总平方和,SSE为残差平方和。

在该公式中,当自变量增加时,会使得预测误差变得比较小,从而减少残差平方和。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R2也会增大,为了避免该问题,统计上经常用修正的多重判定系数来代替多重判定系数。修正判定系数的计算公式为

图片

五、回归方程的显著性检验

回归分析的目的是根据建立的估计方程去估计预测y的值。当我们根据样本进行数据拟合时,实际已经假定了自变量x1,x2,...,xp与因变量y之间存在线性关系,并且假定误差项ε服从正态分布,并且是等方差的,但这些假设是否成立需要进行检验。估计的方程只有通过了检验才能用于预测和估计。通常回归方程的检验分成线性关系的检验和回归系数的检验两种。

1. 线性关系检验

就是检验因变量y与p个自变量之间是否存在显著的线性关系,也称为显著性检验。具体步骤:

第一步:提出假设H0:β1=β2=...=βp=0 H1:β1,β2,...,βp至少有一个不为0;

第二步:计算检验的统计量:

图片

第三步:做出统计决策。在给定显著性水平α(通常最常见的α=0.05,常用的还有α=0.1及α=0.01)等)的情况下,根据分子自由度为p,分母自由度为n-p-1,查F分布表得到Fα。若F>Fα,则拒绝原假设;否则不拒绝原假设。一般计算机软件输出的结果都提供P值,可以通过P值进行检验,当P<α时拒绝原假设,否则不拒绝原假设。通常软件默认的α的值为0.05。

只有当检验拒绝了原假设,才能认为因变量y与p个自变量总体之间存在显著的线性关系。此时并不意味着y与每个系数之间都存在着线性关系。要判断每个自变量对因变量y的影响是否显著,则需要对各个回归系数分别进行检验。

2. 回归系数的检验

回归系数检验的具体步骤为:

第一步:提出假设:H0:βi=0 H1:βi≠0(i=1,2,...,p);

第二步:计算检验的统计量:

图片

其中,图片为回归系数分布的标准差,

图片

第三步:做出统计决策。在给定显著性水平α的情况下,根据自由度为n-p-1,查t分布表得到图片。若图片,则拒绝原假设;否则不拒绝原假设。一般计算机软件输出的结果通过P值进行检验,当P<α时拒绝原假设,否则不拒绝原假设。只有拒绝了原假设,才能认为xi的系数βi≠0,即y与xi存在线性关系。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多