第八章相关与回归分析课时安排本章的特点描述统计与推断统计中相关回归分析的差别第一节相关与回归分析 的基本概念(1学时)第二节一元线性回归分析(4学时)第三节多元线性回归分析(2学时)第四节非线性回归分析 (1学时)第五节相关分析(1学时)本章的特点与以往的统计学原理教科书不同,本章从推断统计的角度讲解相关分析与回归分析。 这是因为在有关现实经济和管理问题的定量分析中,作为推断统计的相关分析与回归分析更加具有广泛的应用价值。描述统计与推断统计中相关回 归分析的差别描述统计:不需要对随机误差项作出各种假定,各种参数估计值是具体数值,是对总体存在的相关关系的描述,不存在显著 性检验.推断统计:需要对随机误差项作出各种假定,各种参数估计量是随机变量,抽取的样本不同时,得到的估计值也不同.可以用来 推断总体.需要进行各种检验.第一节相关与回归分析的基本概念一、函数关系与相关关系二、相关关系的种类三、相关分 析与回归分析四、相关表和相关图一、函数关系与相关关系当一个或几个变量取一定的值时,另一个变量有确定值与之相对应 ,称这种关系为确定性的函数关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种 规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。变量之间的函数关系和相关关系,在一定条件下是 可以互相转化的.二、相关关系的种类按相关的程度可分为完全相关、不完全相关和不相关。一般的相关现象是不完全相关。按相关的方向 可分为正相关和负相关。按相关的形式可分为线性相关和非线性相关。按变量多少可分为单相关、复相关和偏相关。一个变量对另一变量的相关 关系,称为单相关。一个变量对两个以上变量的相关关系时,称为复相关。在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变 量的相关关系称为偏相关。按相关的性质可分为“真实相关”和“虚假相关”。判断什么是“真实相关”什么是虚假相关,必须依靠实质性科 学三、相关分析与回归分析相关分析是用一个指标来表明现象间依存关系的密切程度。回归分析是用数学模型近似表达变量间的平均 变化关系。相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量都是随机变量。回归分析必须事先确定具有相关 关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。一定要始终注意 把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。四、相关表和相关图相关表是一种反映变量之间相关关系的统计表。将 某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。相关图又称散点图。它是以直角坐标系 的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。根据表8-2 的资料绘制的相关图如下:第二节一元线性回归分析一、标准的一元线性回归模型二、一元线性回归模型的估计三、一元线性回归模 型的检验四、一元线性回归模型预测一、标准的一元线性回归模型(一)总体回归函数Yt=β1+β2 Xt+ut(8.1)ut是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种 因素对Y的影响。(二)样本回归函数:t=1,2,...ne t称为残差,在概念上,et与总体误差项ut相互对应;n是样本的容量。总体回归线与随机误差项样本回归函数与总体回归函数区别总 体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。总体回归函数中的β1和β2 是未知的参数,表现为常数。而样本回归函数中的是随机变量,其具体数值随所抽取的样本观测值不同而变动。总体回归函数 中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据 样本观测值拟合出样本回归线之后,可以计算出et的具体数值。误差项的标准假定假定1:E(ut)=0假定2: Var(ut)=E()=假定3:Cov(utus)=E(utus)=0t≠s假定4:自变量是给定变 量,与误差项线性无关。假定5:随机误差项服从正态分布。满足以上标准假定的一元线性回归模型,称为标准的一元线性回归模型。二、 一元线性回归模型的估计(一)回归系数的估计最小二乘法设将Q对求偏导数,并令其等于零, 可得:加以整理后有:回归 系数的最小二乘估计量以上方程组称为正规方程组或标准方程组,式中的n是样本容量。求解这一方程组可得:(二)总体方差的估计 上式中,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。在一元线性回归模型中 ,残差et必须满足因而失去了两个自由度,所以其自由度为n-2。S2的正平方根又叫做回归估计的标准误差。残差平方和 计算(三)最小二乘估计量的性质最小二乘估计量是随机变量。在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等 于其真值,即有:E()=β1E()=β2其方差为:Var()= Var()=估计量性质的数学证明(一)线性估计量将Yt=β1+β2Xt+ut代入估计量,得:= ==最小二乘估计 量可表现为所要估计的参数的真值与随机误差项的线性组合推导用的恒等式=0 =Xt= 令最小二乘估计量期望值和方差的推导E()=β2+E(∑wtut)=β2+∑wt E(ut)(根据标准假定4)=β2+∑wt×0(根据标准假定1)=β2 Var()=Var(β2+∑wtut )=E(∑wtut)2= (根据标准假定4、3)=(根据标准假定2) =有效性证明:设= 为任意无偏线性估计量,则有约束条件:按照与上面同样的方法,可推导出Var()=比较Var()与Var( )的大小,有:Var()-Var()=- =) =以上第二步到第三步之所以成立,是因为:而利用前面关于线性无偏估计量的约束条件,可有 :三、一元线性回归模型的检验(一)回归模型检验的种类回归模型的检验包括理论意义检验、一级检验和 二级检验。(二)拟合程度的评价总离差平方和的分解SST=SSR+SSE(8.28)SST是 总离差平方和;SSR是回归平方和;SSE是残差平方和。可决系数:r2==1- (8.30)可决系数的特性(三)显著性检验1.提出假设。2.确定显著水平α。3.计算 回归系数的t值。 =(8.36) 4.确定临界值。双侧检验查t分布表所确定的临界值是(-tα/2)和(tα/2);单侧检验所确定的临界值是(tα)。 5.做出判断。四、一元线性回归模型预测(一)简单回归预测的基本公式: (8.38)回归预测是一种有条件的预测,在进行回归预 测时,必须先给出Xf的具体数值。内插检验或事后预测。外推预测或事前预测。(二)预测误差发生预测误差的原因。预测误差Va r(ef)=σ2(8.42)(三)区间预测Yf的(1-α)的置信区间 为:Yf±tα/2(n-2)×Sef回归预测的置信区间的特点。回归预测的置信区间第三节多 元线性回归分析一、标准的多元线性回归模型二、多元线性回归模型的估计三、多元线性回归模型的检验和预测四、多元线性回 归预测一、标准的多元线性回归模型多元线性回归模型总体回归函数的一般形式 (8.48)多元线性回归模型的样本回归函数 (8.49)多元线性回归分析的 标准假定除了包括上一节中已经提出的的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系。二、多元 线性回归模型的估计(一)回归系数的估计=(X ''X)-1X''Y(8.55)(二)总体方差的估计S2= (8.56)(三)最小二乘估计量的性质标准的多元线性回归模型中,高斯.马尔可夫定理同样成立 。三、多元线性回归模型的检验和预测(一)拟合程度的评价修正自由度的可决系数(理由)。=1- (8.61)=1-(1-R2) (8.62)式中,n是样本容量;k是模型中回归系数的个数。修正自由度的可决系数的特点。 (二)显著性检验1.回归系数的显著性检验t=j=1,2,…,k(8. 63)式中,S是的标准差的估计值。按下式计算:S= (8.64)式中,是(X''X)-1的第j个对角线元素,S2是随机误差项 方差的估计值。(8.63)式的t统计量的原假设是H0:βj=0,因此t的绝对值越大表明βj为0的可能性越小,即表明相应的自变量对因 变量的影响是显著的。2.回归方程的显著性检验具体的方法步骤回归模型方差分析表(3)F统计量 F=四、多元线性回归预测基本公式: (8.66)式中,Xjf(j=2,3,……k)是给定的Xj在预测期的具体数值;是已估计出的样本回归系数; 是Xj给定时Y的预测值。第四节非线性回归分析一、非线性回归分析的意义二、非线性函数形式的确定确定函数形式的原则 实际分析中较常用的几种非线性函数的特点三、非线性回归模型的估计几种线性变换方法实际应用时要注意:第一 、比较复杂的非线性函数,需综合利用上述的几种方法。第二、变换得到的方程式中的变量不允许包含未知的参数。 第三、当变换后的新模型中包含的误差项能够满足标准假定时,新模型中回归系数最小二乘估计量的理想性质才能成立。第四、严格地说 ,线性变换方法只是适用于变量为非线性的函数。第五、并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方 程。第五节相关分析一、单相关系数及其检验二、等级相关系数及其检验四、复相关系数和偏相关系数六、相关指数 一、单相关系数及其检验(一)相关系数的定义r= (8.86)样本相关系数的定义还可从另一个角度给出。设Y倚X和X倚Y的样本 回归方程为:(8.87)(8.88)样本相关系数可定义为样 本回归系数的乘积的开方,即:r=±(8.89)上式中r的符号应与回归系数的符号一 致。(二)相关系数与可决系数简单线性回归模型中相关系数r的平方等于可决系数r2。样本相关系数的特点:(三)单相 关系数的检验二、等级相关系数及其检验(一)等级相关系数的定义和计算rs= (8.92)式中, ,和分别是两个变量按大小(或优劣)排位的等级,n是样本的容量。推导通常的单相关系数为:rs= i=1,2,……n(9.121) 注意到和是等级变量,其可能的取值范围均为:1,2,3,……,n。利用有关数列求和的公式可得:
(9.122) (9.123) (9.124) (9.125)
= =整理后,可得: (9.126)将(9.124)、(9.125)和(9.126)式代入(9.121)式,便可导出等级相关系数的计算 公式(9.120)式。(二)等级相关系数检验四、复相关系数和偏相关系数(一)复相关系数R= (8.94)实际计算复相关系数 时,一般是先计算出可决系数,然后再求可决系数的平方根。复相关系数只取正值。(二)偏相关系数计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量之间可能产生的影响,一方面又用一定的方法控制其他变量,专门考察两个特定变量的净相关关系。偏相关系数与单相关系数数值上可能相差很大,甚至符号都可能相反。(三)样本偏相关系数的定义偏相关系数等于两个相应偏回归系数的几何平均数。设有3个变量X1、X2和X3。3个变量各自以另两个变量为自变量拟合的样本回归方程如下3个变量之间的偏相关系数可定义如下:六、相关指数相关指数,也就是对非线性回归模型进行拟合时所得到的可决系数。对相关指数进行显著性检验的方法与对复相关系数进行检验的方法类似。SST=总离差平方和SSE/(n-k)n-kSSE=残差平方和SSR/(k-1)k-1SSR=回归平方和方差自由度平方和离差名称E(Yt)=β1+β2XtXYtY。。。。。utS2==0;=0证明:一般采用以下公式计算残差平方和: |
|