回归分析不可不知的关键词和统计量

geoallan 2019-09-06

展开全文

“爱数据学习社”订阅我吧!-

回归分析关键词

1、回归（regression）：发生倒退或表现倒退；常指趋于接近或退回到中间状态。在线性回归中，回归指各个观察值都围绕、靠近估计直线的现象。

2、多元回归模型（multiple regression model）：包含多个自变量的回归模型，用于分析一个因变量与多个自变量之间的关系。它与一元回归模型的区别在于，多元回归模型体现了统计控制的思想。

3、因变量（dependent variable）：也称为依变量或结果变量，它随着自变量的变化而变化。从试验设计角度来讲，因变量也就是被试的反应变量，它是自变量造成的结果，是主试观测或测量的行为变量。

4、自变量（independent variable）：在一项研究中被假定作为原因的变量，能够预测其他变量的值，并且在数值或属性上可以改变。

5、随机变量（random variable）：即随机事件的数量表现。这种变量在不同的条件下由于偶然因素影响，可能取各种不同的值，具有不确定性和随机性，但这些取值落在某个范围的概率是一定的。

6、连续变量（continuous variable）：在一定区间内可以任意取值的变量，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值，比如身高、体重等。

7、名义变量（nominal variable）：本身的编码不包含任何具有实际意义的数量关系，变量值之间不存在大小、加减或乘除的运算关系。

8、截距（intercept）：函数与y坐标轴的相交点，即回归方程中的常数项。

9、斜率（slope）：即回归方程中各自变量的系数。它表示自变量一个单位的变化所引起的因变量的变化量，如果是线性模型，则在坐标图上表现为两个变量拟合直线之斜率。

10、偏效应（partial effect）：在控制其他变量的情况下，或者说在其他条件相同的情况下，各自变量X对因变量Y的净效应（net effect）或独特效应（unique effect）。

11、效应幅度（size of effect）：指反映变量作用大小的具体数值。一个变量的系数可能在统计上显著地区别于0，但是该系数的值却不大，即效应幅度很小，从而不具有很大的实质性意义。

12、拟合优度（goodness of fit）：指回归模型对观察数据的概括拟合程度，反映的是模型的效率，即模型在多大程度上解释了因变量的变化。

13、误差（error）：指可以避免或不可避免的观测值和真实值之间的差。

14、预测值（predicted values）：通过根据估计的回归模型代入解释变量观察值后计算得到的因变量值。

15、总平方和（sum of squares total）：即因变量观察值与其平均值的离差平方和，是需要解释的因变量的变异总量。

16、残差平方和（sum of squares error）：因变量观察值与对应的回归模型预测值的离差平方和。是观察值落在回归线（面）之外而引起的，是模型中各自变量对因变量线性影响之外的其他因素对因变量总平方和的影响。

17、回归平方和（sum of squares regression）：通过回归模型计算得到的因变量预测值与因变量观察值的均值的离差平方和。这是由自变量变化引起的，是回归模型所解释的部分。

18、均方（mean square）：离差平方和除以相应的自由度即可得到均方。在回归分析中，研究者感兴趣的是回归均方（mean square regression，简写为MSR）和均方误（mean square error，简写为MSE）。

19、判定系数（coefficient of determination）：回归平方和占总平方和的比例，记为R2。通常把它理解为回归方程解释掉的平方和占其总平方和的比例。判定系数被用来作为对方程拟合优度进行测量的指标，取值在[0，1]之间，值越大表明回归方程的解释能力越强。

20、判定系数增量（increamental R2）：在原有回归模型基础上，通过加入新的自变量所带来的判定系数的增加量。

21、嵌套模型（nested models）：如果一个模型（模型一）中的自变量为另一个模型（模型二）中自变量的子集或子集的线性组合，我们就称这两个模型是嵌套模型。模型一称为限制性模型（restricted model），模型二称为非限制性模型（unrestricted model）。限制性模型嵌套于非限制性模型中。

22、虚拟编码（dummy coding）：依据名义变量各类别对其进行重新编码从而令其能够作为自变量纳入回归方程的编码方式。对于一个包含J个类别的名义变量，理论上可以得到J个取值为0或1的虚拟变量，但在回归分析中，通常只建构J-1个虚拟变量”。每一虚拟变量对应着原名义变量的一个类别，如果属于该类别则虚拟变量取值为1，否则取值为0。

23、虚拟变量（dummy variable）：也称作指示变量（indicator），取值为0或1的变量，故也被称作0-1变量。

24、二分变量（dichotomous variable）：即只有两种可能取值的变量，如性别。

25、参照组（reference group）：被排除出回归模型的那个虚拟变量所对应的类别，亦即所有虚拟变量取值全部为零的类别。

26、交互项（interaction term）:在操作上，交互项就是两个或多个（一般不多于三个）自变量的乘积。在回归模型中引入交互项后，参与构造交互项的各自变量对因变量的作用依赖于交互项中其他自变量的取值。

27、交互效应（interaction effect）：也称为调节效应或条件效应，指一个自变量对因变量的效应依赖于另一个自变量的取值。回归分析中通常设定相应的交互项来探究某个自变量的条件效应。

28、常规最小二乘法（ordinaryleast squares，OLS）

：线性回归中求解参数的常用方法。该方法的基本思路为：根据从总体中随机抽出的一个样本，在平面直角坐标系中找到一条直线，使得观测值和拟合值之间的距离最短，即两者之间残差的平方和最小。

29、线性（linearity）：指自变量与因变量之间的关系为单调的一次函数关系，因变量取值随着自变量而变化的速率不随自变量取值的大小不同而存在差异。另外，线性也指回归分析中因变量为各回归系数的线性组合。

30、无偏性（unbiasedness）：当样本统计量的期望值等于总体真值时，该统计量具有无偏性。无偏性是选择估计量的首要标准。

31、偏误（bias）：统计估计中的估计值和真实值之间的差。

32、忽略变量偏误（omitted variable bias）：回归模型设定中，由于忽略了某些本该纳入却未纳入的相关自变量，而该自变量又与模型中其他自变量存在相关，导致回归参数估计值存在一定的误差，则这一误差被称作忽略变量偏误。偏误的方向取决于被忽略变量对因变量效应的方向以及该自变量与已纳入模型中自变量之间关系的方向；而偏误的大小则直接取决于该忽略自变量对因变量的效应的大小以及与模型中其他自变量之间的相关关系的强弱，它们之间的相关性越强，则忽略变量偏误越大。

33、相关条件（correlation condition）：判断回归模型中存在忽略变量偏误的条件之一，指的是被忽略的自变量与已纳入模型中的关键自变量之间相关。

34、有关条件（relevance condition）：判断回归模型中存在忽略变量偏误的条件之一，指的是被忽略的自变量会影响因变量。

35、有效性（efficiency）：对总体参数进行估计时，在所有可能得到的无偏估计量中，抽样分布方差最小的无偏估计量，就具有有效性，是选择估计量的另一个标准。

36、独立同分布假定（assumption ofindependent identical distributed errors）：或称i.i.d.假定，假定一般线性模型中的随机误差项独立（彼此独立且独立于自变量）并且服从零均值等方差的同质性分布。

37、一致性（consistency）：是选择估计量的第三个标准。一致性表达的是，估计量以概率方式收敛于参数真值。

38、最佳线性无偏估计（best linear unbiasedestimator）：在满足所需假定条件的情况下，回归参数的常规最小二乘估计是所有无偏线性估计中方差最小的，因此，将其称作最佳线性无偏估计。

39、近似多重共线性（approximatemulticollinearity）：当数据矩阵中一个或几个自变量列向量可以近似表示成其他自变量列向量的线性组合时，就会出现近似多重共线性问题。此时，模型仍是可以估计的，只是参数估计值的标准误值过大，从而会造成统计检验和推论的不可靠。

40、完全多重共线性（perfectmulticollinearity）：当数据矩阵中一个或几个自变量列向量可以表示成其他自变量列向量的线性组合时，自变量矩阵X’X会严格不可逆，就出现了完全多重共线性。当发生完全多重共线性时，直接导致模型参数无解，即出现模型识别问题。

41、复相关系数（multiple correlation coefficient）：度量复相关程度的指标。它是一个变量同时与数个变量之间的相关程度，可利用单相关系数和偏相关系数求得。复相关系数越大，表明变量之间的线性相关程度越高。

42、容许度（tolerance）：回归分析中反映自变量之间存在多重共线性程度的统计量之一。对每一个变量，定义容许度为1减去模型中其他自变量之间的复相关系数。显然，当容许度越小，越接近０时，多重共线性就越严重。当容许度严格等于０时，也就是复相关系数严格等于１时，就意味着完全多重共线性的存在。

43、方差膨胀因子（variance inflation factor）：回归分析中反映自变量之间存在多重共线性程度的统计量之一，它等于容许度的倒数。对于某个自变量，其方差膨胀因子可定义为容许度的倒数。

回归分析统计量

1、回归系数：注意回归系数的正负要符合理论和实际。截距项的回归系数无论是否通过T检验都没有实际的经济意义。

2、回归系数的标准差：标准误差越大，回归系数的估计值越不可靠，这可以通过T值的计算公式可知（自查）。

3、T检验：用于检验系数是否为零。通过查表可以得到相应的临界值：如果该值大于临界值，则该系数在相应的显著水平上是可靠的；如果该值小于临界值，则系数在相应显著水平上是不显著的。

4、P值：P值为理论T值超越样本T值的概率，应该联系显著性水平α相比，α表示原假设成立的前提下，理论T值超过样本T值的概率，当P值<α值，说明这种结果实际出现的概率的概率比在原假设成立的前提下这种结果出现的可能性还小但它偏偏出现了，因此拒绝接受原假设。

5、可决系数（R-squared）：表示回归的拟合程度，就是被解释变量被所有解释变量解释的部分。R方的取值范围在0到1之间：如果R方等于零，则表示该回归并不比被解释变量的简单平均数预测的更好；如果R方等于1，则表示该回归拟合的最为完美。

6、调整后的可决系数：即经自由度修正后的可决系数，从计算公式可知调整后的可决系数小于可决系数，并且可决系数可能为负，此时说明模型极不可靠。随着解释变量的增加，R方只会增加而不会减少。为对增加的解释变量进行“惩罚”，对R方进行调整

7、回归残差的标准误：残差的经自由度修正后的标准差，OLS的实质其实就是使得均方差最小化，而均方差与此的区别就是没有经过自由度修正。

8、对数似然估计函数值：首先，理解极大似然估计法。极大似然估计法虽然没有OLS运用广泛，但它是一个具有更强理论性质的点估计方法。极大似然估计的出发点是已知被观测现象的分布，但不知道其参数。极大似然法用得到观测值（样本）最高概率（离散分布以概率聚集函数表示，连续分布以概率密度函数表示。因为要使得样本中所有样本点都出现，假定抽样是随机的则各个样本点的是独立同分布的，所以最后总的概率表现为概率聚集函数或者概率密度函数的连乘形式，称之为似然函数。要取最大概率，即将似然函数对未知参数求导令导数等于0即可获得极大似然函数。一般为简化函数的处理过程都会对似然函数进行对数化处理，这样最后得到的极大似然函数就称之为对数极大似然函数）的那些参数的值来估计该分布的参数，从而提供一种用于估计刻画一个分布的一组参数的方法。

其次，理解对数似然估计函数值。对数似然估计函数值一般取负值，实际值（不是绝对值）越大越好。第一，基本推理。对于似然函数，如果是离散分布，最后得到的数值直接就是概率，取值区间为0-1，对数化之后的值就是负数了；如果是连续变量，因为概率密度函数的取值区间并不局限于0-1，所以最后得到的似然函数值不是概率而只是概率密度函数值，这样对数化之后的正负就不确定了。第二，Eviews的计算公式解释。公式值的大小关键取之于残差平方和（以及样本容量），只有当残差平方和与样本容量的比之很小时，括号内的值才可能为负，从而公式值为正，这时说明参数拟合效度很高；反之公式值为负，但其绝对值越小表示残差平方和越小，因而参数拟合效度越高。

9、DW检验值：DW统计量用于检验序列的自相关，公式就是测度残差序列与残差的滞后一期序列之间的差异大小，经过推导可以得出DW值与两者相关系数的等式关系，因而很容易判断。DW值的取值区间为0-4，当DW值很小时（大致<1）表明序列可能存在正自相关；当DW值很大时（大致>3）表明序列可能存在负自相关；当DW值在2附近时（大致在1.5到2.5之间）表明序列无自相关；其余的取值区间表明无法确定序列是否存在自相关。当然，DW具体的临界值还需要根据样本容量和解释变量的个数通过查表来确定。

DW值并不是一个很适用的检验手段，因为它存在苛刻的假设条件：解释变量为非随机的；随机扰动项为一阶自回归形式；解释变量不能包含滞后的被解释变量；必须有截距项；数据无缺失值。当然，可以通过DW-h检验来检验包含滞后被解释变量作为解释变量的序列是否存在自相关。h统计量与滞后被解释变量的回归系数的方差呈正相关关系，可以消除其影响。

10、被解释变量的样本均值：被解释变量的样本均值（MeanDependent Var）

11、被解释变量的样本标准误差：被解释变量的样本标准误差（S.D.Dependent Var）

12、赤池信息准则（AIC）：AIC和SC在时间序列分析过程中的滞后阶数确定过程中非常重要，一般是越小越好。

一般理解：根据AIC的计算公式（-2*L/N+2*k/N，L为对数似然估计函数值，k为滞后阶数，N为样本容量）可知：当滞后阶数小时，2*k/N小，但因为模型的模拟效果会比较差所以L（负值）会比较小，加上负号之后则变得较大，因此最后的AIC有可能较大；当滞后阶数大时，模型的模拟效果会比较好所以L（负值）会比较大，加上负号之后则变得较小，但是2*k/N过大（损失自由度的代价），因此最后的AIC也有可能较大。综上，AIC较小意味着滞后阶数较为合适。

13、施瓦茨信息准则（SC）：与AIC没有任何本质区别，只是加入样本容量的对数值以修正损失自由度的代价。

14、F统计量（F-statistic）：F统计量考量的是所有解释变量整体的显著性，所以F检验通过并不代表每个解释变量的t值都通过检验。当然，对于一元线性回归，T检验与F检验是等价的。

15、prob（F-statistic）：F统计量的P值，一切的P值都是同样的实质意义。

回归模型残差检验

回归模型估计完毕后，通常研究者会对模型估计的残差进行检验，通过回归残差的性质来判断模型估计的效果。常用的检验有：Q检验和LM检验用来判断残差是否违背无相关假定、异方差检验用来判断残差是否违背同方差假定、正态性检验用于判断残差的分布。检验的一般程序（适用于绝大部分统计量检验）是计算相关统计量的原假设成立的概率P值，如果该概率P值小于某个设定显著水平（通常为5%）,则拒绝原假设，认为备择假设成立；反之，则不能拒绝原假设。

残差自相关的Q检验：

检验目的：Q统计量的全称是Ljung-Box Q，该统计量一般用于检验序列是否存在自相关。检验假设：该统计量的原假设H0为：残差序列不存在自相关；备择假设H1为：残差序列存在自相关。

残差自相关的LM检验：

LM检验是Breush-Godfrey Lagrange Multiplier的简称，主要用于检验残差序列是否存在高阶自相关的重要假设。该统计量的计算首先必须利用OLS估计出原模型的残差序列u；然后以u为被解释变量，以u的1到P阶滞后项为解释变量再次进行回归，同时记录该回归的拟合优度R方。LM检验统计量的原假设为H0为：残差序列直到P阶不存在自相关；备择假设H1为：残差序列P阶内存在自相关。

残差的正态性检验：

检验目的：Histogram-Normality Test检验主要是通过计算JB统计量实现的，JB统计量用来检验序列观测值是否服从正态分布，在零假设下，JB统计量服从χ2(2)分布。检验假设：该检验的原假设H0为：样本残差服从正态分布。备择假设H1为：残差序列不服从正态分布。

残差的异方差检验：

检验目的：由于最小二乘方法是建立在残差同方差假设基础上的，一旦出现异方差就说明OLS方法就不可靠了，需要利用加权最小二乘方法进行纠正。异方差检验是利用辅助回归的方法进行的，该统计量服从卡方分布。检验假设：怀特异方差检验的原假设H0为：残差序列不存在异方差。备择假设H1为：残差序列存在异方差。

回归分析不可不知的关键词和统计量