来源:本文授权转载自数量经济学 本文包括静态与动态面板数据处理方法,包含hausman检验,固定效应检验,随机效应检验,异方差检验、相关检验,面板logit与面板probit模型、面板泊松模型、面板负二项模型等众多干货内容,欢迎阅读。 本文目录 一、静态面板数据 ●数据处理 ●模型的筛选和检验 1、检验个体效应(混合效应还是固定效应) 2、检验时间效应(混合效应还是随机效应) 3、检验固定效应模型or随机效应模型 (检验方法:Hausman检验) ●模型的筛选和检验 1、固定效应估计 2、随机效应估计省略 3、时间固定效应(以上分析主要针对的是个体效应) ●异方差和自相关检验 1、异方差检验 (组间异方差) 2、序列相关检验 3、“异方差—序列相关”稳健型标准误 4、截面相关检验 5、“异方差—序列相关—截面相关”稳健型标准误 二、动态面板数据 三、面板logit与面板probit模型 四、面板泊松模型 五、面板负二项模型 六、面板Tobit模型 七、面板工具变量法 八、面板随机前沿模型 一.静态面板数据的STATA处理命令 (一)数据处理 输入数据 use 'E:\stata\data\FDI.dta', clear tsset code year 该命令是将数据定义为“面板”形式 xtdes 该命令是了解面板数据结构 summarize lngdp lnfdi lnie lnex lnim lnci lngp 各变量的描述性统计(统计分析) 拓展命令: gen lag_y=L.y 产生一个滞后一期的新变量 gen F_y=F.y 产生一个超前项的新变量 gen D_y=D.y 产生一个一阶差分的新变量 gen D2_y=D2.y 产生一个二阶差分的新变量 (二)模型的筛选和检验 1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型) xtreg lngdp lnfdi lnie lnex lnim lnci lngp,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量) (原假设:使用OLS混合模型) qui xtreg lngdp lnfdi lnie lnex lnim lnci lngp,re (加上“qui”之后第一幅图将不会呈现) xttest0 可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 3、检验固定效应模型or随机效应模型 (检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 xtreg lngdp lnfdi lnie lnex lnim lnci lngp,re est store re xtreg lngdp lnfdi lnie lnex lnim lnci lngp,fe est store fe hausman fe re (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法或者使用固定效应模型。 (三)静态面板数据模型估计 1、固定效应模型估计 其中选项fe表明我们采用的是固定效应模型,表头部分的前两行呈现了模型的估计方法、界面变量的名称(id)、以及估计中使用的样本数目和个体的数目。第3行到第5行列示了模型的拟合优度、分为组内、组间和样本总体三个层面,通常情况下,关注的是组内(within),第6行和第7行分别列示了针对模型中所有非常数变量执行联合检验得到的F统计量和相应的P值,可以看出,参数整体上相当显著。需要注意的是,表中最后一行列示了检验固定效应是否显著的F统计量和相应的P值。显然,本例中固定效应非常显著。 2、随机效应估计省略 3、时间固定效应(以上分析主要针对的是个体效应) 如果希望进一步在上述模型中加入时间效应,可以采用时间虚拟变量来实现。首先,我们需要定义一下T-1个时间虚拟变量。 tab year ,gen(dumt) (tab命令用于列示变量year的组类别,选项gen(dumt)用于生产一个以dumt开头的年度虚拟变量) drop dumt1 (作用在于去掉第一个虚拟变量以避免完全共线性) 若在固定效应模型中加入时间虚拟变量,则估计模型的命令为: xtreg lngdp lnfdi lnie lnex lnim lnci lngp dumt*,fe (四)异方差和自相关检验 1、异方差检验 (组间异方差)本节主要针对的是固定效应模型进行处理 1)检验 原假设:同方差,需要检验模型中是否存在组间异方差,需要使用xttest3命令。 qui xtreg lngdp lnfdi lnie lnex lnim lnci lngp ,fe xttest3 显然,原假设被拒绝。此时,需要进一步以获得参数的GLS估计量,命令为xtgls: xtgls lngdp lnfdi lnie lnex lnim lnci lngp,panels(heteroskedastic) 其中,组间异方差通过panels()选项来设定。上述结果是采用两步获得,即,先采用OLS估计不考虑异方差的模型,进而利用其残差计算。并最终得到FGLS估计量。 2、序列相关检验 对于T较大的面板而言,往往无法完全反映时序相关性,此时便可能存在序列相关,在多数情况下被设定为AR(1)过程。 原假设:序列不存在相关性。 (1) FE模型的序列相关检验 对于固定效应模型,可以采用Wooldridge检验法,命令为xtserial: xtserial lngdp lnfdi lnie lnex lnim lnci lngp (2) RE模型的序列相关检验 对于RE模型,可以采用xttest1命令来执行检验: qui xtreg lngdp lnfdi lnie lnex lnim lnci lngp dumt*,re xttest1 这里汇报了4个统计量,分别用于检验RE模型中随机效应(单尾和双尾)、序列相关以及二者的联合显著性,检验结果表明存在随机效应和序列相关,而且对随机效应和序列相关的联合检验也非常显著。 (3) 稳健型估计 上述结果表明,无论是FE还是RE模型,干扰项中都存在显著的序列相关。为此,我们进一步采用xtregar命令来估计模型,首先考虑固定效应模型: xtregar lngdp lnfdi lnie lnex lnim lnci lngp dumt*,fe lbi 3、“异方差—序列相关”稳健型标准误 虽然上述估计方法在估计方差-协方差矩阵时考虑了异方差和序列相关的影响,但都未将两者联立在一起考虑,要获得“异方差-序列相关”稳健型标准误,只需在xtreg命令中附加vce(robust)或者vce(cluster)选项即可。例如,对于FE模型,我们可以执行如下命令: xtreg lngdp lnfdi lnie lnex lnim lnci lngp,fe vce(robust) 与之前未经处理的估计结果相比,附加命令vce(robust)选项时的结果,虽然系数的估计值未发生变化,但此时得到的标准误明显增大了,致使得到的估计结果更加保守。对于面板数据模型而言,STATA在计算所谓的“robust”标准误时,是以个体为单位调整标准误的。因此,我们得到的“robust”标准误其实是同时调整了异方差和序列相关后的标准误。换言之,上述结果与设定vce(cluster)选项的结果完全相同。 4、截面相关检验 原假设:截面之间不存在着相关性 (1)FE模型检验 对于FE模型,可以利用xttest2命令来检验截面相关性: qui xtreg lngdp lnfdi lnie lnex lnim lnci lngp,fe xttest2 (该命令主要针对的是大T小N类型的面板数据,在本例中无法使用,故图标略去。) (2)RE模型检验 对于RE模型,可以利用xtcsd命令来检验截面相关性: qui xtreg lngdp lnfdi lnie lnex lnim lnci lngp,re xtcsd,pesaran (下面命令是另一个检验指标) xtcsd,frees 可以看出,两种不同的检验方法均显示面板数据存在着截面相关性。 5、“异方差—序列相关—截面相关”稳健型标准误 1)FE模型估计 对于FE模型,在确认上述存在着截面相关的情况下,我们可以采用Hoechle(2007)编写的xtscc命令获取Driscoll and Kraay(1998)提出的“异方差—序列相关—截面相关”稳健型标准误: xtscc lngdp lnfdi lnie lnex lnim lnci lngp,fe 这里,xtscc命令会自动选择的滞后阶数为2,系数估计值和Within-R2与xtreg,fe的结果完全相同,但标准误存在着较大差异。可见,在本例中,截面相关对统计推断有较大的影响。 若读者有跟高的方法来确定自相关的滞后阶数,则可以通过lag( )选项设定。当然,在多数情况下,这很难做到。不过我们可以通过附加lag(0)来估计仅考虑异方差和截面相关的稳健型标准误,命令如下: xtscc lngdp lnfdi lnie lnex lnim lnci lngp,fe lag(0) (2) RE模型估计(略,待补充) 二.动态面板数据的STATA处理命令 (一)差分GMM xtabond Setup webuse abdata Basic model with two lags of dependent variable included as regressors xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) vce(robust) xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) twostep Treat w and k as predetermined and include w, L.w, k, L.k, and L2.k as additional regressors xtabond n l(0/2).ys yr1980-yr1984, lags(2) pre(w, lag(1,.)) pre(k, lag(2,.)) Treat L.w and L2.k as endogenous and include w, L.w, k, L.k, and L2.k as additional regressors xtabond n l(0/2).ys yr1980-yr1984, lags(2) endogenous(w, lag(1,.)) endogenous(k, lag(2,.)) (二)系统GMM Setup webuse abdata Basic model with strictly exogenous covariates and two lags of the dependent variable xtdpdsys n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) Same model with a robust VCE xtdpdsys n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) vce(robust) Two-step estimator of the same model xtdpdsys n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) twostep vce(robust) Now allow some of the covariates to be predetermined xtdpdsys n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) twostep pre(w, lag(1,.)) pre(k,lag(2,.)) Now allow some of the covariates to be endogenous xtdpdsys n l(0/1).ys yr1980-yr1984, lags(2) twostep endogenous(w, lag(1,.)) endogenous(k,lag(2,.)) (三)内生性检验 estat sargan 三.logit与probit模型 对于面板数据,如果被解释变量为离散变量或者虚拟变量时,使用离散选择模型,也就是面板二值选择模型。以二值选择(被解释变量取值为0或1)为例,当被解释变量取1的概率为标准正态分布时,使用probit模型;当被解释变量取1的概率为logistic分布时,使用logit模型。 面板二值选择模型固定效应 xtprobit y x1 x2 x3,fe xtlogit y x1 x2 x3,fe 面板二值选择模型随机效应 Random-effects (RE) model xtprobit depvar [indepvars] [if] [in] [weight] [, re RE_options] Random-effects (RE) model xtlogit depvar [indepvars] [if] [in] [weight] [, re RE_options] 案例讲解: Setup webuse union Random-effects logit model xtlogit union age grade i.not_smsa south##c.year Fixed-effects logit model xtlogit union age grade i.not_smsa south##c.year, fe Hausman检验 hausman fe re 四.面板泊松模型 面板泊松模型命令为xtpoisson,语法格式为: Random-effects (RE) model xtpoisson depvar [indepvars] [if] [in] [weight] [, re RE_options] Random-effects model xtpoisson accident op_75_79 co_65_69 co_70_74 co_75_79, exposure(service) irr Fixed-effects model xtpoisson accident op_75_79 co_65_69 co_70_74 co_75_79, exposure(service) irr fe 五.面板负二项模型 面板负二项模型模型命令为xtnbreg,语法格式为: Syntax Random-effects (RE) and conditional fixed-effects (FE) overdispersion models xtnbreg depvar [indepvars] [if] [in] [weight] [, [re|fe] RE/FE_options] Population-averaged (PA) model xtnbreg depvar [indepvars] [if] [in] [weight], pa [PA_options] 案例介绍为: Setup webuse airacc Random-effects model xtnbreg i_cnt inprog, exposure(pmiles) irr 其中,默认的为re随机效应,而irr表示汇报发生率比 Fixed-effects model xtnbreg i_cnt inprog, exposure(pmiles) irr fe 六.面板Tobit模型 面板Tobit模型模型命令为xttobit,语法格式为: xttobit depvar [indepvars] [if] [in] [weight] [, options] 其中depvar :被解释变量。indepvars :解释变量。noconstant :不含截距项。ll[(varname|#)] :左删失变量。ul[(varname|#)] :右删失变量。vce(vcetype) :参数估计量方差协方差矩阵一致估计 格式为: xttobit y x1 x2 x3, ll(#) ul(#) tobit 其中ll(#)表示下限, ul(#) 表示上限, tobit表示对原假设进行LR检验。 webuse nlswork3 xtset idcode xttobit ln_wage union age grade not_smsa south##c.year, ul(1.9) 七.面板工具变量法 面板工具变量法命令为xtivreg webuse nlswork 固定效应估计 xtivreg ln_w age c.age#c.age not_smsa (tenure = union south), fe 随机效应GLS模型 xtivreg ln_w age c.age#c.age not_smsa 2.race (tenure = union birth south), re 八.面板随机前沿模型 面板随机前沿模型命令为xtfrontier,语法格式为: xtfrontier depvar [indepvars] [if] [in] [weight] , ti [ti_options] 选项 depvar表示被解释变量, indepvars表示解释变量,noconstant 不含截距项。ti :表示估计技术效率不随时点变化的随机效应模型,vce(vcetype) :参数估计量方差协方差矩阵一致估计,tvd表示估计随机效应的时变衰减模型。 下面以系统自带的 xtfrontier1数据为例进行随机效应模型的分析,该数据变量为machines表示资本,workers 表示劳动力,lnwidgets表示产量对数,lnmachines、lnworkers分别表示资产和劳动力取完对数。 Time-invariant model xtfrontier lnwidgets lnmachines lnworkers, ti Time-varying decay model xtfrontier lnwidgets lnmachines lnworkers, tvd Time-varying decay model with a constraint constraint 1 [eta]_cons = 0 xtfrontier lnwidgets lnmachines lnworkers, tvd constraints(1) |
|