分享

重磅!Stata 15的新模块(二):空间计量分析(续)

 张春强2022 2017-07-09

Prof. Lung-fei Lee (李龙飞)

Ohio State University


不久前,Stata 公司发布了最新的 Stata 15,包含了许多令人激动的重大升级,包括非参数回归、空间计量、门槛回归、DSGE 模型等。本公众号将陆续为你介绍,与计量经济学最为相关的几个全新模块。


(接上期推文)


初步检验空间效应


在 Stata 15 中定义好空间权重矩阵  后,即可进行初步的空间效应检验。基本方法就是,计算莫兰 I 指数(Moran's I,本质上为空间自相关系数),然后考察其显著性。


为此,先进行 OLS 回归,比如:


reg y x1 x2 x3


其中,y 为被解释变量,x1,x2 与 x3 为解释变量。然后,使用以下命令计算上述 OLS 回归残差的莫兰 I 指数,并检验其显著性。


estat moran, errorlag(W)


其中,必选项 errorlag(W) 用于指定空间权重矩阵 (莫兰指数的定义依赖于空间权重矩阵 ),以检验残差(error)是否具有空间滞后(spatial lag)效应。如果莫兰指数(空间自相关系数)显著不为 0,则说明存在空间效应,须进一步进行空间计量分析;反之,则或许没有必要。


在上述 OLS 回归中,也可以将自变量都去掉,只对常数项回归:


reg y 

estat moran, errorlag(W)


此时,就是检验被解释变量  本身是否存在空间自相关(spatial autocorrelation)。


空间自回归模型


空间计量的不少术语都源于时间序列。比如,空间数据也称为 “空间序列”(spatial series),即分布于空间的序列。


进一步,最常见的时间序列模型为自回归模型,比如 AR(1),即  依赖于它的一阶滞后(邻居)。类似地,可以考虑空间序列的自回归模型(Spatial Autoregression,简记 SAR),即  依赖于其一阶空间滞后(邻居)的 (比如,某地区的犯罪率依赖于其相邻地区的犯罪率),可写为向量形式:

 


其中,  为  的空间滞后(邻居),而参数  即为空间自回归系数(spatial autoregressive coefficient),是空间计量分析首要感兴趣的参数; 为扰动项。


如果参数  不显著( ),则表明不存在空间效应,上式简化为一般的线性回归模型:


另一方面,某地区的 (比如犯罪率)也可能依赖于其相邻地区的  (比如,警察人数)。为此,考虑以下模型:

 


其中, 为  的空间滞后,而  为相应的系数向量。


空间误差模型


空间效应的另一表现形式是,影响某地区  的扰动项(外生冲击、遗漏变量等)也可能存在空间相关性,即依赖于其相邻地区的扰动项。


为此,假设线性回归模型  的误差项  存在空间自回归,可得 “空间误差模型” (Spatial Errors Model,简记 SEM):


 

其中, 为误差项  的空间滞后(空间权重矩阵  可以等于 ),而  为相应的空间自回归系数。


将上述空间自回归模型(SAR)与空间误差模型(SEM)相结合,可得到更一般的 SARAR模型 ( 即 Spatial Autoregressive Model with Spatial Autoregressive Disturbances):


 


其中, 误差项  。


SARAR模型的估计


不难看出,上述 SARAR 模型事实上为联立方程组,因为  同时出现在回归方程的左边与右边,故存在 “联立方程偏差”(simultaneity bias),导致 OLS 估计不一致。


早期的空间计量方法主要为 MLE,即在独立同分布(iid)与正态分布的假定下,进行最大似然估计。MLE 的优点在于,如果数据确实为 iid 且正态,则 MLE 是最有效率的估计量。然而,如果数据不是 iid(比如存在异方差),则 SARAR模型的MLE 估计就不一致,故 MLE 的稳健性较差。


更为稳健的主流方法为工具变量法,即所谓 “广义空间二段最小二乘法” (Generalized Spatial Two-stage Least Square,简记 GS2SLS)。 GS2SLS 的优点在于,即使在异方差与非正态分布的情况下,依然是一致估计。


正如在时间序列或面板数据中经常使用滞后变量(lagged variables)作为工具变量,在空间数据中也可使用空间滞后(spatial lag)作为工具变量,比如,


 

其中,  为  的一阶邻居,而   的二阶邻居(即邻居的邻居),以此类推。一般默认使用至二阶邻居,即  


利用这些工具变量,使用 2SLS 即可得到一致估计。然而,由于空间自相关的存在,扰动项并非球形扰动项,故 2SLS 不是最有效率的。GS2SLS 估计在进行 2SLS 之后,还进行了在空间上的广义最小二乘法(GLS),具体来说为空间上的 Cochrane-Orcutt 变换(此变换常用于处理时间序列中的自相关),以得到最有效率的估计。


空间自回归的Stata命令


对于横截面数据,估计上述 SARAR 模型的命令为:


spregress y x1 x2 x3, ml gs2sls dvarlag(W) errorlag(W) ivarlag(W: x1 x2) robust


其中,选择项 ml 表示进行 MLE 估计,而选择项 gs2sls 表示进行 GS2SLS 估计,这两个选择项二选一。选择项 robust 表示使用稳健标准误。


选择项 dvarlag(W) 用于指定被解释变量(dependent variable)的空间权重矩阵,而选择项 errorlag(W) 用于指定误差项(error term)的空间权重矩阵。


选择项 ivarlag(W: x1 x2) 用于指定自变量(independent variable)的空间权重矩阵。其中,选择项 ivarlag(W: x1 x2) 中的 “x1 x2” 表示考虑 x1与 x2 的空间滞后效应,但不考虑 x3 的空间滞后效应。


如果存在除  以外的内生变量,还可进行更一般的工具变量法估计。Stata 15 的相应命令为:


spivregress y x1 x2 x3 (x4 = z1 z2), ml gs2sls dvarlag(W) errorlag(W) ivarlag(W: x1 x2) 


其中,y 为被解释变量,x1, x2, x3 为外生解释变量,x4 为内生解释变量,而 z1与 z2 为工具变量。命令 spivregress 所使用的估计方法也是 GS2SLS。


面板数据的空间计量模型


Stata 15 也能进行面板数据的空间计量分析。对于面板数据而言,一般假设其空间权重矩阵不随时间而变,故在空间权重矩阵的设定方面与横截面数据相同。


面板数据与横截面数据的最大区别在于,前者一般假设存在 “个体效应”(individual effects),并可以进一步区分为 “固定效应”(fixed effects)与 “随机效应”(random effects)模型。


对于空间面板的随机效应模型,可进行 MLE 估计。对于空间面板的固定效应模型,Stata 15 采用了 Lee and Yu (2010) 提出的 MLE 估计,即首先通过变换将个体效应消去,然后再进行 MLE 估计。祝贺李龙飞教授与北大光华的虞吉海教授!


空间面板的 Stata 15 命令为:


spxtregress y x1 x2 x3, fe re dvarlag(W) errorlag(W) ivarlag(W: x1 x2) 


其中,选择项 fe 表示估计固定效应模型,而选择项 re 表示估计随机效应模型,这两个选择项二选一。


备注:本公众号不提供 Stata 15。如需购正版 Stata 15,可联系 Stata 公司在中国的代理商友万科技(www.uone-tech.cn),也是第一届 Stata 用户大会(8/19,温州商学院)的主办方,邮箱 crystal@uone-tech.cn。 


参考文献


Lee, Lung-fei, and Jihai. Yu. 2010. Estimation of spatial autoregressive panel data models with fixed effects. Journal of Econometrics, 154, 165–185.


陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多