重磅！Stata 15的新模块（二）：空间计量分析（续）

张春强2022 2017-07-09

展开全文

Prof. Lung-fei Lee (李龙飞)

Ohio State University

不久前，Stata 公司发布了最新的 Stata 15，包含了许多令人激动的重大升级，包括非参数回归、空间计量、门槛回归、DSGE 模型等。本公众号将陆续为你介绍，与计量经济学最为相关的几个全新模块。

（接上期推文）

初步检验空间效应

在 Stata 15 中定义好空间权重矩阵后，即可进行初步的空间效应检验。基本方法就是，计算莫兰 I 指数（Moran's I，本质上为空间自相关系数），然后考察其显著性。

为此，先进行 OLS 回归，比如：

reg y x1 x2 x3

其中，y 为被解释变量，x1，x2 与 x3 为解释变量。然后，使用以下命令计算上述 OLS 回归残差的莫兰 I 指数，并检验其显著性。

estat moran, errorlag(W)

其中，必选项 errorlag(W) 用于指定空间权重矩阵（莫兰指数的定义依赖于空间权重矩阵），以检验残差（error）是否具有空间滞后（spatial lag）效应。如果莫兰指数（空间自相关系数）显著不为 0，则说明存在空间效应，须进一步进行空间计量分析；反之，则或许没有必要。

在上述 OLS 回归中，也可以将自变量都去掉，只对常数项回归：

reg y

estat moran, errorlag(W)

此时，就是检验被解释变量本身是否存在空间自相关（spatial autocorrelation）。

空间自回归模型

空间计量的不少术语都源于时间序列。比如，空间数据也称为 “空间序列”（spatial series），即分布于空间的序列。

进一步，最常见的时间序列模型为自回归模型，比如 AR(1)，即依赖于它的一阶滞后（邻居）。类似地，可以考虑空间序列的自回归模型（Spatial Autoregression，简记 SAR），即依赖于其一阶空间滞后（邻居）的（比如，某地区的犯罪率依赖于其相邻地区的犯罪率），可写为向量形式：

其中，为的空间滞后（邻居），而参数即为空间自回归系数（spatial autoregressive coefficient），是空间计量分析首要感兴趣的参数；为扰动项。

如果参数不显著（），则表明不存在空间效应，上式简化为一般的线性回归模型：

另一方面，某地区的（比如犯罪率）也可能依赖于其相邻地区的（比如，警察人数）。为此，考虑以下模型：

其中，为的空间滞后，而为相应的系数向量。

空间误差模型

空间效应的另一表现形式是，影响某地区的扰动项（外生冲击、遗漏变量等）也可能存在空间相关性，即依赖于其相邻地区的扰动项。

为此，假设线性回归模型的误差项存在空间自回归，可得 “空间误差模型” (Spatial Errors Model，简记 SEM)：

其中，为误差项的空间滞后（空间权重矩阵可以等于），而为相应的空间自回归系数。

将上述空间自回归模型（SAR）与空间误差模型（SEM）相结合，可得到更一般的 SARAR模型 ( 即 Spatial Autoregressive Model with Spatial Autoregressive Disturbances)：

其中，误差项。

SARAR模型的估计

不难看出，上述 SARAR 模型事实上为联立方程组，因为同时出现在回归方程的左边与右边，故存在 “联立方程偏差”（simultaneity bias），导致 OLS 估计不一致。

早期的空间计量方法主要为 MLE，即在独立同分布（iid）与正态分布的假定下，进行最大似然估计。MLE 的优点在于，如果数据确实为 iid 且正态，则 MLE 是最有效率的估计量。然而，如果数据不是 iid（比如存在异方差），则 SARAR模型的MLE 估计就不一致，故 MLE 的稳健性较差。

更为稳健的主流方法为工具变量法，即所谓 “广义空间二段最小二乘法” (Generalized Spatial Two-stage Least Square，简记 GS2SLS)。 GS2SLS 的优点在于，即使在异方差与非正态分布的情况下，依然是一致估计。

正如在时间序列或面板数据中经常使用滞后变量（lagged variables）作为工具变量，在空间数据中也可使用空间滞后（spatial lag）作为工具变量，比如，

其中，为的一阶邻居，而为的二阶邻居（即邻居的邻居），以此类推。一般默认使用至二阶邻居，即。

利用这些工具变量，使用 2SLS 即可得到一致估计。然而，由于空间自相关的存在，扰动项并非球形扰动项，故 2SLS 不是最有效率的。GS2SLS 估计在进行 2SLS 之后，还进行了在空间上的广义最小二乘法（GLS），具体来说为空间上的 Cochrane-Orcutt 变换（此变换常用于处理时间序列中的自相关），以得到最有效率的估计。

空间自回归的Stata命令

对于横截面数据，估计上述 SARAR 模型的命令为：

spregress y x1 x2 x3, ml gs2sls dvarlag(W) errorlag(W) ivarlag(W: x1 x2) robust

其中，选择项 ml 表示进行 MLE 估计，而选择项 gs2sls 表示进行 GS2SLS 估计，这两个选择项二选一。选择项 robust 表示使用稳健标准误。

选择项 dvarlag(W) 用于指定被解释变量（dependent variable）的空间权重矩阵，而选择项 errorlag(W) 用于指定误差项（error term）的空间权重矩阵。

选择项 ivarlag(W: x1 x2) 用于指定自变量（independent variable）的空间权重矩阵。其中，选择项 ivarlag(W: x1 x2) 中的 “x1 x2” 表示考虑 x1与 x2 的空间滞后效应，但不考虑 x3 的空间滞后效应。

如果存在除以外的内生变量，还可进行更一般的工具变量法估计。Stata 15 的相应命令为：

spivregress y x1 x2 x3 (x4 = z1 z2), ml gs2sls dvarlag(W) errorlag(W) ivarlag(W: x1 x2)

其中，y 为被解释变量，x1, x2, x3 为外生解释变量，x4 为内生解释变量，而 z1与 z2 为工具变量。命令 spivregress 所使用的估计方法也是 GS2SLS。

面板数据的空间计量模型

Stata 15 也能进行面板数据的空间计量分析。对于面板数据而言，一般假设其空间权重矩阵不随时间而变，故在空间权重矩阵的设定方面与横截面数据相同。

面板数据与横截面数据的最大区别在于，前者一般假设存在 “个体效应”（individual effects），并可以进一步区分为 “固定效应”（fixed effects）与 “随机效应”（random effects）模型。

对于空间面板的随机效应模型，可进行 MLE 估计。对于空间面板的固定效应模型，Stata 15 采用了 Lee and Yu (2010) 提出的 MLE 估计，即首先通过变换将个体效应消去，然后再进行 MLE 估计。祝贺李龙飞教授与北大光华的虞吉海教授！

空间面板的 Stata 15 命令为：

spxtregress y x1 x2 x3, fe re dvarlag(W) errorlag(W) ivarlag(W: x1 x2)

其中，选择项 fe 表示估计固定效应模型，而选择项 re 表示估计随机效应模型，这两个选择项二选一。

备注：本公众号不提供 Stata 15。如需购正版 Stata 15，可联系 Stata 公司在中国的代理商友万科技（www.uone-tech.cn），也是第一届 Stata 用户大会（8/19，温州商学院）的主办方，邮箱 crystal@uone-tech.cn。

参考文献

Lee, Lung-fei, and Jihai. Yu. 2010. Estimation of spatial autoregressive panel data models with fixed effects. Journal of Econometrics, 154, 165–185.

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年。