空间计量模型选择、估计、权重、检验(Spatial effect)

计量经济圈 2020-05-26

展开全文

应读者的要求，推送一篇关于空间计量方面的文章。空间计量模型，主要用来解决空间被解释变量自相关和测量误差方面的问题；而且两个空间事物存在交互效应和异质性，因此，存在常系数回归和变异系数的回归区分。

空间计量经济学是计量经济学的一个分支，研究的是如何在横截面数据和面板数据的回归模型中处理空间相互作用（空间自相关）和空间结构（空间不均匀性）结构分析。

它与地学统计和空间统计学相似。从某种程度上而言，空间计量经济学与空间统计学之间的不同和计量经济学与统计学之间的不同一样。由于对其理论上的关心以及将计量经济模型应用到新兴大型编码数据库中的要求，近年来这个领域获得了快速发展。

空间数据分析和建模技巧与GIS的结合，现已广泛应用于经济政策分析中，尤其是实产和房地产经济 [Anselin (1998a), Can(1998)], 环境和资源经济[Bockstael (1996), Geoghegan, Wainger and Bockstael (1997)], 发展经济[Nelson and Gray (1997)].当面临空间自相关时，标准的计量分析技巧通常会失效，而这种情形经常在地理或横截面数据集中出现，这也是空间计量得以迅速发展的原因之一。

传统的统计理论是一种建立在独立观测值假定基础上的理论。然而，在现实世界中，特别是遇到空间数据问题时，独立观测值在现实生活中并不是普遍存在的（Getis, 1997）。对于具有地理空间属性的数据，一般认为离的近的变量之间比在空间上离的远的变量之间具有更加密切的关系（Anselin & Getis，1992）。正如著名的Tobler地理学第一定律所说：“任何事物之间均相关，而离的较近事物总比离的较远的事物相关性要高。”（Tobler，1979）地区之间的经济地理行为之间一般都存在一定程度的Spatial Interaction，Spatial Effects）：Spatial Dependence and Spatial Autocorrelation）。

一般而言，分析中涉及的空间单元越小，离的近的单元越有可能在空间上密切关联（Anselin & Getis, 1992）。然而，在现实的经济地理研究中，许多涉及地理空间的数据，由于普遍忽视空间依赖性，其统计与计量分析的结果值得进一步深入探究（Anselin & Griffin, 1988）。

可喜的是，对于这种地理与经济现象中常常表现出的空间效应（特征）问题的识别估计，空间计量经济学提供了一系列有效的理论和实证分析方法。一般而言，在经济研究中出现不恰当的模型识别和设定所忽略的空间效应主要有两个来源（Anselin，1988）：空间依赖性（Spatial Dependence）和空间异质性（Spatial Heterogeneity）。

空间依赖性（也叫空间自相关性）是空间效应识别的第一个来源，它产生于空间组织观测单元之间缺乏依赖性的考察（Cliff & Ord, 1973）。Anselin & Rey（1991）区别了真实（Substantial）空间依赖性和干扰（Nuisance）空间依赖性的不同。

真实空间依赖性反映现实中存在的空间交互作用（Spatial Interaction Effects），比如区域经济要素的流动、创新的扩散、技术溢出等，它们是区域间经济或创新差异演变过程中的真实成分，是确确实实存在的空间交互影响，如劳动力、资本流动等耦合形成的经济行为在空间上相互影响、相互作用，研发的投入产出行为及政策在地理空间上的示范作用和激励效应。

干扰空间依赖性可能来源于测量问题，比如区域经济发展过程研究中的空间模式与观测单元之间边界的不匹配，造成了相邻地理空间单元出现了测量误差所导致。测量误差是由于在调查过程中，数据的采集与空间中的单位有关，如数据一般是按照省市县等行政区划统计的，这种假设的空间单位与研究问题的实际边界可能不一致，这样就很容易产生测量误差。

空间依赖不仅意味着空间上的观测值缺乏独立性，而且意味着潜在于这种空间相关中的数据结构，也就是说空间相关的强度及模式由绝对位置（格局）和相对位置（距离）共同决定。空间相关性表现出的空间效应可以用以下两种模型来表征和刻画：当模型的误差项在空间上相关时，即为空间误差模型；当变量间的空间依赖性对模型显得非常关键而导致了空间相关时，即为空间滞后模型（Anselin，1988）。

空间异质性（空间差异性），是空间计量学模型识别的第二个来源。空间异质性或空间差异性，指地理空间上的区域缺乏均质性，存在发达地区和落后地区、中心（核心）和外围（边缘）地区等经济地理结构，从而导致经济社会发展和创新行为存在较大的空间上的差异性。

空间异质性反映了经济实践中的空间观测单元之间经济行为（如增长或创新）关系的一种普遍存在的不稳定性。区域创新的企业、大学、研究机构等主体在研发行为上存在不可忽视的个体差异，譬如研发投入的差异导致产出的技术知识的差异，这种创新主体的异质性与技术知识异质性的耦合将导致创新行为在地理空间上具有显著的异质性差异，进而可能存在创新在地理空间上的相互依赖现象或者创新的局域俱乐部集团。

对于空间异质性，只要将空间单元的特性考虑进去，大多可以用经典的计量经济学方法进行估计。但是当空间异质性与空间相关性同时存在时，经典的计量经济学估计方法不再有效，而且在这种情况下，问题变得异常复杂，区分空间异质性与空间相关性比较困难。空间变系数的地理加权回归模型（Geographical Weighted Regression，简记为GWR）是处理空间异质性的一种良好的估计方法。

将空间依赖性考虑进来以后，在建立模型进行创新分析研究之前，一般必须先进行空间相关性的预检验。如果空间效应在发挥作用，则需要将空间效应纳入模型分析框架之中，并采用适合于空间计量经济模型估计的方法进行估计。如果没有表现出空间效应，则可直接采用一般估计方法（如OLS）估计模型参数。

在引入空间变量或者经过空间过滤的空间计量模型建立之后，其效果的好坏还需要通过空间相关检验进行判断，一般可通过对真实值和模型估计值之间的残差进行空间相关性检验实现。如果参数经过检验在空间上没有表现出相关性，则表明在引入空间变量或者经过考虑了空间效应后的模型已经成功地处理了空间相关性。

计算和检验一个地区的创新行为在地理空间上有没有表现出空间自相关（依赖）性（Cliff & Ord，1981；Cressie，1993）、是否存在集群现象（吴玉鸣，2006a，2006b）。空间统计和空间计量经济学的方法有许多种，最著名也最常用的有：Moran’s I（Moran，1950）、Geary’s C、Getis指数（Ord & Getis，1995）。

全域空间自相关（Global Spatial Autocorrelation）是从区域空间的整体上刻画区域创新活动空间分布的集群情况。在实际的空间相关分析应用研究中，由于Moran’s I指数和Geary’s C比率的作用基本相同，其不同之处是Moran’s I主要针对于全域空间相关性分析，而Geary’s C指数则适用于局域空间关联分析。在许多实证研究中，Moran’s I 和Geary’s C是常用方法，已在大量文献中出现，尤其是前者。因此，以下介绍常用的Moran’s I指数的计算及检验过程。

Moran’s I定义如下：

为二进制的邻近空间权值矩阵，表示其中的任一元素，采用邻近标准或距离标准，其目的是定义空间对象的相互邻近关系。

如果Moran’s I的正态统计量的Z值均大于正态分布函数在0.05（0.01）水平下的临界值1.65（1.96），表明区域创新在空间分布上具有明显的正向相关关系，正的空间相关代表相邻地区的类似特征值出现集群（Clustering）趋势。

目前有关研究的计量方法主要是传统的回归分析方法（如多元统计分析、回归分析、数据包络分析DEA等方法），其实质上都是线性的变量之间相互关系的一种测量方法，适合于企业或产业部门时间序列层面的经验研究，未考虑区域（或截面单元）之间的空间关联，局限性比较明显。

区域之间的经济行为会相互影响，这使其存在显著的外部效应，导致地区之间的经济行为存在溢出效应。经济产出不仅受到本地投资的强度、而且还会受到周边其他地区的投资活动产生的溢出效应及政策的影响。

经济集群行为可以通过检验一个代表地区间考虑交互作用的生产函数，即该地区的经济活动及其自身的特征与其他地区的经济活动的关系，来考察区域经济行为的集群行为。可通过纳入空间效应（空间相关和空间差异）的空间计量经济模型——空间回归模型，包括常系数的空间滞后模型（Spatial Lag Model，SLM）与空间误差模型两种（Spatial Error Model，SEM）（Anselin，1988；Anselin，Florax，1995；吴玉鸣，2005）和变系数的地理加权回归模型（Geographical Weighted Regression，GWR）来实现。

空间计量经济学是计量经济学的一个分支，研究的是在横截面数据（Cross-sectional Data）和面板数据（Panel Data）的回归模型中如何处理空间交互作用（空间自相关）和空间结构（空间非均匀性）（Anselin，1988）。最近发展起来的空间统计学和空间计量经济学不仅解决了标准统计方法在处理空间数据时的失误问题,更重要的是为测量这种空间联系及其性质、并在建模时明确地引入空间联系变量以估算与检验其贡献提供了全新的手段（应龙根，宁越敏，2005）。

实际上，早在1970年代欧洲就展开了空间计量经济学研究，并将它作为一个确定的领域。Paelinck & Klaassen（1979）定义了这个领域，包括：空间相互依赖在空间模型中的任务；空间关系不对称性；位于其他空间的解释因素的重要性；过去的和将来的相互作用之间的区别；明确的空间模拟。Anselin（1988）将空间计量经济学定义为：处理由区域科学模型统计分析中的空间所引起的特殊性的技术总称。换句话说，空间计量经济学研究的是明确考虑空间影响（空间自相关和空间不均匀性）的方法。

目前，空间计量经济学研究包括以下四个感兴趣的领域：

计量经济模型中空间效应的确定；

合并了空间影响的模型的估计；

空间效应存在的说明、检验和诊断；

空间预测。

空间计量经济学模型有多种类型（Anselin，et al. 2004）。首先介绍纳入了空间效应（空间相关和空间差异）、适用于截面数据的空间常系数回归模型，包括空间滞后模型（Spatial Lag Model，SLM）与空间误差模型（Spatial Error Model，SEM）两种，以及空间变系数回归模型——地理加权回归模型（Geographical Weighted Regression，GWR）。适用于时间序列和截面数据合成的空间面板数据计量经济学模型将在以后予以介绍。

空间滞后模型（Spatial Lag Model，SLM）主要是探讨各变量在一地区是否有扩散现象（溢出效应）。其模型表达式为：

区域行为受到文化环境及与空间距离有关的迁移成本的影响，具有很强的地域性（Anselin et al.，1996）。由于SLM模型与时间序列中自回归模型相类似，因此SLM也被称作空间自回归模型（Spatial Autoregressive Model，SAR）。

SEM中参数反映了自变量X对因变量y的影响。参数衡量了样本观察值中的空间依赖作用，即相邻地区的观察值y对本地区观察值y的影响方向和程度。存在于扰动误差项之中的空间依赖作用，度量了邻近地区关于因变量的误差冲击对本地区观察值的影响程度。由于SEM模型与时间序列中的序列相关问题类似，也被称为空间自相关模型（Spatial Autocorrelation Model，SAC）。

鉴于空间回归模型由于自变量的内生性，对于上述两种模型的估计如果仍采用OLS，系数估计值会有偏或者无效，需要通过IV、ML或GLS、GMM等其他方法来进行估计。Anselin（1988）建议采用极大似然法估计空间滞后模型（SLM）和空间误差模型（SEM）的参数。

判断地区间创新产出行为的空间相关性是否存在，以及SLM和SEM那个模型更恰当，一般可通过包括Moran’s I检验、两个拉格朗日乘数（Lagrange Multiplier）形式LMERR、LMLAG及其稳健（Robust）的R-LMERR、R-LMLAG）等形式来实现。由于事先无法根据先验经验推断在SLM和SEM模型中是否存在空间依赖性，有必要构建一种判别准则，以决定哪种空间模型更加符合客观实际。

Anselin和Florax（1995）提出了如下判别准则：如果在空间依赖性的检验中发现LMLAG较之LMERR在统计上更加显著，且R-LMLAG显著而R-LMERR不显著，则可以断定适合的模型是空间滞后模型；相反，如果LMERR比LMLAG在统计上更加显著，且R-LMERR显著而R-LMLAG不显著，则可以断定空间误差模型是恰当的模型。

除了拟合优度R2检验以外，常用的检验准则还有：自然对数似然函数值（Log likelihood，LogL）、似然比率（Likelihood Ratio，LR）、赤池信息准则（Akaike information criterion，AIC）、施瓦茨准则（Schwartz criterion，SC）。对数似然值越大，AIC和SC值越小，模型拟合效果越好。这几个指标也用来比较OLS估计的经典线性回归模型和SLM、SEM，似然值的自然对数最大的模型最好。

就目前国内外的研究来看，大多直接假定横截面单元是同质的，即地区或企业之间没有差异。传统的OLS只是对参数进行“平均”或“全域”估计，不能反映参数在不同空间的空间非稳定性（吴玉鸣，李建霞，2006；苏方林，2007）。

当用横截面数据建立计量经济学模型时，由于这种数据在空间上表现出的复杂性、自相关性和变异性，使得解释变量对被解释变量的影响在不同区域之间可能是不同的，假定区域之间的经济行为在空间上具有异质性的差异可能更加符合现实。

空间变系数回归模型（Spatial Varying-Coefficient Regression Model）中的地理加权回归模型（Geographical Weighted Regression，GWR）是一种解决这种问题的有效方法。

地理加权回归模型是一种相对简单的回归估计技术，它扩展了普通线性回归模型。在扩展的GWR模型中，特定区位的回归系数不再是利用全部信息获得的假定常数，而是利用邻近观测值的子样本数据信息进行局域（Local）回归估计而得的、随着空间上局域地理位置变化而变化的变数，GWR模型可以表示为：

实际上，以上模型可以表示为在每个区域都有一个对应的估计函数，其对数似然函数可以表示为：

在空间权值矩阵中，d和θ非常关键。如果d较大，则局域模型的解越趋向于全域模型的解；如果d等于所研究空间任意两点间的最大距离，则全域和局域两个模型将相等，反之则相反。若θ趋于无穷大，任意两点的权重将趋于1，则被估计的参数变成一致时，GWR就等于以OLS估计的经典线性回归；反之，当带宽变得很小时，参数估计将更加依赖于邻近的观测值。计算适当的窗宽或衰减函数的原理方法很多，最小二乘法仍然是一般常用的方法，其原理是：

在区域经济管理研究中，将空间效应因素引入经济管理过程的研究，建立空间计量经济模型进行空间统计分析时，一般要用空间权值矩阵来表达空间相互作用。

空间权值矩阵是一种与被解释变量的空间自回归过程相联系的矩阵。在实际的区域分析中，该矩阵的选择设定是外生的，原因是n×n维的W包含了关于区域i和区域j之间相关的空间连接的外生信息，不需要通过模型来估计得到它，只需通过权值计算出来就行了。

间权值矩阵W确定的方法有多种，根据空间统计和空间计量经济学原理，一般可将现实的地理空间关联或者经济联系考虑到模型中来，以达到正确设定权值矩阵的目的。其中，衡量地理联系的方法通常有两种主要方式：邻近指标和距离指标。

按照这两种方法确定的为二进制的邻近空间权值矩阵，表示其中的任一元素，采用邻近标准或距离标准，其目的是定义空间对象的相互邻近关系，便于把地理信息系统数据库中的有关属性放到所研究的地理空间上来对比。

一阶邻近矩阵（the First Order Contiguity Matrix）是假定两个地区有共同边界时空间关联才会发生，即当相邻地区i和j有共同的边界用1表示，否则以0表示。一般有Rook邻近和Queen邻近两种计算方法（Anselin，2003）。Rook邻近定义为仅有共同边界来定义邻居，而Queen邻近则除了共有边界邻区外还包括共同顶点的邻居。由此可见，基于Queen邻近的空间矩阵常常与周围地区具有更加紧密的关联结构（拥有更过的邻区）。当然，如果假定区域间公共边界的长度不同（如10km和100km）其空间作用的强度也不一样，则还可以通过将共有边界的长度纳入权值计算过程中，使这种邻近指标更加准确一些。空间矩阵不仅仅局限于第一阶邻近矩阵，也可以计算和使用更高阶的邻近矩阵。Anselin & Smirnov（1996）提出了高阶邻近矩阵的算法，其目的是为了消除在创建矩阵时出现的冗余及循环。二阶邻近矩阵（the Second Order Contiguity Matrix）表示了一种空间滞后的邻近矩阵。也就是说，该矩阵表达了邻近地区的相邻地区的空间信息。

当使用时空数据并假设随着时间推移产生空间溢出效应时，这种类型的空间权值矩阵将非常有用。在这种情况下，特定地区的初始效应或随机冲击将不仅会影响其邻近地区，而且随着时间的推移还会影响其邻近地区的相邻地区。当然，这种影响是几何递减的。可以看出，邻近空间权值矩阵因其对称与计算简单而最为常用，适合于测算地理空间效应的影响。

Anselin（2003）介绍了一种K值最邻近空间矩阵（K-Nearest Neighbor Spatial Weights）。之所以提出这种距离矩阵，主要是因为一般使用的基于门槛距离（Threshold Distance）的简单空间矩阵常常会导致一种非常不平衡的邻近矩阵结构。譬如，在空间单元的面积相差甚大的情况下，就会出现小一些的地理单元具有很多邻近单元，而较大的地理单元则可能很少有邻近单元，甚至没有邻近单元而成为“飞地”。

在这种情况下，考虑K—最近邻居是一种可供选择的常用方法，这也是创建空间距离权值矩阵的第二种选择。一般在给定空间单元周围选择最邻近的4个单元（亦可选4个以上，根据实际的空间关联情况由研究者确定），来计算K值最近邻居权值的大小。

如果输入的时空数据库中有x、y经纬度坐标数据，可以通过x、y坐标计算两点（两个地区的质心）之间的距离而获得空间权值矩阵。坐标的度量有欧氏距离（Euclidean Distance）和弧度距离（Arc Distance）两种，度量坐标系上任意两点间的距离可以通过具有地理坐标（x坐标、y坐标）的变量的点来计算。值得注意的是，对于经过投影的地理坐标只能计算欧氏距离，而未经投影的经纬坐标适合于计算弧度距离。

除了使用真实的地理坐标计算地理距离外，还有包括经济和社会因素的更加复杂的权值矩阵设定方法。比如，根据区域间交通运输流、通讯量、GDP总额、贸易流动、资本流动、人口迁移、劳动力流等确定空间权值，计算各个地区任何两个变量之间的距离。

从理论上来看，较之邻近矩阵，距离矩阵在空间效应测算中应该是比较科学和理想的一个指标。但是，在实际应用中，这种方法实行起来比较困难，原因有二：

一是社会经济距离的实际统计数据难以获得；

二是模型中权值的计算是外生的。

当然，基于经济、社会因素的权值计算方法更加接近区域经济的现实，因而在数据可得和模型结构清晰的情况下，可以考虑选择这种类型的权值。

尽管二进制的空间邻近权值矩阵并非适用于所有的空间计量经济模型，但是，处于某些情况下的实用性，空间统计学家在构建空间计量模型时的首选就是从二进制的邻近矩阵开始的。一般是先从空间邻近的最基本二进制矩阵开始，逐步选择确定空间权值矩阵。

关于各种权值矩阵的选择，没有现成的理论根据，一般可考虑空间计量模型对各种空间权值矩阵的适用程度，检验估计结果对权值矩阵的敏感性，最终的依据实际上就是结果的客观性和科学性。

本研究所有具体应用中涉及的空间邻近矩阵的计算，主要采用Anselin（1999，2003）研制开发的空间统计分析软件GeoDa095i，直接生成邻近矩阵来测算并确定地区之间的空间效应。

推荐教材：

肖光恩《空间计量经济学导论》、《空间计量经济学：从横截面数据到空间面板》。

龙志和和林光平《空间经济计量：理论与实践》。

沈体雁、叶阿忠《空间计量经济学》。