分享

社会科学中的空间分析: 概念、技术和应用实例 | 群学复印资料

 昵称29322182 2015-12-20

摘要:在社会科学的研究中,空间分析占有非常重要的地位。对这一重要概念的忽略,有可能遮蔽我们对于现实世界的更深入了解。但是,遗憾的是,在国内社会学的相关研究领域中,空间的量化分析一直是缺失的。本文试图简单地梳理空间分析的一些核心概念和分析技术,并通过一个社会组织的实例,演示如何在社会学的分析模型中纳入空间这一概念,以期对学界有所裨益。

关键词:空间分析; 空间回归; 社会组织

一、引言

在西方社会科学研究领域中,空间概念和技术一直得到广泛的应用,包括流行病学、公共卫生与健康、人口学、社会学、政治学、公共管理等学科。在社会科学的发展史上,空间分析占有非常重要的地位。1920 年代芝加哥学派的兴起,很大程度上源于对于城市空间居住形态及其机制的阐释,随后发展出来对于城市居住模式、居住隔离、犯罪与自杀问题、城市亚文化研究的议题,空间分析的概念一直受到重视。

社会学自创立之初就格外关注社会底层群体,如城市中少数群体的居住隔离与聚居,城市贫困与贫民区,邻里、社区及地方社会结构在城市发展中的作用,城市中越轨行为的空间分布模式,城市内的居住迁移模式,城市公共服务设施的可达性等等,都是城市社会学研究经久不衰的经典题目,而这些研究领域,都与空间分析概念紧密结合在一起。在新近的一篇文章中,罗根(John Logan) 呼吁社会科学研究更多地关注空间概念。他认为,在当代社会科学的发展过程中,随着大规模包含地理信息的调查数据日益增多,空间分析正在获得强劲的发展,空间分析的可用性也在不断增长,空间分析在社会科学中有更大的研究需求。同时,随着计算机技术的发展,以及统计程序在集群抽样、空间相关性、多层建模和空间回归方面的进展,这一研究领域应该获得越来越多的注意。

在社会中,很多现象具有明显的空间聚类特征,即相似的事情在地理空间上也是彼此接近的。如自杀率具有明显的空间聚集效应,即使控制了很多可能的变量,周边地区实际上还是会影响观测值,这种现象称为“空间滞后”(spatial lag) ,如果忽略这一空间效应,那么模型的估计结果将会存在很大偏误。在社会科学的研究工作中,通过空间数据的可视化,可以使学者们很容易发现许多有意思的现象。在西方城市研究的空间分析中,很多都依赖地理信息系统(Geographical Information System,GIS) 技术。这一分析技术在空间分析方面具有诸多优势: 首先,很多零散的数据一旦做成地图,很多空间特征就会一目了然,从而可以发现一些传统研究方法容易忽略的特征。如在大都市地区不同社会群体的居住和工作在空间分布上的不同形态,可能存在明显的空间不平等现象。其次,快速发展的空间统计方法,如空间相关指数(Moran’s I) 、空间回归分析模型(Spatial Regression Model) 等,可以修正传统数据模型中可能存在的空间自相关问题,从而让学者对不同变量之间的关系进行更精确的分析。

近年来,社区效应或者称为邻里效应(Neighborhood Effect) ,也得到越来越广泛的关注。 研究表明,社区环境对个体的影响并不仅仅是通过使用多层次模型(Multilevel Model) 就可以解决,也就是说,不仅仅是个体所在的社区会影响到个体的某些行为特征,他也会受到周围社区的影响,这也是“空间滞后”的影响效果。

遗憾的是,相对于西方社会科学界日益广泛应用的空间概念和空间分析技术,国内社会科学界对空间概念的实证分析是非常缺乏的。究其原因,一方面是因为带有空间属性的数据的缺乏,另一方面是因为具体分析技术(包括软件应用) 方面的缺乏。本文试图用简单易懂的语言梳理空间分析的一些核心概念和技术,并通过一个现实的社会组织的分析示例,展示在社会学中如何引入空间这一分析概念,以期对学界有所裨益。

二、空间分析模型

在本节,使用一个假设的例子(上海市某中心区的5 个街道) ,简单介绍空间分析中的一些重要概念和计算方法,包括空间相关性、空间相邻性、空间权重、空间滞后量、空间相关系数、空间回归模型。

(一) 空间相关性

对于空间相关性的研究,最早起源于对伦敦地区霍乱的分析。19 世纪,随着伦敦地区的快速城市化,大量人口涌入伦敦地区。但是,由于公共卫生设施的不足,伦敦受到霍乱的严重冲击。在当时,人们一致认为霍乱是由空气传播的。John Snow 对这个观点颇为怀疑,通过分析1854 年英国Broad 大街的霍乱爆发地点,他发现,死亡发生地都在Broad 街道中部一处水源(水井) 周围,有明显的地理规律,而市内其它水源周围极少发现死者(见图1) 。通过进一步调查,他发现这些死者都饮用过这里的井水。据此,他最终确定了霍乱的源头及传播机制。这一研究开启了学者对于空间相关分析的关注。

从技术层面讲,通常情况下,在我们使用最小二乘法进行回归分析的时候,假设我们关心的变量Y 有n个观测值y1、y2、y3、……、yn,一般我们假设这些观测值之间是相互独立并且服从同一分布的,均值为μ,方差为σ2 (iid 假设) 。但是,如果观测值之间存在空间相关,通过经典检验的结果将是有偏的。如果yi之间存在空间相关,如观测值yi与yj在空间上隔得越近相似性越大,那么其方差将会大于σ2 ; 这种相关导致均值的真实标准误近似于:

对于存在空间相关性的数据,如果忽略这种相关性,会使得基于独立同分布假设(iid) 的统计检验出现严重的问题,将会导致对数据真实方差(或标准误) 的低估: σ < σy; 根据公式Z = b /σ,如果σ 被低估,那么统计值Z 值就会被高估; 如果高估了统计值,会使得研究者更容易拒绝原假设,而这种拒绝是错误的。而且,更为严重的是,这种作用并不会随着样本量的增大而消失。

(二) 空间相邻性

假设上海某区的5 个街道,分别用1—5 来表示(图2) 。要标示这5 个区域之间的空间相邻性,可以有多种方法,如地理上是否相连、行政中心是否在某个距离之内、是否有地铁直达、是否能步行10 分钟到达等等。这种界定,更多地取决于理论假设,如我们甚至可以根据“街道领导人是否高中同学、是否曾经是同事、是否参加过同一个党校学习”等来界定两个街道是否属于“相邻”状态。

一般来说,我们通常使用空间上是否接壤来界定空间相邻性。可以发现,街道1 和街道2、4 相邻; 街道2 和街道1、3、4 相邻; 街道3 与街道2、4、5 相邻; 街道4 和其他所有4 个街道都相邻; 街道5 与街道3、4 相邻(图3) 。可以把上图转化为一个类似于社会网络的表格(见表1) :

再进一步,我们可以把表1 用一个5* 5 的矩阵C 来表示,Cij表示空间区域i 与空间区域j 是否相邻,Cij= 1 表示空间区域i 与空间区域j 处于相邻状态,Cij = 0 则表示空间区域i 与空间区域j 不相邻。这一矩阵形式被称为空间连接矩阵C(见表2) 。

(三) 空间权重

在连接矩阵C 的基础上,将矩阵中每一个数字除以每行的总连接数Ci* ,使得每行加总为1,这一矩阵称为行标准化的空间权重矩阵W(见表3) 。

(四) 空间滞后量

给定一个特定的观测值Y,如街道的人口数、GDP、社会组织数量等任意一个我们感兴趣的指标,将街道i 周围相邻单位j 的观测值乘以相对应的空间权重Wij 后相加,得到街道i 所有相邻观测值的平均值,Yis =ΣWij* Yi,称为空间单位(街道) i 的空间滞后变量,也可以记做Ys =WY。以街道1 为例,它与街道2、4 相邻,街道2、4 的Y 值(如人口) 分别为25、20,因此街道1 的空间滞后为25* 0.5 + 20* 0.5 = 22.5,这表示街道1 周围街道的平均人口为22.5(见表4) 。

(五) 空间相关系数

以观测值Y 为横坐标,以Y 的空间滞后量Ys 为纵坐标,计算Y 与Ys 之间的相关系数,就是空间相关系数,也称作Moran’s I 系数:

其中wij是行标准化的空间权重矩阵,y 是我们所关注的变量。Moran’s I 是一种基于全局分析的空间自相关(Global Spatial Autocorrelation) 的测量指标,表示该区域空间聚集或离散的总体情况。Moran’s I 指标的值介于- 1 到1 之间,当指标相似的地区存在空间聚集时,Moran’s I 为正(正相关) ,表示观测值高的地区其周围的观测值也高,观测值低的地区其周围的观测值也低; 当指标相反的地区存在空间聚集时,Moran’s I 为负(负自相关) ,表示观测值高的地区,其周围的观测值偏低;而当不相关时,为- 1 / ( n - 1) (当n 足够大时,其值接近于0) 。通过图4 可以看出,上面例子中的变量Y 与其滞后变量之间存在比较明显的正相关关系。某个地区单位(街道) 的Y(人口数) 越大,其周围街道的人口数也越大。如街道1 的人口数为50,周围街道的平均人口数为22.5; 而街道5 的人口数为5,周围街道的平均人口数为15。如同常规的相关系数一样,Moran’s I 系数在统计上是否显著,也是可以进行统计检验的。对于Moran’s I 系数的检验,一般采取两种方法: 一种是假设数据分布是正态的,一种是假设数据分布是随机的,使用蒙特卡洛模拟(Monte Carlo Simulation) 进行检验。通常情况下这两种方法会得到相似的结果。使用第二种方法,对上述5 个街道的Y 进行空间相关性检验,得到Moran’s I 系数为2.37,p 值为0.0089。即这5 个街道的Y 存在显著的空间聚集现象,Y 值比较大的街道,其周围街道的平均Y 值也比较大,反之亦然。

(六) 空间回归模型

如前所示,如果观测值存在显著的空间相关,那么就不应忽略这种会影响统计结果的因素,而应将之纳入统计分析模型。在过去几十年中,统计学家已经发展出了比较成熟的空间回归模型来处理这个问题。在当今的社会科学界,有2 种空间回归模型应用最广: 空间滞后模型与空间误差模型。传统的最小二乘法回归(OLS) 可以如下表达:

Y = Xβ + ε (1)

如果我们将观测变量Y 的空间滞后变量WY 认为是Y 的一种本质特征,而不是一种统计上的干扰,即某一特定观测单位i 周围空间单位的平均Y 会对地区i 的Y 产生影响,如GDP 高的地区,其周围地区的平均GDP 也会比较高,那么,可以把这种空间滞后变量的影响效果独立出来,并纳入回归模型进行分析。可以将上式中的误差项分解为两项: 因变量的空间滞后项和自变量的误差,即: ε = ρWY + μ代入式(1) ,就得到空间滞后回归模型(spatial lag model) :

Y = Xβ + ρWY + μ (2)

ρ 表示因变量Y 的空间滞后项WY 对因变量的影响效果。

或者,如果我们把空间相关看做一种统计干扰,认为模型中的误差项虽然在空间上是相关的,但并非由因变量的空间滞后导致,那么,可以将误差项拆分为两个部分: 包含空间因素的误差项与空间不相关的误差项,即: ε = λWξ + μ

代入式(1) ,就得到空间误差回归模型(spatial error model) :

Y = Xβ + λWξ + μ (3)

λ 表示相邻观测值的空间误差项Wξ 的相关程度,如果观测值i 和观测值j 之间的误差项在空间上不存在相关关系,则λ = 0,上式可简化为传统的OLS 模型。

三、一个例子: 上海市社会组织的空间分析

在本节中,笔者使用上海市2010 年社会组织的数据,进行一个实际的空间回归分析,对空间分析的应用进行演示。

(一) 数据说明

上海市社会组织的数据来自于上海社团管理部门网站(“上海社会组织”网站) 所公示的上海所有在册社会组织信息,通过“网络爬虫”,我们获得了上海所有在册社会组织的如下变量: 组织名称、组织注册代码、注册时间、证书有效时间、组织类型、注册地、主管单位、法人代表、地址、邮编、电话、网址、主要业务内容以及奖惩情况等变量信息。网络爬取时间为2014 年1 月1 日。

国内社会组织分为三种类型,包括民办非企业组织、社会团体和基金会。在本文的实际分析中,仅保留了2010 年及之前成立的“民办非企业组织”作为分析的示例。本文使用的软件为R,下文所有结果均由R软件计算得到。

用于分析的自变量数据,主要来自《中国2010 年人口普查分乡、镇、街道资料》中的上海部分数据,包括总人口、14 岁以下人口、60 岁以上人口、户籍人口等几个核心指标。

还有一部分地理信息的自变量,通过R 中的GIS 包生成,包括街道/乡镇面积、是否属于乡镇(虚拟变量,乡镇= 1。在上海,乡镇具有独立的财政,而街道没有) ,是否属于中心城区(虚拟变量,中心城区= 1) 。

(二) 自变量

用于分析的自变量数据,主要来自《中国2010 年人口普查分乡、镇、街道资料》中的上海部分数据,包括总人口、14 岁以下人口、60 岁以上人口、户籍人口等几个核心指标。

还有一部分地理信息的自变量,通过R 中的GIS 包生成,包括街道/乡镇面积、是否属于乡镇( 虚拟变量,乡镇= 1。在上海,乡镇具有独立的财政,而街道没有) ,是否属于中心城区(虚拟变量,中心城区= 1) 。

(三) 社会组织的空间分布

在进行模型分析之前,首先进行分析数据的前期准备工作,包括: (1) 读取上海地图数据,一般是GIS 软件通用的shape 格式(polygon) ; (2) 读取社会组织数据,通常是外部文件,包括stata 格式、文本格式、excel 格式等等,然后转化为shape 格式的点图(point) 格式; (3) 读取人口数据,通常为excel 格式; (4) 将人口数据与地图数据合并、生成我们需要的一系列测量指标(如街道/乡镇面积、是否属于乡镇、是否属于中心城区) 。在数据准备完成之后,可以先进行数据的地图展示,比如社会组织的空间分布、历史发展、频数分布等。

从图5 可以看出,上海社会组织的分布,存在明显的空间聚集,具体表现为: (1) 在中心城区,存在密集的空间分布形态; (2) 在各个区县的中心地区,社会组织的分布更密集一些,呈现明显的中心化趋势。

从成立年份可以看出,民办非企业组织在2000 年之后开始迅猛发展,且一直保持比较高的发展速度,每年都有约500 个新的民办非企业组织成立。

图6 是民办非企业组织的分布密度图。从图中可以看出,虽然这个变量的分布不是完全正态分布,但比较接近正态分布,因此本文使用线性模型(Linear Model) 进行估计。

(四) 空间相邻与空间权重

空间权重矩阵是进行空间回归分析的必要前提。引入不同的空间权重矩阵,可能会导致不同的模型结果(当然,对于不同空间权重的界定,更需要来源于理论上对于观测变量的理解) 。本文使用地理空间是否接壤(Queen) 来界定上海市街道的空间相邻。利用空间相邻矩阵C,生成用于后文分析的空间权重矩阵W,空间权重矩阵采用行标准化的方法。图7 展示了本文使用数据的空间相邻图。

(五) Moran’s I 检验

我们关注的观测变量,是否存在空间相关性,可以使用Moran’s I 系数进行检验。如果检验不显著,说明并不存在明显的空间相关,那可以使用传统的OLS 进行估计; 如果检验显著,则认为存在明显的空间相关关系,也就是说,某个街道的社会组织数目,受到周围街道社会组织数目的影响,在这种情况下,忽略空间影响的效果,OLS 估计的结果将是有严重问题的,需要使用空间回归模型来进行估计。

通过Moran’s I 检验,民办非企业组织的Moran’s I 统计值为7.76,在0.0001 的水平上显著(见图8) ,也就是说,“2010 年上海市民办非企业组织”这一观测值在空间上存在统计显著的空间聚集效应,民办非企业组织数目多的街道,其周围街道的民非组织平均数也高。因此,在这种情况下,对于社会组织的分析,应将空间滞后变量纳入模型估计当中,需要使用空间回归模型而非OLS 模型来进行估计。

(六) 空间回归模型结果

对于空间滞后模型或者空间误差模型的选择,更多取决于理论的假设。如果我们把空间相关看作一种统计干扰,那么就选择空间误差模型; 如果我们将观测变量的空间滞后变量看作是影响观测变量的一种本质特征,即某一特定观测单位周围空间单位的数值会与周围互相影响,则选择空间滞后模型。一般来说,社会科学家更倾向于选择空间滞后模型,即把观测变量的空间滞后项作为影响观测变量的因素纳入模型。本文仅考虑空间滞后的回归分析。

事实上,对于空间回归模型的选择,可以进行一个统计检验,看具体是存在空间滞后效应还是空间误差效应。本文也进行了检验,结果显示,模型存在明显的空间滞后效应,而非空间误差效应。对于空间滞后效应回归模型的估计,有两种不同的估计方式: 一种是使用最大似然法(Maximum Likelihood,ML) ; 另外一种是二阶段估计方法(two stage OLS) ,通过把解释变量的空间滞后项作为因变量的工具变量(IV) ,在同步联立方程组中使用二阶段最小二乘法来拟合模型。 前者在R 中使用“spdep”包的“lagsarlm”命令,后者使用“stsls”命令,本文使用第二种方法进行估计。

在空间回归模型Y = Xβ + ρWY + μ 中,系数ρ 表示Y 的空间滞后项的影响效果,系数ρ 显著则表示存在空间滞后效应; 系数ρ 不显著,则表示不存在空间滞后效应,即空间滞后项对Y 没有显著影响。表5 分别呈现了最小二阶段回归模型(OLS) 、使用二阶段估计方法的空间滞后回归模型(two stages Spatial Lag Model)的结果。

从模型结果可以看出,“民办非企业组织”的二阶段估计方法的空间滞后回归模型( Spatial Lag) 的结果显示,系数ρ 是非常显著的。这说明,街道i 周围街道的社会组织数目会对街道i 的社会组织数产生显著的影响; 而且,这一系数的符号为正,说明街道的社会组织数目与周围的社会组织数目存在正向的相关关系,即周围的社会组织数目越多,街道本身的社会组织数目也会越多。

在这种情况下,如果仅仅使用OLS 方法进行分析,会忽略非常重要的空间聚集效应,在这种情况下,OLS的估计也是有问题的。对于这一点,从模型结果的常数项可以看出,在OLS 模型中,常数项是非常显著的,而在控制空间滞后效应后,常数项则变得不显著。从对现实世界的实质理解上,这表明,社会组织的发展存在明显的空间聚集,这也许与地方政府之间的组织模仿行为有关。在经验模型中,如果忽略这点,对于经验世界的理解是有偏差的。

从民办非企业组织的回归结果可以看出,在加入空间效应之后,原先在OLS 模型中显著的变量如“是否乡镇”变得不显著,说明这一变量的作用与空间效应是重合的,在控制空间效应之后,这一变量对于民非组织的影响效果消失了。在这种情况下,如果忽略空间滞后效果,仅仅使用OLS 模型进行估计,得到的结果是有偏差的。其余几个在空间回归模型中仍然显著的变量,在控制空间滞后效应滞后,其系数明显减小,如总人口的影响效果( 绝对值) 从1. 7 减少为1.6,14 岁以下人口的效应从23.3 减少为21.1,中心城区的效果( 绝对值) 从9.5 减少为5.1。当然,对于社会组织分布形态的更详尽的分析,超出了本文的容量,作者拟在后续的研究中进一步探讨。

四、小结

一直以来,在社会科学的很多重要议题中,如居住隔离、犯罪与自杀问题、城市亚文化研究等等,空间分析的概念和技术都扮演着非常重要的角色。但是,遗憾的是,在国内社会科学尤其是社会学的研究领域中,空间分析的概念一直付诸阙如。而对这一重要概念的忽略,有可能遮蔽我们对于现实世界的更深入了解。因此,本文试图简单地梳理空间分析的一些核心概念和分析技术,并通过一个社会组织的实例,演示如何在社会学的分析模型中纳入空间这一概念,以期对学界有所裨益。

当然,我们需要看到,将空间分析引入中国的社会科学研究,仍然面临一些问题。首先,从理论层面来看,国内对于城市社会学的关注,具有非常明显的人文主义色彩,对于比较量化的实证分析则比较缺乏,尤其是对于西方城市研究中已经非常成熟的社会区因子分析的研究范式,在国内社会学的城市研究中尚未得到足够重视,这种情况在某种程度上可能会阻碍我们对于当今中国快速城市化背景下的城市研究。

其次,从数据方面来看,在国内,获取含有GIS 信息的社会科学技术比较困难,在西方,这部分工作多由政府来完成,如含有GIS 信息的普查数据的公开发布,而这一点,在国内仍然具有一定的困难,尤其是对于社会学家而言。

再次,从技术层面来看,对于空间分析需要的技术方法、软件操作等等,都对社会科学研究人员提出了新的要求,如ArcGIS 软件、R 软件等。这些知识的掌握,需要一个学科的人才培养、课程设置等方面都做出一系列的调整。

最后,空间概念如何纳入现有研究议题中,仍然是一个需要不断摸索、讨论的过程。西方的城市空间研究,已经形成了定性与定量相结合的发展模式。国内城市社会学的研究,即使引入量化研究的范式,也应该从理论层面讨论中国城市发展的形成机制与内在逻辑,只有这样,我们才会形成真正有学术生命力的城市研究。

(文章原载《山东社会科学》,版权归作者所有。)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多