34

桦芊树图书馆 2011-11-15

展开全文

5.9 空间分析模型

应用计算机解决地理信息系统中的资源开发、合理利用及有效控制等实际问题时，需要进行空间分析模型，是十分关键的一步，同时，也是较为困难的一步。

一、模型的概念和模型的生成

人们认识和研究客观世界一般有三种方法：逻辑推理法，实验法和模型法。模型法是我们了解和探索客观世界的最有力、最方便、最有效的方法。客观世界的实际系统是极其复杂的，它的属性也是多方面的。但是，建立模型决不能企图将所有这些因素和属性都包括进去，只能根据系统的目的和要求，抓住本质属性和因素，准确地描述系统。

模型的表示方法有两种表示形式：一阶谓词逻辑表示形式与关系表示形式。一般采用容易为用户接受的关系表示方法。它将模型看成一个虚关系，它的项由模型的输入项和输出项组成。这个虚关系是模型输入项与输出项的笛卡尔乘积的子集。这样，在创建模型时，就象创建关系数据库中的关系一样。此外，还需定义关系中各项的域值，以及输入项和输出项之间的关系。模型的描述方式和模型的生成关系密切。不同的描述方式有不同的建模步骤，模型生成的一般步骤为：建模准备、模型假设、模型建立：、模型求解、模型分析、模型检验、模型应用与检验。

二、GIS的空间分析模型

(一)、GIS空间分析模型的概念与特点

空间分析模型是指用于GIS空间分析的数学模型。GIS空间分析模型是在GIS空间数据基础上建立起来的模型，它是对现实世界科学体系问题域抽象的空间概念模型，构成空间分析模型的空间目标(点、弧段、网络、面域、复杂地物等)的多样性决定了空间分析模型建立的复杂性；空间层次关系、相邻关系以及空间目标的拓扑关系也决定了空间分析模型建立的特殊性；空间数据构成的空间分析模型也具有了可视化的图形特征；GIS要求完全精确地表达地理环境间复杂的空间关系，因而常使用数学模型，此外，仿真模型和符号模型也在GIS中得到了很好的应用。

(二)、空间分析模型的类型

空间分析模型分为以下几种类型：
1、空间分布分析模型
用于研究地理对象的空间分布特征。主要包括：空间分布参数的描述，如分布密度和均值、分布中心、离散度等；空间分布检验，以确定分布类型；空间聚类分析，反映分布的多中心特征并确定这些中心；趋势面分析，反映现象的空间分布趋势；空间聚合与分解，反映空间对比与趋势。

2、空间关系分析模型
用于研究基于地理对象的位置和属性特征的空间物体之间的关系。包括距离、方向、连通和拓扑等四种空间关系。其中，拓扑关系是研究得较多的关系；距离是内容最丰富的一种关系；连通用于描述基于视线的空间物体之间的通视性；方向反映物体的方位。

3、空间相关分析模型
用于研究物体位置和属性集成下的关系，尤其是物体群(类)之间的关系。在这方面，目前研究得最多的是空间统计学范畴的问题。统计上的空间相关、覆盖分析就是考虑物体类之间相关关系的分析。

4、预测、评价与决策模型
用于研究地理对象的动态发展，根据过去和现在推断未来，根据已知推测未知，运用科学知识和手段来估计地理对象的未来发展趋势，并作出判断与评价，形成决策方案，用以指导行动，以获得尽可能好的实践效果。

三、GIS中常用的空间统计分析模型

(一)、相关分析模型：相关分析模型就是用来分析研究各种地理要素数据之间相互关系的一种有效手段。

GIS地理数据库中存储的各种自然和人文地理要素(现象)的数据并不是孤立的，它们相互影响、相互制约，彼此之间存在着一定的联系。相关分析模型就是用来分析研究各种地理要素数据之间相互关系的一种有效手段。

地理数据库中各种地理要素数据之间的相关关系，通常可以分为参数相关和非参数相关两大类。其中，参数相关又可分为简单(两要素)线性相关，多要素间的相关模型，非参数相关可以分为顺序(等级)相关和二元分类相关。

简单线性相关模型

在一般情况下，当两种要素之间为线性相关时，就要研究它们之间的相关程度和相关方向。所谓相关程度，指它们之间的相关关系是否密切；所谓相关方向，就是两种要素之间相关的正负。相关程度和相关方向，可以用相关系数来衡量。

设X和Y为两种地理要素(现象)，X_j和Y_j分别为它们的样本统计值(j＝1，2，…，n)，则它们之间的相关系数模型为：

式中：

相关系数的取值范围为－1≤γ≤＋1。当相关系数为正时，表示两种要素之间为正相关；反之，为负相关。相关系数的绝对值｜γ｜越大，表示两种要素之间的相关程度越密切，γ＝＋1为完全正相关，γ＝－1为完全负相关，γ＝0为完全线性无关。

多要素相关模型

1、任意两种要素间的相关系数模型

设有一组地理要素变量X₁，X₂，…，X_m，统计n个样本，则n个样本m个指标可构成一个n×m阶的原始数据矩阵。此时，任意两种要素间的相关系数模型为：

式中σ_ik，σ_k²，σ_i²分别为样本的协方差和方差。

2、偏相关系数模型

当研究某一种要素对另一种要素的影响或相关程度，而把其它要素的影响完全排除在外，单独研究那两种要素之间的相关系数时，就要使用偏相关分析方法，偏相关程度用偏相关系数来衡量。

若i,j,k代表变量｛x₁，x₁，…，x_m｝中任意三种不同的变量，则所有一阶偏相关系数模型如下：

式中：γ_ij、 γ_ik、γ_jk为单相关系数。

逐次使用递归公式

就可以得到任意阶的偏相关系数。其中，c是其余变量的任意子集合。

3、复相关系数模型

以上都是在把其它要素的影响完全排除在外的情况下研究两种要素之间的相关关系。但是实际上，GIS的空间分析中，一种要素的变化往往要受到多种要素的综合影响，这时就需要采用复相关分析方法。所谓复相关，就是研究几种地理要素同时与某一种要素之间的相关关系，度量复相关程度的指标是复相关系数。

设因变量为Y，自变量为X₁，X₁，…，X_k，则Y与X₁，X₂，…，X_k的复相关系数

计算公式为：

作为特例，三个变量(Y，X₁，X₂)之间的复相关系数的计算公式为：

(二)、趋势面分析模型：用趋势面分析方法将现象的空间分布及其区域变化趋势模拟出来。

在GIS的空间分析中，经常要研究某种现象的空间分布特征与变化规律。许多现象在空间都具有复杂的分布特征，它们常常呈现为不规则的曲面。欲研究这些现象的空间分布趋势，就要用适当的数学方法将现象的空间分布及其区域变化趋势模拟出来，这就是趋势面分析方法。

趋势面分析，是用一个多项式对地理现象的空间分布特征进行分析，用该多项式所代表的曲面来逼近(或拟合)现象分布特征的趋势变化，也就是用数学方法把观测值分解为两个部分：趋势部分和偏差部分。趋势部分反映区域性的总的变化，受大范围的系统性因素的控制；偏差部分反映局部范围的变化特点，受局部因素和随机因素的控制。

1、基本原理

趋势面分析模型的基本原理

设Z_j(x_j，y_j)表示所分析现象的特征值，即观测值。趋势面分析就是把观测值Z的变化分解成两个部分，即：

Z_j(x_j，y_j)＝f(x_j,y_j)＋σ_j

式中：f(x_j,y_j)为趋势值，σ_j为剩余值。

我们可以用回归方法求得趋势值和剩余值，即根据已知数据Z的一个回归方程f(x,y)，使得

达到极小。这实际上是在最小二乘法意义下的曲面拟合问题，即根据观测值Z_j(x_j，y_j)用回归分析方法求得一个回归曲面

而以对应于回归曲面的值作为趋势值，以残差作为剩余值。

2、多项式趋势面的数学模型

多项式趋势面的数学模型

在趋势面分析中，我们通常选择多项式作为回归方程，因为任何一个函数在一个适当的范围内总是可以用多项式来逼近，而且调整多项式的次数可以使求得的回归方程适合问题的需要。

当某一地理现象的特征值在空间的分布为平面、二次曲面即抛物曲面、三次曲面、四次曲面、五次曲面或六次曲面时，可分别用一次多项式、二次多项式、三次多项式、四次多项式、五次多项式或六次多项式来拟合。多项式数学模型中各项的排列顺序有一定规律，便于编程计算。

3、多项式趋势面数学模型的解算

多项式趋势面数学模型的解算

实际上是求多项式系数的最佳无偏估值问题。最小二乘法可以给出多项式系数的最佳线性无偏估值，这些估值使残差平方和达到最小。所以求回归方程也就是要求根据观测值Z_j(x_j,y_j) (j＝1，2，…，n),确定多项式的系数a₀,a₁,…，以使残差平方和最小，即：

我们记x＝x1，y＝x2，x2＝x3，xy＝x4，y2＝x5，………，则多项式可以写为：

这样，多项式回归问题就可以转化为多元线性回归问题来解决。现在，残差就是：

根据最小二乘法原理，我们要选择这样的系数a₀，a₁，……a_p(p＜n)，以使Q达到极小。为此，求Q对a₀，a₁，……，a_p的偏导数，并令其等于零，则得正规方程组。解此正规方程组，即得p＋1个系数a₀，a₁，…，a_p。

在原始数据量很大的情况下，用矩阵方法求解在计算机上实现是困难的，因为占据存储空间太大。所以，一般采用高斯主元消去法或正交变换法求解正规方程组。

4、趋势面拟合程度的检验

趋势面拟合程度的检验

趋势面的拟合程度就是趋势面对原始数据面的逼近度。这里介绍两种检验方法：

1°、F—分布检验

检验统计量为：

式中：U为回归平方和，Q为剩余平方和，P为多项式的项数(不含常数项)，n为观测点数。在给定置信水平α的条件下，若F＞F_α，则趋势面拟合效果显著，否则不显著。

2°、拟合指数公式检验

拟合指数公式为：

式中：C为拟合指数，Z_j为第j点的观测值，为第j点的趋势值，为全部观测值的平均值。当C＝100％时，表明趋势值在所有观测点上都与实际值吻合，但这种情况是很少的。当C＝75％以上时，拟合误差均在10％以下，这时可以认为趋势面的拟合效果良好。

(三)、预测模型：判断结果随原因的变化而变化的方向和程度，用于推断地理要素随时间发生变化的大小。

GIS地理数据库的数据除了反映各种自然和人文要素(现象)的空间分布特征和相互关系外，还能反映地理要素的动态发展规律，并用于预测分析。这种预测分析是建立在现象间因果关系的基础上的，即某些现象作为原因，另一种现象作为结果，原因与结果的关系可以用确定的函数来描述，函数中的参数能说明这种因果关系的本质。预测模型常用于判断结果随原因的变化而变化的方向和程度，用于推断随时间发生变化的大小。

所谓回归模型方法，就是从一组地理要素(现象)的数据出发，确定这些要素数据之间的定量表述形式，即建立回归模型。通过回归模型，根据一个或几个地理要素数据来预测另一个要素的值。这种回归模型就是一种预测模型。

1、一元回归模型

一元回归模型

元回归模型表示一种地理要素(现象)与另一种地理要素之间的依存关系，另一种要素作为它的分布与发展的最重要的原因。模拟一元回归模型时，必要条件是具有两相应的变量系列，其中同一系列的每个元素完全相应于另一序列的元素，这时可以实现内插和外推两个任务。

我们用多项式方程作为一元回归的基本模型：

Y＝a₀＋a₁x＋a₂x²＋a₃x³＋……a_mx^m＋ε

式中：Y为因变量，X为自变量，a₀,a₁,…，a_m为回归系数，ε为剩余误差。

上式中多项式的次数由地理要素之间的关系确定。通常是采用函数逼近的方法来确定多项式的次数，首先从一次多项式开始，直至多项式的剩余误差平方和小于某个给定的任意小数为止。

利用多项式进行预测，最主要的问题是求解方程式的系数a₀,a₁,…，a_m。通常采用最小二乘法求解。求得系数后，就可以用这些系数来解决内插和外推的问题。

回归模型的精度，通常可通过求ε来确定。根据多项式有：

式中：为计算值。

根据最小二乘法原理，ε_j的平方和为最小是最好的，一般是采用回归方程的剩余标准差来估计，即

S的大小反映回归模型的效果。

关于回归效果的显著性检验，可以证明它是一个具有自由度(1，m－2)的F变量，即

式中：γ为相关系数。

可见，一元回归时，回归效果的好坏可以通过相关系数的检验来鉴别。

2、多元线性回归模型

多元线性回归模型

多元线性回归模型表示一种地理现象与另外多种地理现象的依存关系，这时另外多种地理现象共同对一种地理现象产生影响，作为影响其分布与发展的重要因素。

设变量Y与变量X₁，X₂，…，X_m存在着线性回归关系，它的n个样本观测值为Y_j,X_j1,X_j2,…X_jm(j＝1，2，n)，于是多元线性回归的数学模型可以写为：

可采用最小二乘法对上式中的待估回归系数β₀，β₁，…，β_m进行估计，求得β值后，即可利用多元线性回归模型进行预测了。

计算了多元线性回归方程之后，为了将它用于解决实际预测问题，还必须进行数学检验。多元线性回归分析的数学检验，包括回归方程和回归系数的显著性检验。

回归方程的显著性检验，采用统计量：

式中：，为回归平方和，其自由度为m；，为剩余平方和，其自由度为(n－m－1)。

利用上式计算出F值后，再利用F分布表进行检验。给定显著性水平α，在F分布表中查出自由度为m和(n－m－1)的值F_α，如果F≥F_α，则说明Y与X₁，X₂，…，X_m的线性相关密切；反之，则说明两者线性关系不密切。

回归系数的显著性检验，采用统计量：

式中，C_ii为相关矩阵C＝A^-1的对角线上的元素。

对于给定的置信水平α，查F分布表得F_α(n－m－1)，若计算值F_i≥F_α，则拒绝原假设，即认为X_i是重要变量，反之，则认为X_i变量可以剔除。

多元线性回归模型的精度，可以利用剩余标准差

来衡量。S越小，则用回归方程预测Y越精确；反之亦然。

(四)、聚类模型：根据实体间的相似程度，逐步合并若干类别使得类间差异最大，而类内差异最小。

聚类分析是根据多种地学要素对地理实体进行划分类别的方法，对不同的要素划分类别往往反映不同目标的等级序列，如土地分等定级、水土流失强度分级等。

聚类分析的步骤一般是根据实体间的相似程度，逐步合并若干类别，其相似程度由距离或相似系数定义。进行类别合并的准则是使得类间差异最大，而类内差异最小。

1、最短距离聚类模型

最短距离聚类模型

最短距离聚类模型中，定义两类之间的距离用两类间最近样本的距离来表示。用d_ij表示样本和样本之间的距离，用G₁，G₂，…表示类，类G_p和类G_q的距离用D_pq表示，则有：

具体步骤如下：

1、规定样本间的距离，计算样本两两距离的对称表，记作D₀，由于每一个样本自成一类，显然D_pq＝d_pq。

2、选择D₍₀₎中的最小元素，设为D_pq，则G_p与G₀合并成一个新类，记为

G_γ＝｛G_p，G_q｝。

3、计算新类与其它类的距离

将D₍₀₎中的p、q行和p、q列删去，加上第γ行、γ列，得到的矩阵记作D₍₁₎。

4、对D₍₁₎重复D₍₀₎的两步得D₍₂₎，如此继续下去，直到所有元素成为一类为止。

如果某一步D_(k)中的最小元素不止一个，则对应这些最小元素的类可以同时合并。

2、模糊聚类模型

模糊聚类模型

设有m个变量，每个变量有n个样本，其数据矩阵为：

X＝(X_ij)_n_×m

对n个样本进行模糊聚类的步骤如下：

1、统计指标的数据标准化

可采用标准差标准化公式，也可采用极差标准化公式。若采用前者，则计算结果尚需压缩到［0，1］区间；若采用后者，则计算结果已压缩到［0，1］区间。

2、标定

计算出衡量样本(被分类对象)间相似性程度的统计量γ_ij，建立论域U＝｛u₁，u₂，…，u_n｝上的相关关系，μ_R＝(u_i,u_j)表示u_i与u_j按分类特性的相似性程度，可用相似矩阵R表示。γ_ij可以计算得出，也可采取专家评分的方式给出。

3、将模糊关系矩阵改造成模糊等价关系矩阵 →R*

采用求传递背包的方法：

即

4、聚类

模糊等价关系矩阵R*的元素表示被分类对象彼此之间的相似程度，把R*的元素从大到小排列作为规定的λ水平值(0≤λ≤1)，使

利用求得的模糊等价关系的λ水平截集进行分类，分类由粗到细。选R*元素的最小值为λ值，则分为一类；选第二个最小值为λ值分为两类；选第K个最小值为λ值就分为K类；……。若λ＝1，则各个样本自成一类。

3、模糊多元统计分析模型

模糊多元统计分析模型

设研究对象为Y，与Y有关的m个自变量为X_j＝(X_1j，X_2j，…，X_mj)，j＝1，2，…，n，n为样本数。其线性模型为：

Y_j＝b₀X₀＋b₁X_1j＋…＋b_mX_mj＋e_j， X₀恒取1

写成矩阵形式为：

Y＝XB＋E

对上式求B的最小二乘估计，得：

将代入上述线性模型的矩阵形式，得Y的估计值Y＝X 。于是构成多维隶属函数：

线性型：

Logiatic型：

式中的a,c，在使μ_y∈［0，1］的前提下经验地确定。给定阈限水平λ_i。如果分三类，则给定λ₁，λ₂：

第一类满足：｛Y／μ_y≥λ₁｝

第二类满足：｛Y／λ₁＞μ_y≥λ₂｝

第三类满足：｛Y／μ_y＜λ₂｝

从而实现对自变量的分类。

具体算法如下：

1、选定自变量和因变量，获取原始数据；

2、对原始数据进行标准化处理(采用极差标准化公式或标准差标准化公式)：

3、求解线性模型系数的最小二乘估计，得线性回归方程；

4、构造多元隶属函数；

5、分类，即给定阈限水平λ_i，得到所需分类。

四、模型库及其管理

(一)、模型库的基本概念和表示形式

模型库是在计算机中按一定的组织结构形式存储多个模型的集合体，在模型库管理系统下得到有效的管理。同地理数据库与地理数据库管理系统相结合构成地理数据库系统一样，模型库与模型库管理系统相结合构成模型库系统。数学模型的一般表示形式是方程式，它反映了模型中变量之间的关系、约束条件及其目标。在计算机中，模型是以程序形式表示的。

(二)、模型库的组织和存储

模型库由模型字典库和模型文件库组成。模型字典库的内容包括模型的编号、名称与模型文件等的说明。模型文件是模型的主体，一个模型至少有2～4个模型文件，其中源程序文件和目标程序文件是主要的模型文件，此外还有模型的说明文件和数据描述文件。

(三)、模型库管理系统

模型库管理系统的主要功能包括模型的存储管理(包括模型的表示、模型的存储组织结构和模型的查询与维护)、运行管理(包括模型程序的输入和编译、模型的运行控制、模型的查询与维护、模型对数据的存取)和建模技术(包括模型间的组合及模型间数据的共享和传递两个方面的问题。)等三个方面。

【有关名词解释】

模型字典详细解释

模型字典是模型文件的索引，便于模型与模型文件的联系，便于对模型进行分类(即对模型字典进行分类)，便于对模型和模型文件的查询和修改(对模型的算法、参数以及有关模型说明的修改)，包括增加、删除和更新。

模型字典库一般以采用数据库形式的组织结构为宜，即按照关系数据库的组织形式存放模型字典的内容。按照模型分类可分别建立各类模型字典库，一个库存放一类模型，每个模型是一个记录，每个记录由模型的编号、名称、文件名等数据项组成。这种组织存储形式便于模型的分类、查询和修改。

模型文件详细解释

模型文件以建立子目录的方法存储，即把模型文件都建立在子目录下。子目录的建立可采用两种形式：一是按模型分类建立子目录，每类模型建立一个子目录，该类中模型的所有模型文件都存储在此子目录下，模型文件库和模型字典库一一对应；二是按模型文件的类别建立子目录，建立2～4个子目录，分别存放各类模型文件，即所有模型的源程序文件存放在一个子目录下，所有模型的目标程序文件存放在另一个子目录下。

模型文件特别是目标程序文件的调用即模型的运行，与模型文件的存储方式有直接关系。一般是通过模型字典库，沿着模型文件的存储路径，找到具体的模型文件，然后利用运行某模型文件的命令启动运行。

模型的存储管理功能

一、模型的表示:

数学模型在计算机中都是以程序形式表示的，调用数据后，执行程序就能得到结果。程序在计算机中是以文件形式存储的，称为程序文件。

二、模型的存储组织结构：

由两部分构成：

1.模型字典库:

一部分是模型字典库，它类似于数据库的组织结构形式，但存储的不是数据字典，而是模型字典；

2.模型文件库:

另一部分是模型文件库，它是模型的主体，具有文件形式，按文件存储方式存储。在模型字典库中应指明模型文件的存储路径，便于查找。

三、模型的查询与维护：

模型的查询与维护是模型库管理系统的重要功能。

1、查询过程：

根据模型的存储组织结构形式，要查询模型，首先要查询模型字典库，找到需要的模型目录，再沿着模型文件的存取路径查到相应的模型文件。所以，模型的查询过程包括两部分内容：

一个是模型字典库的查询，类似于数据库的查询；

另一个是模型文件的查询，类似于操作系统的文件查询。

2、模型的维护：

模型的维护类似于数据库的维护，包括对模型进行增加、插入、删除、修改等操作，这些操作要按模型的存储组织结构形式进行。当增加、插入、删除模型时，首先要在模型字典库中增加、插入、删除模型目录，然后沿着模型存取路径在模型文件库中增加、插入、删除模型文件。当要对模型进行修改时，不修改模型目录，只需修改模型文件。