分享

27

 桦芊树图书馆 2011-11-15

§5.2 空间数据的统计分析

    GIS中空间数据的统计分析是指对GIS地理数据库中的专题数据进行统计分析,这里只介绍基本统计量的计算和常用的统计数据的分类分级算法。

一、属性数据的集中特征数

    反映属性数据集中特性的参数有:

    变量在各组出现或发生的次数称为频数和各组频数与总频数之比频率、反映了数据取值的集中位置的平均数、以概率为权值的加权平均数的数学期望、以及中数众数

二、属性数据的离散特征数

    在分析GIS的属性数据时,不仅要找出数据的集中位置,而且还要查明这些数据的离散程度,即它们相对于中心位置的程度,同时,还要分析它的变化范围。在此.引入刻划离散程度差异的统计特征数,即一组数据中最大值与最小值之差的极差、一组数据中的各数据值与平均数之差的离差方差、方差的平方根标准差、和衡量数据在时间和空间上的相对变化的程度的变差系数

三、统计数据的分类分级

    为了把GIS地理数据中的统计数据用专题地图的形式表示出来,通常需要对统计数据进行分类和分级。分类和分级的方法很多,下面介绍两种在统计数据处理中经常用到的算法:系统聚类法最优分割分级法

一、属性数据的集中特征数

    反映属性数据集中特性的参数有:

    频数频率平均数数学期望中数众数

(一)、频数频率

    将变量xi(i=1,2,…,n)按大小顺序排列,并按一定的间距分组。变量在各组出现或发生的次数称为频数,一般用fi表示。各组频数与总频数之比叫做频率,按如下公式计算:

                         

    根据大数定理,当n相当大时,频率可近似地表示事件的概率。

    计算出各组的频率后,就可作出频率分布图。若以纵轴表示频率,横轴表示分组,就可作出频率直方图。用以表示事件发生的频率和分布状况。

(二)、平均数

    平均数反映了数据取值的集中位置,常以 表示。对于数据Xi(i=1,2,…,n)通常有简单算术平均数和加权算术平均数。

    简单算术平均数的计算公式为:

                      

    加权算术平均数的计算公式为:

                      

    其中Pi为数据xi的权值。

(三)、数学期望

    以概率为权值的加权平均数称为数学期望,用于反映数据分布的集中趋势。计算公式为:

                          

    其中Pi>为事件发生的概率。

(四)、中数

    对于有序数据集X,如果有一个数x,能同时满足以下两式:

                  

    则称x为数据集X的中数,记为Me

    若X的总项数为奇数,则中数为:

                     

    若X的总顶数为偶数,则中数为:

                 

(五)、众数

    众数是具有最大可能出现的数值。如果数据X是离散的,则称X中出现最大可能性的值x为众数;如果X是连续的,则以X分布的概率密度P(x)取最大值的x为X的众数。显然,众数可能不是唯一的。

二、属性数据的离散特征数

(一)、极差

    极差是一组数据中最大值与最小值之差,即

(二)、离差、平均离差与离差平方和

    一组数据中的各数据值与平均数之差称为离差,即

                  

    若把离差求平方和,即得离差平方和,记为

             

    若将离差取绝对值,然后求和,再取平均数,得平均离差,记为

               

    平均离差和离差平方和是表示各数值相对于平均数的离散程度的重要统计量。

(三)、方差与标准差

    方差是均方差的简称,是以离差平方和除以变量个数求得的,记为σ2,即:

                

    标准差是方差的平方根,记为:

                

(四)、变差系数

    变差系数用来衡量数据在时间和空间上的相对变化的程度,它是无量纲的量,记为Cv

                      

    其中,σ为标准差, 为平均数。

三、统计数据的分类分级

(一)、系统聚类法

    系统聚类法是分类数据处理中用得最多的一种方法。

1、系统聚类法的基本思想

    其基本思想是:首先是n个样本各自成一类,然后规定类与类之间的距离,选择距离最小的两类合并成一个新类,计算新类与其它类的距离,再将距离最小的两类进行合并,这样每次减少一类,直到达到所需的分类数或所有的样本都归为一类为止。

2、统计数据的标准化

    每个样本单元有多种变量的原始数据,各种变量的量纲和数量大小是很不一致的,变化的幅度也不一样。假如直接用原始数据进行计算,就会突出绝对值大的变量的作用,而压低绝对小的变量的作用。为了给每种变量以统一量度,在进行模型的统计计算前,往往需要对原始数据进行标准化变换。通常使用标准差标准化的方法。 (统计数据的标准化算法)

统计数据的标准化算法

    如果有n个样本,每个样本有m个数据,则每个变量可记为Xi,j其中i=1,2,…n;j=1,2,…m。

标准化后的变量为X′i,j,则:

                    

式中: j为第j个变量的平均数;Sj为第j个变量的标准差。

    在制图数据处理中,常用S代表标准差。当用样本标准差对总体标准差进行估算时,则采用无偏估计值,即:

          

经过标准差标准化后,每种变量的平均值为0,方差为1。

    为了避免计算标准差,并把变量变换到0和1的范围内,也可采用极差标准化。这时可采用下面公式:

               

式中:Xjmax和Xjmin为第j组变量的最大和最小值。用此公式标准化后的变量范围在±1之间。

3、距离系数

    对样本进行分类时,个体之间的相似性程度往往用“距离”来度量。它是将每个样本看成是高维空间的一个点,点与点之间用某种法则规定距离,距离近的点归为一类。 (距离系数的计算)

距离系数的计算

    设有n个样本,每个样本测得m项指标,则每个变量记为Xij,i=1,2,…n;j=1,2,…m。这里只介绍在标准化变量互不相关时采用的欧氏距离。两样本i和j的距离记为dij,则:

          

4、最短距离法系统聚类

    类与类之间的距离有许多种定义方法,这里介绍最常用的最短距离法。在最短距离法中,定义两类之间的距离用两类间最近样本的距离来表示。用dij表示样本i和j的距离,用G1,G2,…表示类,用Dpq表示类Gp和类Gq的距离,则有:

                     

(最短距离法聚类的步骤)

最短距离法聚类的步骤:

    ①、计算每两个样本的距离。由于样本i和样本j的距离dij与样本j和样本i的距离dji是相等的,所以只要计算一个。开始时每个样本自成一类,则类之间的距离Dpq就等于样本之间的距离dpq

    ②、找出最小的类间距,设为Dpq,则把Gp的Gq合并为一个新类,记为Gr

    ③、计算新类与其它类的距离。新类Gr和某一类Gk的距离为Drk,则Drk可用下面公式计算出:

                  Drk = min{Dpk·Dqk

    ④、重复第②、③步,直到所有元素都成为一类或达到设定的分类数。

      系数

方法

 

   αp

 

   αq

 

    β

 

 δ

 最短距离法

  1/2

  1/2

    0

 -1/2

 最长距离法

  1/2

  1/2

    0

 1/2

 中间距离法

  1/2

  1/2

 >-1/4≤β≤0

  0

 重 心 法

 np/nr

 nq/nr

 -αp·αq

  0

 类平均法

 np/nr

 nq/nr

    0

  0

 可变类平均法

 (1-β) np/nr

 (1-β) nq/nr

   <1

  0

 可 变 法

 (1-β)/2

 (1-β)/2

   <1

  0

 离差平方和法

(nk+np)/ (nk+nr)

k+nq)/ (nk+nr)

 -nk / (nk+nr)

  0

5、系统聚类法类间距离计算的统一公式

    除了最短距离法外,还有其它计算类与类之间的距离的方法,它们除了计算类与类之间距离的公式不同外,其并类的步骤是完全相同的。而这些距离计算法可以用一个统一的公式表示,而只是系数不同。这个统一的公式为:

    Dkr 2= αpDkp2 +αqDkq2 +βDpq2 +δ|Dkp2 –Dkq2

式中系数αp、αq、β、δ对不同的方法取不同的值,上表列出了八种方法的参数值。统一的公式为编写程序提供了很大的方便。

(二)、最优分割分级法

1、最优分割分级法的基本原理

    最优分割分级是在有序样本不被破坏的前提下,使其分割的级内离差平方和为最小而级间离差平方和为极大的一种分级方法。它可以用来对有序样本或可变为有序(排序)的样本进行分级。(算法

最优分割分级法

   n个数据按大小顺序排列后,有(n-1)个“空隙”,如分成k个等级,则需(k-1)个分级界线。因此,n个数据分成k级的可能分法有(〖JB(〗n-1k-1〖JB)〗)种。对于每种分级,我们可按误差函数公式来计算分级误差的大小,以择其优。为了使级内离差平方和最小且级间离差平方和最大,实际上只需要满足级内离差平方和最小即可。因此误差函数公式定义为各级内数据的离差平方和之和。

设对于按大小顺序排列的n个数据分成k级,其分法可表示为如下形式:

{i1=1, i1+1, …, i2-1 }{i2, i2+1, …, i3-1 },……{ ik, ik+1, …, n }

式中i1=1 < i2 < i3 …< ik < n,这里为了简单起见,将X省去了,即Xi1记为i1

则误差函数为:

            

式中D(ij,ij+1-1)为第j级数据(即从ij到ij+1-1)的离差平方和。

   当K较大时,直接求最优分割的计算量很大。而通常使用推导出的误差函数递推公式来求最优分割。递推公式为:

      E(n,k)=min{E(j-1,k-1)+D(j,n),k≤j≤n}

当K=2时,上式为:

      E(n,k)=min{D(1,j-1)+D(j,n),2≤j≤n}

2、最优分割的计算

    首先必须把数据按从小到大的顺序进行排序,然后逐步进行分割(分级)。具体分割方法包括最优二分割最优三分割最优K分割

最优二分割的计算

    根据递推公式,对m个数据进行最优二分割(即分为二级)的误差(记为Sm(2,j),j为分级点)为:

           Sm(2,j) = D(1,j) + D(j+1,m),   j=1,2,…,m-1

挑出其最小误差,则j即为分割点,记为α1(m)。当m=n时,可得n个样本的最优二分割为

  {X1,X2,…,Xj},{Xj+1,…,Xn}。

为了进行最优三分割,需计算m=n,n-1,…,2的最优二分割,记为:Sj (2,α1(j)),其中,j=n,n-1,…,2。α1(j)为相应的分割点。

最优三分割

   根据递推公式,在已知Sj(2,α1(j)) 时,m个数据的最优三分割误差(记为Sm(3,α1(j),j)。j为最优三分割的第二个分割点,α1(j)是第一个分割点为:

      Sm(3,α1(i,j)= Sj(2, α1(j))+ D(j+1,n),  j=2,3,…,m-1

  式中Sj(2,α1(j))在最优二分割时已全部计算出,现只要计算D(j+1,n)即可得不同分割点时最优三分割点的第二个分割点,相应的α1(j)则为第一个分割点。

当m=n时,就是对n个样本数据的最优三分割(分三级)。

  为了进一步的分级,需计算m=n,n-1,…,3时数据的最优三分割,记为Sj[3,α1(j),α2(j)],其中j=n,n-1,…,3。α1(j)和α2(j)为相应的分割点。

最优K分割

    在已完成(K-1)的分割的基础上,用相似的方法可求出最优K分割。

    按最优分割分级法计算出的分级结果在用于地图制图前,必须把分级界线的零碎值转换成凑整值。凑整时分级界线的起点和终点分别向较小和较大的数凑整。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多