ArcGIS多距离空间聚类分析工具 (Ripley's K函数)

风声之家 2022-07-13 发布于江苏

展开全文

地信论坛 2022-07-08 20:30 发表于湖南

以下文章来源于一点规划，作者Masami

空间统计工具算是最后一个了！(除了GWR)，懂了但没完全懂

Ripley's K函数是点密度距离的函数，其按照一定半径距离的搜索圆范围来统计点数量，基于Ripley's K函数的多距离空间聚类分析工具是确定要素（或与要素相关联的值）是否显示某一距离范围内具有统计显著性的聚类或离散。该方法不同于此工具集中其他方法（空间自相关和热点分析）的特征是可对一定距离范围内的空间相关性（要素聚类或要素扩散）进行汇总。平均最近邻ANN，空间自相关—莫兰指数

图后面再说

还是“距离”，同样一份点数据，在不同空间尺度上呈现不同的聚类方式，小尺度上可能呈现集群分布，而在大尺度上可能为随机分布或均匀分布。下面是长三角地区高校点位数据，后面就以这个为例练习一下，在红圈范围里看这些点可能是离散的，但我在黄圈或绿圈范围内看可能就是集聚的了。Ripley's K函数可表明要素质心的空间聚集或空间扩散在邻域大小发生变化时是如何变化的（通过预期k和观测k）。

比起其他工具参数选择是真的多..按照参数选择顺序来看

输出的结果是一个表，工具输出表会包含以下字段：

ExpectedK（K预期值）， ObservedK（K观测值），DiffK（K观测值与K预期值的差值）由于应用了L(d)变换（见下图，K函数有多种变体，L(d)是其一，在 L(d) 变换下，“预期值K等于“距离”），因此ExpectedK值始终与“距离”值相匹配。

如果指定了置信区间选项，则附加字段 LwConfEnv（低值置信区间）和HiConfEnv（高值置信区间）也将包含在输出表中。这些字段包含工具的每个迭代（由距离段数量参数指定）的置信区间信息。

在工具里面，有计算置信区间这样一个参数，一共给出了4个选项：

1、0_PERMUTATIONS_NO_CONFIDENCE_ENVELOPE —不创建置信区间

2、9_PERMUTATIONS—随机放置了9组点/值

2、99_PERMUTATIONS—随机放置了99组点/值

4、999_PERMUTATIONS—随机放置了999组点/值

9表示90%，99表示99%，999表示99.9%。打个比方就像是在一个圆里扔三个硬币，扔1次还是扔99次。下面有个以图形方式显示结果，请勾选。

例如，选择了99_PERMUTATIONS，则在每次迭代时，该工具均会将一组点随机扔99 次硬币，扔完之后，该工具会对每个距离选择相对“预期”k值向上和向下偏离最大的k值，这些值将成为置信区间。

K观测值＞K预期值，则与该距离（分析尺度）的随机分布相比，该分布的聚类程度更高。

K观测值＜K预期值，则与该距离的随机分布相比，该分布的离散程度更高。

K观测值＞HiConfEnv值，则该距离的空间聚类具有统计显著性。

K观测值＜LwConfEnv值，则该距离的空间离散具有统计显著性。

然后距离段数量与起点距离，距离增量，边界校正方法后面这些都是相互有牵扯的，所以还得混在一起说，会有些乱。先看前三个的含义：

距离段数量：就是迭代的次数，默认是10

起点距离：开始聚类分析的距离及开始增量的距离，也就是从这个值开始递增。

距离增量：每次迭代过程中要递增的距离。分析中使用的距离于起点距离处开始，以距离增量中指定的数量增加。

比如起点距离设置为10，距离增量也是10，那就是10，20，30.....100这样计算十次，并迭代至默认的最大距离值。

混乱的分割线

如果提供了起点距离，则距离增量=（最大距离-起点距离）/ 迭代。

如果未提供起点距离，则距离增量=最大距离/迭代，且起点距离将设置为距离增量值。

关于这个最大距离值，起点距离不指定的情况下，系统会设定一个默认值，在ArcGIS里就是输入要素周围最小外接矩形的最大范围长度的25％，假设我画的红框矩形为最小外接矩形，那25%大概就是黄色矩形这么个大小。

最大距离值又与边界校正方法有关，如果边界校正方法为REDUCE_ANALYSIS_AREA，则系统会将最大距离设置为最小外接矩形的最大范围长度的25％或最小范围长度的50％这两者中较大的一个。

弄不太明白的分割线

所以边界校正方法又是啥呢？？.....K函数对位于研究区域边界附近的要素具有统计缺漏偏差，边界校正方法参数提供了解决这一偏差的方法。我没太弄明白，不多解释了，就搬运一下帮助文档里的文字。提供了4种选择：

1.NONE

不应用任何特定的边界校正。但是，落在用户指定的研究区域外的输入要素类中的点在相邻点计数中使用。如果您已从超大研究区域中收集数据但仅需分析数据集合边界内更小的区域，则此方法很适用。

就是我已经收集的数据是长三角的，但我只需要分析里面上海市的，但跟上海交界的地方有一些点应该还是有些影响的，我最好也统计进来，那这种时候就可以用这种校正方法。

2.SIMULATE_OUTER_BOUNDARY_VALUES

此方法在研究区域边界外创建边界内所发现点的镜像点，以便校正边附近的低估现象。将镜像与研究区域的边的最大距离范围相等的距离内的点。使用已镜像的点会使边点的相邻点估计更加精确。下图说明哪些点用于计算以及哪些点仅用于边校正。

3.REDUCE_ANALYSIS_AREA

此边校正技术将分析区域的大小收缩一定的距离，此距离与将在分析中使用的最大距离范围相等。收缩研究区域后，仅在为仍处于研究区域内的点评估相邻点数目时，才会考虑新研究区域外发现的点。K函数计算期间，不会以任何其他方式使用这些点。下图说明哪些点用于计算以及哪些点仅用于边校正。

4.RIPLEY'S_EDGE_CORRECTION_FORMULA

此方法检查每个点与研究区域的边的距离以及这个点到其各相邻点的距离。如果有的相邻点与所涉及点的距离比与研究区域的边的距离更远，则所有这类相邻点都将被指定额外权重。此边校正方法仅适用于形状为正方形或矩形的研究区域，或者当为研究区域方法参数选择 MINIMUM_ENCLOSING_RECTANGLE 时才适用。

输出结果说明的分割线

预期结果以蓝线表示，而观测结果则以红线表示。观测线在预期线之上表明数据集在该距离内表现为聚类。观测线在预期线之下表明数据集在该距离内表现为离散。

图中可以看出观测K值一直高于预期K值，表明均属于聚类分布，观测K值也远高于最高的置信区间，由此可判断空间分布属于显著的聚类分布，说明高校在空间上较明显的集中（有时候觉得自己得出的结论属实有点废话），表中看到，在进行第2次计算的时候，预期K值为51368.9时，观测K值与预期K值的差距最大，聚类程度最高。从第3次计算开始Diffk下降，其实这样起点可以设个25公里，距离增量设个5或者10，距离段数量设置大一点多迭代几次这样再试试，看有没有更合适的距离。

转载自：一点规划

版权归原作者所有，如有侵权请告知删除

确定