【原】地理信息系统基础学习笔记（5）——空间数据管理

ArcGis爱学习 2022-03-23

展开全文

互助、共享、学习

继续地理信息系统基础的学习，今天学习第六章空间数据管理。

上面这本书就是我学习的教材，大家需要一起学习的可以点击购买。

一共八章（第一章绪论、第二章地理信息系统的构成、第三章空间数据的获取、第四章空间数据的表达、第五章空间数据处理、第六章空间数据管理、第七章空间查询与空间分析、第八章空间数据的可视化与地图制图）

第六章空间数据管理

空间数据管理主要就是介绍了数据与数据文件；数据库与数据库管理系统；数据库模型；空间数据库管理系统；空间数据的组织；空间索引。

数据与数据文件主要介绍数据组织的分级、数据间的逻辑关系、常用数据文件。

数据组织的分级，数据组织的层次可以有两类分级方法，按逻辑单位和按物理单位分级。逻辑单位分级是从应用的角度去观察数据，是从数据与其所描述的对象之间的关系来划分数据层次的。包含：数据项、记录、文件和数据库。物理单位分级是指数据在存储介质上的存储单位，包含：比特、字节、字、块（物理记录）、桶、卷。

本书主要以数据的逻辑单位为主导线索说明数据的层次单位的含义和使用。数据库中的数据组织一般可以分为四级：数据项、记录、文件和数据库。1）、数据项，是可以定义数据的最小单位，也叫基本项、字段等。数据项与现实世界实体的属性相对应，数据项有一定的取值范围，称为域。域以外的任何值对该数据都是无意义的。数据项的物理特点在于它具有确定的物理长度，一般用字节数表示；2）、记录，由若干相关联的数据项组成。是应用程序输入-输出的逻辑单位。对大多数据库系统而言，记录是处理和存储信息的基本单位。记录是关于一个实体的数据总和，构成该记录的数据项表示实体的若干属性。为了唯一标识每个记录，就必须有记录标识符。为了唯一标识每个记录，就必须有记录标识符，也叫关键字。记录标识符一般由记录的第一个数据项担任，唯一标识记录关键字称主关键字，其他标识记录的关键字称为次关键字。分为逻辑记录和物理记录；3）、文件，是一给定类型的（逻辑）记录的全部具体值的集合。文件根据记录的组织方式和存取方法可以分为：顺序文件、索引文件、直接文件和倒排文件等等。4）、数据库，是比文件更大的数据组织。数据库是具有特定联系的数据集合，也可以看成是具有特定联系的多种类型的记录集合。

数据间的逻辑关系，主要是指记录与记录之间的联系，是表示现实世界中的实体。数据之间的逻辑联系主要有三种：1）、一对一的联系（1：1）；2）、一对多的联系（1：N）；3）、多对多的联系（M:N）。详见图1-1所示。

图1-1：

常用数据文件，文件组织是数据组织的一部分。数据组织既指数据在内存中的组织，又指数据在外存中的组织，而文件组织则主要指数据记录在外存设备上的组织，它由操作系统OS进行管理，具体解决在外存设备上如何安排数据和组织数据，以及实施对数据的访问方式等问题。操作系统实现的文件组织方式，可以分为顺序文件、索引文件、直接文件和倒排文件。

1、顺序文件，是最简单的文件组织形式。其对记录的插入容易，对数据检索效率比较低，需要将数据结构化，才能加速数据的存取。顺序文件的存储组织：向量方式、链方式、块链方式。文件物理结构的不同，其查找方式也不相同。对向量结构文件一般可采取的方法有：顺序查找、分块查找、折半查找；2、索引文件，除存储记录本身（主文件）以外，还建立了若干索引表。索引表中列出记录关键字和记录在文件中的位置（地址）。索引文件只能建在随机存取介质如磁盘上。索引文件既可以是由顺序的，也可以是非顺序的，可以是单级索引，也可以是多级索引；3、直接文件，也称为随机文件，其文件的存储是根据记录关键字的值，通过某种转换方法得到一个物理存储位置，然后把记录存储到该位置上。直接文件的构造是依靠某种方法（哈希算法）进行关键字到存储位置的转换，因此选择合适的哈希算法的关键是减少记录的“碰撞”。“碰撞”是指不同的关键字经转换所得的存储位置是相同的，从而导致一个以上的记录有相同的存储位置。4、倒排文件，索引文件是按照记录的主关键字来构造索引的，所以也叫主索引。如果按照一些辅关键字来组织索引，则称为辅索引，带有这种辅索引的文件则称为倒排文件。

数据库与数据库管理主要介绍数据库的概念、数据库的主要特征、数据库的系统结构、数据库管理系统。

数据库的概念，数据库就是为一定目的服务，以特定的结构存储的相关联的数据集合。是数据管理的高级阶段，是从文件管理系统发展而来的。a、数据独立于应用程序而集中管理，实现了数据共享，减少了数据冗余，提高了数据的效益；b、在数据间建立了联系，从而使数据库能反映出现实世界中信息的联系，这也是数据库与文件系统的根本区别。

地理信息数据库与一般数据库相比具有以下特点：

1、数据量特别大；2、不仅有地理要素的属性数据（与一般数据库中的数据性质相似），还有大量的空间数据，即描述地理要素空间分布位置的数据，并且这两种数据之间具有不可分割的联系；3、数据应用面广。

数据库的主要特征，具有更强的数据管理能力。特征如下：1、数据集中控制（数据集中并不是把若干文件“拼凑”在一起，而是要把数据“集成”。）；2、数据冗余度小（冗余指数据的重复存储）冗余数据的存在有两个缺点：一是增加了存储空间；二是易出现数据不一致；3、数据独立，是指数据库中的数据与应用程序相互独立，即应用程序不因数据性质的改变而改变，数据的性质也不因应用程序的改变而改变。分为物理级和逻辑级，物理独立是指数据的物理结构变化不影响数据的逻辑结构；逻辑独立意味着数据库的逻辑结构的改变不影响应用程序。4、复杂的数据模型，表示现实世界中各种各样的数据组织以及数据间的联系。数据库常用数据模型有四种：层次模型、网络模型、关系模型和面向对象模型。5、数据保护。数据保护主要有四个方面的内容：a、安全性控制；b、完整性控制；c、并发控制；d、故障的发现和恢复。

数据库的系统结构，数据库是一个复杂的系统。基本结构可以分成三个层次：物理级（数据库最内的一层）、概念级（数据库的逻辑表示，包括每个数据的逻辑定义以及数据间的逻辑联系。）和用户级（用户所使用的数据库，是一个或几个特定用户所使用的数据集合（外部模型），是概念模型的逻辑子集）。

数据库不同层级之间的联系是通过映射进行转换的。映射是实现数据独立的保证。

数据库管理系统（DBMS），是处理数据库存取和各种管理控制的软件。1、DBMS的功能（a、数据库定义功能；b、数据库管理功能；c、数据库维护功能；d、数据库通讯功能）；2、DBMS的组成（a、语言处理程序；b、系统运行控制程序；c、建立和维护程序）；3、用户通过DBMS存取记录的过程（详见本书）；4、数据库管理员（DBA）。

数据库模型主要介绍传统数据模型、面向目标的数据模型。

数据模型是描述数据内容和数据之间联系的工具联系的工具，它是衡量数据库能力强弱的主要标志之一。常用的数据模型有：层次模型、网络模型、关系模型，以及最近兴起的面向目标或称面向对象模型。

传统数据模型，1、层次模型；2、网络模型；3、关系模型。

1）、层次模型是以记录类型为结点的有向树或者森林，树的主要特征之一是除根节点外，任何结点只有一个父亲。层次序列，把层次模型中的记录按照先上后下、先左后右的次序排列就得到了一个记录序列，称为层次序列。层次模型不能代表多对多的联系，易导致冗余增加。对层次模型的结点记录进行修改时，比较麻烦，只有当新记录有上述记录时才能插入。删除一个记录，其所有下属记录也同时被删除。如图1-2所示，

图1-2：

（层次模型）

2）、网络模型是CODASYL发展起来的一种数据模型，用于设计网络数据库。如图1-3所示，

图1-3：

3）、关系模型是一种数学化的模型，是将数据的逻辑结构归结为满足一定条件的二维表，亦称关系。一个实体由若干关系组成，而关系表的集合就构成了关系模型。最大特色就是描述的一致性并具有结构简单灵活、数据修改和更新方便、容易维护和理解等优点。

面向目标的数据模型，面向目标（object-oriented）方法也称面向对象方法，是为了克服软件质量和软件生产率低下而发展起来的一种程序设计方法。是指无论怎样复杂的事例都可以准确地由一个目标表示，这个目标是一个包含了数据集和操作集的实体。

分类（classification），概括（generalization），聚集（aggregation），联合（association），继承（inheritance），传播（propagation）。

1、目标的封装性；2、分类，类是关于同类目标的集合，具有相同属性和操作的目标组合在一起形成类（class）。类描述了实例的形式（属性等）以及作用于类中目标上的操作方法。3、概括与继承，继承是一种服务于概括的工具。单个继承是指子类仅有一个直接的父亲，而多个继承允许多于一个的直接父类。4、联合、聚集与传播，联合与概括的概念不同，概括是指对类型进行抽象概括，而联合是对目标进行抽象联合。联合的另一个特征的分子目标应同属于一个类型。联合所得到的目标叫组合目标。分子目标与组合目标之间的关系是member-of的关系。聚集有点类似于联合，但聚集是将几个不同特征的目标组合成一个更高水平的目标，与复合目标是parts-of关系。传播是作用于联合和聚集的工具，它通过一种强制性的手段将子目标的属性信息传播给复杂目标。

分类	instance-of
概括	is-a
联合	member-of
聚集	parts-of

空间数据库管理系统主要介绍空间数据的特征、文件与关系数据库混合管理系统、全关系型空间数据库管理系统、对象-关系数据库管理系统、面向对象空间按数据库管理系统。

空间数据的特征，包括以下五个部分：1、空间特征（空间坐标，需要建立空间索引）；2、非结构化特征（数据记录一般是结构化的。即满足关系数据模型的第一范式要求，每一条记录是定长的，数据项表达的只能是原子数据，不允许嵌套记录。）；3、空间关系特征（空间数据中记录的拓扑信息表达了多种空间关系：一方面方便了空间数据的查询和空间分析，另一方面也给空间数据的一致性和完整性维护增加了复杂性。）；4、分类编码特征（一般而言，每个空间对象都有一个分类编码，而这种分类编码往往属于国家标准，或行业标准，或地区标准，每一种地物的类型在某个GIS中的属性项个数是相同的。）；5、海量数据特征（空间数据量是巨大的，比一般的通用数据库要大得多。）。

文件与关系数据库混合管理系统，采用文件与关系数据库管理系统的混合管理模式，还不能说建立了真正意义上的空间数据库管理系统，因为文件管理系统的功能较弱，特别是在数据的安全性、一致性、完整性、并发控制以及数据损坏后的恢复方面缺少基本的功能。详见图1-4，

图1-4：

(图形与属性结合的混合处理模式)

全关系型空间数据库管理系统，是指图形和属性数据都用现有的关系数据库管理系统管理。一般有两种模式：1、基于关系模型的方式；2、将图形数据的变长部分处理成binary二进制块Block字段。

对象-关系数据库管理系统，解决了空间数据的变长记录的管理，由于数据库软件商进行扩展，效率要比前面所述的二进制块的管理高得多。但它仍然没有解决对象的嵌套问题，空间数据结构也不能由用户任意定义，使用上仍然受到一定限制。

面向对象空间按数据库管理系统，面向对象模型最适应于空间数据的表达和管理，它不仅支持边长记录，而且支持对象的嵌套、信息的继承与聚集。

空间数据的组织主要介绍图幅内空间数据的组织、图库管理、属性数据的组织。

图幅内空间数据的组织，主要包括以下四部分：1）、工作区（通常将一幅图或几幅图的范围当作一个工作单元或称工作区（workspace）。一个工作区下面可以包含多个工作层和逻辑层。）；2）、工作层（是指空间数据处理的一个工作单元，它在平面上可能与工作区范围一致，但是在垂直方向，不同的软件系统定义有所区别。一般一个coverage作为一个逻辑层或者称一个覆盖层。coverage的目录下面包含有控制信息文件、标识点文件、弧段文件、多边形文件等。）；3）、逻辑层（可以任意定义，根据用户需要，一个逻辑层可以包含任意多个地物类，而且允许交叉。）；4）、地物类（将类型相同的地物组合在一起，形成地物类。）。

图库管理，图库管理即为工程管理。工程管理一般是建立图幅索引，即通过工作区的范围建立二维空间索引（可以参看此文：ArcGis页面驱动操作全过程之分幅制图(二)学习ArcGis中中的驱动制图，原理也是建立索引图框。）

属性数据的组织，属性数据虽然一般均由关系数据库管理系统管理，但是它的文件组织方式也依GIS软件而异。

空间索引主要介绍对象范围索引、格网索引、四叉树空间索引、R树和R＋树空间索引。

图幅索引>>最粗一级的空间索引。

对象范围索引，这种方法没有建立真正的空间索引文件，而是在空间对象的数据文件中增加了最大最小范围一项，它主要依靠空间计算来进行判别。

格网索引，将工作区按照一定的规则划分成网格，然后记录每个格网内所包含的空间对象，为了便于建立空间索引的线性表，将空间格网按Morton码或称Peano键进行编码，建立Peano键与空间对象的关系。

四叉树空间索引，四叉树有两种，一种是线性四叉树，一种是层次四叉树。这两种四叉树都可以用来进行空间索引。

层次四叉树空间索引的例子如图1-5所示，

图1-5：