摘要: 统计分析是实现地理国情数据向地理国情信息转换的重要手段,可以从不同维度反映资源、环境、生态、经济等要素的内在空间特性及其相互作用。针对大数据统计分析面临的高效管理、高强度计算和深度服务需求,提出了地理国情大数据统计分析的技术框架,并从大数据存储与融合、统计计算关键技术、服务建模与应用3个维度探讨了地理国情统计分析的核心流程。该研究成果将有助于提升地理国情监测和统计分析在自然资源监管、生态保护修复等领域中的应用水平,推动测绘地理信息产业的转型升级。 第一作者:刘纪平, 博士, 研究员, 主要从事应急地理信息服务、政务地理空间大数据、网络空间数据挖掘的理论与方法研究。liujp@casm.ac.cn 大数据时代,各类传感器的日益普及和基础通信设施及技术的高速发展引发了众多行业的根本性变革,而产生的大数据中约80%与空间位置有关。随着空天地一体化对地观测传感网、地理信息系统(Geographic Information System,GIS)技术、物联网技术、基于位置的服务(Location Based Services,LBS)技术、计算机技术与网络技术的飞速发展,海量跨领域数据呈爆炸性增长趋势,并逐步实现全球、全天时、全方位的空间数据获取,逐渐成为快速响应和预警各类灾害、资源安全等重大事件及应对全球可持续发展等重大问题的基础。 大数据时代的到来使得社会、科学和经济都发生了根本性变革。作为国情信息的重要组成部分,地理国情广泛涉及与地理相关的自然和人文要素信息,是一个国家的自然、经济和人文状况在空间的精确反映。地理国情信息已经成为制定国家和区域发展战略与规划、开展国民经济统计、调整经济结构布局、应对突发事件的重要数据基础。当前,深度开展地理国情监测已成为全球共识,在强大的对地观测数据获取能力和先进的科技力量支撑下,国外发达国家的地理国情监测范围不再局限于本土,而是逐渐扩大到区域或全球尺度。如全球森林观测中心(Forest Global Earth Observatory,ForestGEO)在27个国家建立了66个长期观测站,用于监测、分析和预测全球环境变化所引发的生态系统变量的持续性改变;美国Millbrook生态系统研究所对美国北部、欧洲和北极地区28个采样点的85个植物群落进行了重复采样监测,用于分析全球气温变暖对植物群落造成的影响;俄罗斯科学院和地震研究所的KVERT小组通过卫星对含有36座活火山的堪察加和千岛群岛的火山活动进行了持续监测,用于降低飞机与火山灰云相撞的风险;从1990年开始,中国也陆续开展了一系列的资源和环境调查,并深入探索了工业化所引发的人居环境问题,如水质恶化、土壤流失、空气污染、物种减少等问题。 近年来,随着我国地理国情普查与监测工作的深入开展,所获取的各种数据、资料以及处理形成的各类数据产品的规模不断扩大,从数据量、增长速度、准确度和应用价值看,地理国情数据已成为天然的大数据。地理国情大数据使得过去一些因为数据短缺而无法开展的分析计算变得切实可行。同时,为支持相应的统计分析与计算,必须配备与之相适应的高效存储和强大计算能力,进而对计算结果进行深度分析和挖掘,以形成相应的知识和统计规律。 此外,为满足经济社会发展和生态文明建设的需要,提高地理国情信息对政府、企业和公众的服务能力,要求构建一套面向地理国情大数据的统计分析技术框架。该框架以大数据存储、多源数据深度融合、海量地理大数据快速处理等关键技术为基础,以分析和挖掘地理国情监测对象的内在空间特性、相互关系、分布规律和发展趋势为手段,最终以公报、蓝皮书、专报等成果形式向各级政府、有关部门及社会公众提供客观真实的地理国情信息和服务。 地理国情统计分析不同于简单的数理统计,它是以地理国情大数据为基础,融合其他专业部门的统计数据,采用地理信息科学、空间经济学、计算机科学等多学科的理论与技术方法,从不同的维度综合分析资源、环境、生态、经济、人口等要素的内在空间特性及其相互作用,揭示它们的分布规律和发展趋势,从而提取有用的国情信息并形成结论,为科学决策提供依据或建议。 地理国情统计分析内容 地理国情统计分析内容包括基本统计、综合统计与专题统计3个层次。 基本统计分析。从地理国情大数据中提取各类自然、人文等要素的基本情况信息,形成反映资源数量、时序变化和空间分布特征的基础性地理信息成果。 综合统计分析。融合产业、人口等社会经济专题数据,建立地理国情统计分析的指标和模型,通过计算形成反映我国地表资源分布与利用、生态格局、区域经济潜能、基本公共服务均等化、城镇发展等维度的地理国情指标指数。 专题统计分析。围绕国家和社会所关注的生态环境问题,采用定性和定量分析手段,通过对大数据进行深度挖掘与应用建模,形成揭示经济、社会发展与自然资源环境内在联系和规律的专题报告。 地理国情大数据统计分析技术框架 地理国情统计分析是一项数据密集、计算密集、知识密集、学科交叉的复合型工作。地理国情大数据统计分析应从数据存储管理、高效计算和深度分析3个层次提供相应的关键技术支持。 图1所示为地理国情大数据统计分析技术框架。针对海量地理国情数据和专题数据,设计了集存储、计算和通信一体化的大数据解决方案。以全国地理国情统计分析为例,开发了可支持空间大数据调度与统计计算的系列关键技术,包括地表精准建模、近似计算、多时态数据变化分析、多源数据综合分析等。通过服务建模、数据挖掘和应用分析,最终可服务自然资源监管、生态环境保护修复等工作。 图1 地理国情大数据统计分析技术框架 地理国情大数据涉及地表覆盖、地理国情要素、数字高程模型等基础数据和国家级新区空间格局变化监测、城市地理国情监测等专题监测数据,同时还包括人口、国内生产总值(gross domestic product,GDP)等社会经济数据。其典型特征是数据体量大、类型多样、数据结构复杂,传统的存储和管理模式已经无法满足统计分析需求。 地理国情大数据平台构建 地理国情监测数据具有多类型、多时态特征,在存储管理上,按照专题—监测区域—数据类型—监测日期的模式构建数据管理目录,按时间构建矢量数据、影像数据及文档成果的数据管理节点,实现不同时期监测数据的整体管理。 在服务器、存储、网络等硬件资源的基础上通过虚拟化构建虚拟服务资源,搭建起大数据基础设施平台。基于数据库访问接口和空间数据引擎,设计开发地理国情监测大数据管理系统,提供数据管理、查询、统计计算等服务。其基本架构如图 2所示。 图2 地理国情大数据平台架构 分布式空间索引策略 在大数据条件下,应将单纯的空间索引从算法层提升到策略层,才能解决空间大数据的高效检索问题。单一年度的全国矢量地表覆盖与地理国情要素数据可达到TB级规模,几何对象数甚至达到十亿条以上。为实现数据的高效访问,可按照行政区划单元的层级关系构建索引策略。在统计单元体系中,设计了包括“国、省、市、县”四级的树状索引策略。最上层为根节点,查询范围对应了分省界线范围;最下层为叶节点,查询范围对应了实际的地表覆盖数据层或地理国情要素层。在分布式环境下,叶节点同时记录了数据所在的物理存储目录。省级或其他层级单元可根据需求建立三级或二级索引策略。 在数据入库时,可按照数据的范围和行政级别导入至对应节点的数据库。入库完毕后,对各数据层构建图斑粒度的空间索引,并挂接至空间索引策略叶节点。数据更新时,应同步更新图斑级空间索引和索引策略。空间索引策略结构如图3所示。 图3 分布式空间索引策略 基于本体的地理国情数据集成和融合 地理国情大数据是典型的多源异构数据,传统的集成方法不利于信息共享和互操作,进而严重制约了后续的计算与分析,基于地理本体的大数据集成和融合技术提供了有效降低甚至解决这种困难的途径。 本体网络描述语言(ontology web language,OWL)提供了数据与分析需求的形式化语义描述功能,充分利用本体具有的信息共享优势,可以驱动相关信息的自动组织,实现对终端用户建模。如图 4所示,采用地理本体的语义模型映射方法,建立点、线、面和复合要素与语义化地理国情要素的映射关系,通过形式化描述构建面向统计分析的地理本体,进而将不同数据进行转换和集成,实现原始存储格式到类别、位置、时间等属性的关联。地理国情本体内容涵盖了数据对象、任务关系及其相关属性,具体包括了几何要素、统计分析指标、模型方法、指数等内容。通过地理本体数据模型的灵活设计,可有效简化统计分析大数据集成和融合过程,有助于提升面向政府部门应用的统计分析辅助决策效率。 图4 基于本体的地理国情大数据集成和融合 社会经济数据的空间化技术 地理国情统计分析涉及大量的社会经济要素数据。为实现地理国情数据与社会经济数据的整合和一体化空间分析,通过构建社会经济数据和地理国情要素图斑的相互关系,将表格化数据转化成空间数据进行统一管理。以人口数据空间化为例,可实现表达人口信息的空间单元由行政单元向规则格网单元转换。人口分布与房屋建筑密切相关,通过建立人口与房屋建筑区属性信息(类型、面积、层数、密度等)之间的空间匹配关系而实现人口精准分配。 顾及空间临近性的异步并行调度方法 从空间数据的并行处理角度来看,地学算法并行化主要基于空间划分与任务调度策略来完成。地理国情统计分析需要处理大体量的矢栅数据,划分子任务均包含了耗时较长的读写操作,从而限制了性能提升。 针对上述问题,利用规则网格将数据从空间范围划分为数以百计乃至更多的区块,且采取一定的数据冗余策略,确保各区块有效计算范围内输入的完整性和独立性。如图 5所示,在数据划分基础上,设计了包含数据读取(Reader)、写入(Writer)和计算单元(compute unit,CU)3类模块的异步并行调度机制。Reader负责连续从数据源读取数据,并组织成连续区块流,将其传递至CU。经CU处理后由Writer输出至内存或文件。整个过程中,计算与数据访问异步重叠,可显著缓解读写造成的性能瓶颈中。 图5 地理区块数据异步并行调度 空间数据内存计算 内存计算是将数据存放在物理内存中,以此作为数据处理加速的手段,多适用于数据访问密集型算法。相比传统方法,内存计算可显著提升数据频繁访问效率。 地理国情统计分析是典型的计算密集型操作,大部分分析算法的复杂度可达到O(n2)甚至O(n3)。在处理图斑级数据时,可在内存允许的情况下,将数据层一次性加载至内存。对于栅格数据,可根据空间范围分配同构像元阵列存储;对于矢量数据,可按矢量对象的结构和长度顺序拷贝至内存。图 6所示为栅格和矢量图层的内存化表达。 图6 空间数据图层内存化表达 顾及地表起伏特征的高精度地表建模 陆表资源和地理过程都以地球表面为载体,但绝大多数应用将地球简化成标准椭球体而忽略了实际地表起伏。椭球面积和实际表面面积在局部地区的相对差异甚至达到20%,给资源调查带来较大的不确定性。 本文建立了基于不规则三角网的高精度表面面积模型,形成了具有不同地形特征适应性的三维地表建模方法。同时,为应对高强度计算作业需求,设计并实现了基于多线程的表面面积并行统计方法(见图 7),以支撑大范围、高精度地表资源分类估算。 图7 地表建模与多线程表面面积计算 多时序地表覆盖转移矩阵计算 转移矩阵可全面分析区域土地利用变化的数量结构特征与各用地类型变化的方向,因而广泛应用于土地利用变化和模拟中[24]。地理国情统计分析中,地表覆盖转移矩阵可定量刻画研究期初的各地类流失去向和期末的各地类来源与构成。 开展大范围的两期地表覆盖数据转移矩阵计算,必然要应对高强度的计算负载与数据分区的不均衡性。在多核计算节点内,采用并行的进程池进行任务管理,通过异步调度机制确保空闲进程及时获取任务加载指令,实现了多个任务的异步并行。如图 8所示,在进程池支持下,首先对数据进行匹配和数据裁切,确保两期数据具有相同的空间范围;然后以并行方式进行数据叠加,形成多属性复合层,进而在多个进程中完成面积计算;最后经汇总形成相应的转移矩阵。 图8 地表覆盖转移矩阵计算流程 基于矢量金字塔的实时近似统计 为响应大范围地理国情数据的快速统计和在线计算请求,在对数据进行格网化处理和预先计算的基础上,可通过汇总得到不同格网单元的地类分类数量信息,形成矢量格网金字塔的基态数据层。基态数据格网的宽度可根据统计精度需求进行设定。基态数据格网经逐级汇总可得到上一级单元的分类统计信息,重复汇总至单一格网或与最小显示范围相适应即可。在给定查询范围和层级精度要求后,完整格网可直接分类累加,边缘破碎格网应根据面积占比推算各地类数值。图 9为格网金字塔构建原理。 图9 地理国情统计格网金字塔构建 地理国情大数据服务建模
地理国情大数据统计分析过程是服务过程的工程计算表现,服务变化频繁、控制复杂、多级运行,难以采用传统机理建模方法进行维护。分布式服务组合系统(distributed service composition system,DSCS)可将某种功能(任务)的执行通过某种分配算法(均匀分配、负载均衡)分布到多个服务节点上,通过多个服务节点间的组合协作来完成某种功能(任务)的系统。对于分布式服务组合系统,每一个节点都是一个计算单元,从服务的角色划分分成两类,即提供服务功能的服务节点与使用服务功能的终端节点。服务节点通过相互之间的组合、协作提供服务功能,终端节点以服务请求的方式向系统申请使用服务。 整个统计分析服务系统中,终端节点(用户)申请服务的过程是一个泊松过程,可独立、随机发起对服务节点的接入申请。从申请到完成服务过程的模式流程如图 10所示。具体流程如下。 图10 地理国情大数据服务建模 应用服务的具象化表达。统计分析服务系统对问题进行分解,并检索知识库。若已存在流程,则进入知识库计算环节;否则,构建问题解决流程。 根据解决流程申请使用服务功能。串联各模型方法服务节点,各模型方法间不直接连边,模型方法节点间的通信必须通过服务节点进行。 模型方法地理尺度确定。地理尺度的变换并不遵循简单的线性关系,在满足服务精度要求的情况下,合理确定模型方法地理尺度,如可通过划分子单元、子单元计算、过程数据集中等步骤完成服务数据储备。 服务热点推理。通过确定模型方法服务节点和尺度及单元,围绕热点问题,经过学习和推理,最终实现数据挖掘。如通过经济、人口的重心计算识别人口密度分异线(全国尺度上表现为胡焕庸线),通过高程带与地表覆盖叠加提取地类空间分布规律,通过转移矩阵发掘城市开发的增量特征和变化趋势等。 返回终端节点服务。对于符合终端需求的服务进行标准化,实现流程、尺度及单元的规范性约束,最后更新至知识库。
地理国情大数据类型复杂,数据异构,数据量大,服务需求多样化。为了解决问题,往往进行问题分解,形成单一类型的非组合子任务。各子任务可在常规的统计分析与数据挖掘方法基础上,结合地理国情数据特征进行决策优化。 数据分类方法。从地理国情大数据中找出一组数据对象的共同特点, 并按照分类模式将其划分为不同的类,预测数据对象的离散类别。大数据分析中强调问题分类细分,采用数据挖掘中的分类技术,将问题分成不同的类别。分类方法有决策树、K-最近邻法(K-nearest neighbor, KNN)、支持向量机法(support vector machine,SVM)、向量空间模型法(vector space model,VSM)、Bayes法等。大数据中的数据分类是探索一种更优的模式识别效果,如Bayes法就是一种获得新信息既而更新预测的过程。大数据的分类就是通过量化和及时更新的数据不断修正模型的过程。 回归分析。用以描述和评估应变量与一个或多个自变量之间的关系;反映的是数据属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。大数据中的回归分析用于发现大数据中不同变量间的因果关系,属于有监督学习的范畴。如通过回归分析探索房屋建筑、人口、兴趣点(point of interest,POI)分布等城市要素与城市空间形态的关系。 聚类分析。聚类算法类似于分类,但与分类目的不同,是把n个对象划分成k个非空、不相交的聚类,属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性较低。如在大数据中基于拥堵时间或空间距离的城市交通路况聚类。 关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:高频项目单元查找和关联规则建立。如在大数据中基于以往地表覆盖数据、人口结构、经济产业等数据预测城市扩张方向及形态。 神经网络方法。神经网络作为一种人工智能技术,可以有效处理非线性、模糊、不完整、不严密的知识或数据为特征的问题。经典的神经网络模型主要分为3大类:用于分类预测和模式识别的前馈式神经网络模型,如函数型网络、感知机等;用于联想记忆和优化算法的反馈式神经网络模型,如Hopfield离散模型等;用于聚类的自组织映射方法,如自适应共振理论(adaptive resonance theory,ART)模型等。 地理国情统计分析服务典型应用
保护“永久基本农田”是基本国策。基于永久基本农田数据,结合地理国情地表覆盖数据,通过大数据统计分析,可以及时发现公路两侧一定距离缓冲区永久基本农田范围内人为违建设施,并对违建设施的空间位置和长度、面积进行准确标定(见图 11)。此外,为加强国家级自然保护区、国家公园自然生态系统原真性和完整性保护,通过对不同类别地表覆盖数据分析,可以发现区域中存在的房屋、道路、构筑物、人工堆掘地等用于居住、交通和经济功能的违建现象(见图 12),提升自然资源保护的力度。 图11 对永久基本农田的非法占用 图12 自然保护区监测违建
针对生态区域内生态要素空间分布及不同时期生态要素变化情况开展监测,建立地理国情分类体系与生态地表分类体系之间的对应关系,通过地理国情大数据统计分析,可以有效促进和提升生态环境保护与监测活动的实效。例如,围绕新疆库鲁斯台草原草地分布格局,利用2008-2015年植被覆盖变化数据进行统计,依据宜林则林、宜草则草的原则,运用地理国情大数据统计分析方法计算草原植被空间覆盖指数,反映草原植被覆盖退化状况(见图 13)。在此基础上,结合生态补偿标准,通过清退草地面积核定补偿资金,探索和验证草原生态补偿和政府转移支付机制,可以有效促进草原的生态环境保护。此外,通过大数据统计分析,还可以有效监测区域生态环境的变化情况,特别是生态改善的区域。 图13 草原退耕还林还草
基于土地各构成因素及综合体特征认识,根据建设用地地形、土壤、植被、水等要素适宜性要求,以及土地利用相关社会经济条件、适宜性、土地潜力和土地经济等评价分析方法,以土地合理利用为目标,根据土地用途对土地的属性进行质量鉴定和数量统计,从地理国情角度分析土地的适宜性程度、生产潜力、经济效益和对环境有利或不利的后果,确定土地价值,为土地利用规划、土地资源管理等应用领域服务。例如,通过北京市人口与地表资源承载分析(见图 14),得出各环内均以生活空间为主,其次为生态空间和生产空间。五至六环北部生态空间分布密集,而南部生产空间和生态生产空间分布集中,为全市国土空间开发格局优化及资源环境可持续发展提供决策依据。 图14 土地资源评价
对国家级新区的建成区、地表覆盖、建设用地、重要基础设施建设、重要生态用地、重要社会经济区域单元在面积、分布、数量、占比等方面的现状及变化进行监测,开展国家级新区建设进程和效果分析评价,掌握国家级新区的规划建设和发展状况,促进测绘服务转型,提升服务政府决策、服务社会经济发展的能力。例如,通过对兰州新区地理国情现状、变化情况以及建设进程开展评价,发现监测现状和规划存在部分不符之处(见图 15),该成果为国家级新区监测的全面深入开展起到示范和推动作用。 图 15 兰州新区2010—2013年地表覆盖变化分析 本文介绍了地理国情大数据统计分析的技术框架及关键技术,探讨了解决地理国情大数据集成管理、高效统计计算、深度挖掘分析与多样化服务的核心技术体系,可为全国与地方开展地理国情大数据的统计分析和服务工作提供关键技术支撑。 随着自然资源部改革的进一步深入,基于地理国情大数据的统计分析与服务已成为推动测绘地理信息行业思想变革、技术创新和人才培养的重要力量,这将为履行自然资源监管、生态保护修复等职责提供重要的信息和技术支持。
|
|