1背景介绍行政区划数据是重要的基础地理信息数据,但目前市面上能使用的行政区域数据问题颇多。我这里列出几种大家常用的行政区划数据供大家参考:
基于上述问题,我想基于权威的行政区划数据,制作一套长时间序列的、具有符合民政部属性的、开放获取的行政区划数据。目前最权威的区划数据是国家基础地理信息中心于2022年1月发布的国家基础地理信息,该数据的现势性为2019年,但该数据也存在诸多问题。 因此,基于1比100万的行政区划数据、民政部地名数据以及其他矢量数据,我制作了年2020初的行政区划数据。接下来一段时间,我将基于这套年2020区划数据与民政部历年来行政区划资料,陆续更新2015年-2022年的行政区划数据。 2数据处理原则(1)尽可能少地改动矢量数据; (2)国界、南海诸岛的矢量绝不修改,一律以国家基础地理信息2022年发布的数据为准; (3)各地属性、统辖信息一律以民政部2019年的数据为准; 3制作流程4基础地理信息数据的处理我之前写过一篇博客用来处理该数据库,具体参考:1:100w基础地理信息数据的镶嵌(zhuanlan.zhihu.com/p/458211981) 上述步骤处理完之后,数据是分块的。 进行县名称的数据融合,以消除下面的方块状组合,再最后选择中国区域,获得的行政区划数据如下所示。 5属性匹配写到这里,首先感谢公众号数读城事继续几年的区划数据更新,这套数据的属性信息是最全的,而且是和民政部代码相契合的。这里我直接使用了这套数据进行了基于县名称的空间连接。由此我们的区划数据初步具有了各县的属性信息。 6区划矢量修改数据修复由于这套数据存在多处数据的矢量拓扑错误,我们首先使用arcgis自带的修复几何功能进行修复。然后不能修复的位置,我们进行空间定位,通过编辑矢量功能进行修复。 无矢量区域在制作过程中,也遇到了民政部有行政代码,国家基础地理信息数据无矢量的情况,比如深圳的坪山区。如果遇到这样的问题,我会首先参考天地图行政区划、民政部的矢量区划,如果没有则参考高德地图的适量区划。比如深圳的坪山区并无矢量: 又如没有勾画的区域,比如胡杨河市、昆玉市等。这些地方就直接勾绘相关矢量并添加属性。 矢量多余区域另外,也遇到了民政部无代码,但有矢量的情况,比如说甘肃太子山天然林有区划矢量,但行政级别上又属于几地管辖: 又如莲花山风景保护区无行政区划代码,参考高德地图区划数据,并入康乐县: 另外比较特殊的地区是台湾省,有县级矢量,但在民政部的行政区划中只有省级代码。为保证本数据的所有属性数据以民政部为准,这里对台湾省的所有县级数据进行了合并,只保存省级矢量。 7属性数据修改这部分也是耗时最长的步骤,即使在大部分数据有属性数据的情况下,依然问题较多。 代码、名称等错误与民政部的区划代码进行300余个市级别的对比,若有不同行政区域,则找相关原因。有可能市字段匹配错误,比如石家庄的新华区、沧州市的新华区字段匹配错误(这种最多)。也有可能是被遗漏掉了,比如温州市的龙港市。 地级为空区域另外就是我国还有一些特殊的行政单位,比如省直辖市、省直辖县行政级别上属于县级单位,但又无地级单位。 比如湖北省的潜江市、天门市、仙桃市,河南的济源市, 海南的临高县、东方市等,具体分布图如下所示,这部分区域统一将地级属性命名为空 县级为空区域还有一些比较特殊的地区,是地级市,但截止2019年末,该地区又无县级行政单位,比如海南儋州市、广东东莞市等。这部分区域统一将县级属性命名为空。
省级为空区域这个地区叫中朝共有领土,在国家基础地理信息数据上有该矢量,但民政部没有相关区划代码,且不能修改,因此该地区的所有相关属性皆为空,仅保留矢量信息。 8数量检查检查前提在进行检查前,首先普及一下我国大体的行政区划级别。 林区,是中国行政区划之一,行政地位与市辖区、县级市、县、自治县、旗、自治旗、特区相同,属县级行政区,现仅有一个,为湖北省直辖的神农架林区 特区,这里指六枝特区属六盘水市辖区域,位于贵州省西部,现仅有一个。 因此: 省级行政单位有:省、直辖市、自治区、特区 市级行政单位有:地级市、自治州、地区、盟 县级行政单位有:区、县级市、县、自治县、旗、自治旗、直辖县、省直辖市、林区、特区。 此外,还有省直辖县、省直辖市。在民政部的行政区划等级中不属于任何地级行政区划代管。属于县级行政区,不经地级行政区代管或管辖,由省级行政区直接管辖,独立于地级行政区之外单独建制,由所在的省或自治区直接领导和管理。因此省直辖县、省直辖市无地级行政区,也属于县级行政区。 基于此,我们查询相关的2019年民政部的行政区划统计如下表所示:
县级数量检查逐个省份进行县级数量检查,检查表格如下:
在检查过程中,将错误的县级类型属性改为正确的,最后我国县级类型分布图如下所示: 地级数量检查这一步是在数据合并完成后进行的,是对逐个省份进行市级类型检查,主要注意几个无县级行政区的地级市,以及直辖市无地级行政单位。最后我国市级类型分布图如下所示: 9数据合并在检查完矢量与属性信息之后,使用数据融合工具进行地级和省级的数据合并。 我国的市级数据如图所示: 我国的省级数据如图所示: 10英文属性添加参考GADM属性信息,给矢量数据添加数据的英文属性,各个属性名称对应的名称如下:
省市县的类型英文名对应为:
另外,考虑到汉语拼音是表述普通话语音的拼音系统,后被用作对外宣传的拼写法则,这也就是我们看到大部分省市英文为拼音的原因。也有部分地区是非拼音,使用的是邮政式拼音。例如广东、广西、福建有一部分地区的地名已经有了拉丁字母的习惯拼法,例如Amoy(厦门)、Canton(广州)、Foochow(福州)等。 但考虑到我国一直使用的拼音代表地名,联合国也于1977年起正式改用汉语拼音拼写中国大陆地名,因此本数据全部采用拼音系统代表地名。但单个字的地区,比如广西横县、山西临县等,保留县名称,再命名。带民族的,保留民族的英文名字。 自此,我们获得了完整的具有英文属性的省市县行政区划矢量数据。 11数据获取(1)我也使用vuepress进行网站的搭建,后续的数据将放到该网站上。读者可以登录www.shengshixian.com(谐音:省市县),省市县区划数据网,进行数据下载。 或者网站shengshixianruiduobao.com(上面的网站需要代理上网) (2)或者读者也可以直接公众号回复 锐多宝矢量 获取。 12写在最后我为什么会选做这样的事?是因为我在搭建自己的网站(landcover100.com)中,经常遇到行政区划数据的问题。到底该用哪一套行政区划数据深深困扰着我。天地图数据?不完整。中科资环数据?太旧。高德地图数据?属性不够。 因此,我准备自己做一套能够使用的数据。最开始有两个思路,一个是使用民政部的区划数据,该数据的边界精度非常高,且没有数据加偏。但该数据有个问题,民政部并未发布该数据,数据来源的声明不太好写,难道说是通过爬虫获取,哈哈哈。另外一个数据就是该文的思路,基于国家基础地理信息中心发布的县矢量数据,这个数据虽然精度不高,但胜在权威,且可以声明数据来源。 因此我打算基于该数据,参考民政部历年行政区划变化情况,做一套长时间序列的行政区划数据。年2020初(截至2019年12月31日)的行政区划数据为基础,将以此为扩展,在半年内构建2015年-2022年的行政区划数据(后续会有增删改查),欢迎持续关注。 13参考国家基础地理信息中心.https://www./ngcc/html/1/index.html 中国科学院资源环境科学与数据中心.https://www./ 确定 |
|