分享

2020年初行政区划数据

 风声之家 2022-08-01 发布于江苏

1背景介绍

行政区划数据是重要的基础地理信息数据,但目前市面上能使用的行政区域数据问题颇多。我这里列出几种大家常用的行政区划数据供大家参考:

名称时间优点缺点来源
国家基础地理信息的行政区划数据
2019年权威缺乏属性、时间序列
中科资环行政区划数据2015年权威、准确数据老旧、矢量错误多
天地图爬取的矢量数据不统计权威、准确仅能按省份下载tianditu.gov.cn
民政部区划数据2018年权威、准确非公开下载、仅线矢量dmfw.mca.gov.cn
gadm数据2022年下载便捷地图不完整、非权威gadm.org
高德行政区划数据2022年及时性非权威、缺乏属性、下载不方便datav.aliyun.com
爱好者整理(数读城事)2018-2022年属性完整非权威、非公开下载公众号 数读城事
加州伯克利大学行政区划数据1949-2013年长时间序列不权威、不准确

基于上述问题,我想基于权威的行政区划数据,制作一套长时间序列的、具有符合民政部属性的开放获取的行政区划数据。目前最权威的区划数据是国家基础地理信息中心于2022年1月发布的国家基础地理信息,该数据的现势性为2019年,但该数据也存在诸多问题。

因此,基于1比100万的行政区划数据、民政部地名数据以及其他矢量数据,我制作了年2020初的行政区划数据。接下来一段时间,我将基于这套年2020区划数据与民政部历年来行政区划资料,陆续更新2015年-2022年的行政区划数据。

2数据处理原则

(1)尽可能少地改动矢量数据;

(2)国界、南海诸岛的矢量绝不修改,一律以国家基础地理信息2022年发布的数据为准;

(3)各地属性、统辖信息一律以民政部2019年的数据为准

3制作流程

图片
流程图

4基础地理信息数据的处理

我之前写过一篇博客用来处理该数据库,具体参考:1:100w基础地理信息数据的镶嵌(zhuanlan.zhihu.com/p/458211981)

图片
基础地理信息数据的处理流程

上述步骤处理完之后,数据是分块的。

图片
未作融合

进行县名称的数据融合,以消除下面的方块状组合,再最后选择中国区域,获得的行政区划数据如下所示。

图片
融合之后

5属性匹配

写到这里,首先感谢公众号数读城事继续几年的区划数据更新,这套数据的属性信息是最全的,而且是和民政部代码相契合的。这里我直接使用了这套数据进行了基于县名称的空间连接。由此我们的区划数据初步具有了各县的属性信息。

6区划矢量修改

数据修复

由于这套数据存在多处数据的矢量拓扑错误,我们首先使用arcgis自带的修复几何功能进行修复。然后不能修复的位置,我们进行空间定位,通过编辑矢量功能进行修复。

图片
需要手动修复的位置

无矢量区域

在制作过程中,也遇到了民政部有行政代码,国家基础地理信息数据无矢量的情况,比如深圳的坪山区。如果遇到这样的问题,我会首先参考天地图行政区划、民政部的矢量区划,如果没有则参考高德地图的适量区划。比如深圳的坪山区并无矢量:

图片
图片

又如没有勾画的区域,比如胡杨河市、昆玉市等。这些地方就直接勾绘相关矢量并添加属性。

图片
胡杨河市

矢量多余区域

另外,也遇到了民政部无代码,但有矢量的情况,比如说甘肃太子山天然林有区划矢量,但行政级别上又属于几地管辖:

图片图片

又如莲花山风景保护区无行政区划代码,参考高德地图区划数据,并入康乐县:

图片
莲花山风景保护区

另外比较特殊的地区是台湾省,有县级矢量,但在民政部的行政区划中只有省级代码。为保证本数据的所有属性数据以民政部为准,这里对台湾省的所有县级数据进行了合并,只保存省级矢量。

图片图片

7属性数据修改

这部分也是耗时最长的步骤,即使在大部分数据有属性数据的情况下,依然问题较多。

代码、名称等错误

与民政部的区划代码进行300余个市级别的对比,若有不同行政区域,则找相关原因。有可能市字段匹配错误,比如石家庄的新华区、沧州市的新华区字段匹配错误(这种最多)。也有可能是被遗漏掉了,比如温州市的龙港市。

图片
逐个对比

地级为空区域

另外就是我国还有一些特殊的行政单位,比如省直辖市、省直辖县行政级别上属于县级单位,但又无地级单位。

图片
地级单位为空

比如湖北省的潜江市、天门市、仙桃市,河南的济源市, 海南的临高县、东方市等,具体分布图如下所示,这部分区域统一将地级属性命名为空

图片
省直辖市和县

县级为空区域

还有一些比较特殊的地区,是地级市,但截止2019年末,该地区又无县级行政单位,比如海南儋州市、广东东莞市等。这部分区域统一将县级属性命名为空。

地名县级县级码县级类地级地级码地级类省级
儋州市不统计0不统计儋州市460400地级市海南省
东莞市不统计0不统计东莞市441900地级市广东省
嘉峪关市不统计0不统计嘉峪关市620200地级市甘肃省
三沙市不统计0不统计三沙市460300地级市海南省
中山市不统计0不统计中山市442000地级市广东省
海西蒙古族藏族自治州直辖不统计0不统计海西蒙古族藏族自治州632800自治州青海省

省级为空区域

这个地区叫中朝共有领土,在国家基础地理信息数据上有该矢量,但民政部没有相关区划代码,且不能修改,因此该地区的所有相关属性皆为空,仅保留矢量信息。

图片
中朝共有

8数量检查

检查前提

在进行检查前,首先普及一下我国大体的行政区划级别。

图片
我国区划建制

林区,是中国行政区划之一,行政地位与市辖区、县级市、县、自治县、旗、自治旗、特区相同,属县级行政区,现仅有一个,为湖北省直辖的神农架林区

特区,这里指六枝特区属六盘水市辖区域,位于贵州省西部,现仅有一个。

因此:

省级行政单位有:省、直辖市、自治区、特区

市级行政单位有:地级市、自治州、地区、盟

县级行政单位有:区、县级市、县、自治县、旗、自治旗、直辖县、省直辖市、林区、特区

此外,还有省直辖县、省直辖市。在民政部的行政区划等级中不属于任何地级行政区划代管。属于县级行政区,不经地级行政区代管或管辖,由省级行政区直接管辖,独立于地级行政区之外单独建制,由所在的省或自治区直接领导和管理。因此省直辖县、省直辖市无地级行政区,也属于县级行政区。

基于此,我们查询相关的2019年民政部的行政区划统计如下表所示:

合计行政区划单位合计行政区划单位合计行政区划单位
344直辖市
23省
5自治区
2特别行政区
333293 地级市
7 地区
30 自治州
3 盟
2846965 市辖区
387 县级市
1323 县
117 自治县
49 旗
3 自治旗
1 特区
1 林区

县级数量检查

逐个省份进行县级数量检查,检查表格如下:

地区县级数量地区县级数量
北京市16 市辖区湖南省36 市辖区
18 县级市
61 县
7 自治县
天津市16 市辖区广东省65 市辖区
20 县级市
34 县
3 自治县
河北省47 市辖区
21 县级市
94 县
6 自治县
广西壮族自治区41 市辖区
9 县级市
49 县
12 自治县
山西省26 市辖区
11 县级市
80 县
海南省8 市辖区
5 县级市
4 县
6 自治县
内蒙古自治区23 市辖区
11 县级市
17 县
49 旗
3 自治旗
重庆市26 市辖区
8 县
4 自治县
辽宁省59 市辖区
16 县级市
17 县
8 自治县
四川省54 市辖区
18 县级市
107 县
4 自治县
吉林省21 市辖区
20 县级市
16 县
3 自治县
贵州省15 市辖区
9 县级市
52 县
11 自治县
1 特区
黑龙江省54 市辖区
21 县级市
45 县
1 自治县
云南省17 市辖区
17 县级市
66 县
29 自治县
上海市16 市辖区西藏自治区8 市辖区
66 县
江苏省55 市辖区
22 县级市
19 县
陕西省30 市辖区
6 县级市
71 县
浙江省37 市辖区
20 县级市
32 县
1 自治县
甘肃省17 市辖区
5 县级市
57 县
7 自治县
安徽省44 市辖区
9 县级市
52 县
青海省7 市辖区
4 县级市
26 县
7 自治县
福建省29 市辖区
12 县级市
44 县
宁夏回族自治区9 市辖区
2 县级市
11 县
江西省27 市辖区
11 县级市
62 县
新疆维吾尔自治区13 市辖区
26 县级市
61 县
6 自治县
山东省57 市辖区
27 县级市
53 县
香港特别行政区
河南省53 市辖区
22 县级市
83县
澳门特别行政区
湖北省39 市辖区
25 县级市
36 县
2 自治县
1 林区
台湾省

在检查过程中,将错误的县级类型属性改为正确的,最后我国县级类型分布图如下所示:

图片
我国县级类型分布图

地级数量检查

这一步是在数据合并完成后进行的,是对逐个省份进行市级类型检查,主要注意几个无县级行政区的地级市,以及直辖市无地级行政单位。最后我国市级类型分布图如下所示:

图片
我国市级类型分布图

9数据合并

在检查完矢量与属性信息之后,使用数据融合工具进行地级和省级的数据合并。

我国的市级数据如图所示:

图片
我国地级单位分布图

我国的省级数据如图所示:

图片
我国省级单位分布图

10英文属性添加

参考GADM属性信息,给矢量数据添加数据的英文属性,各个属性名称对应的名称如下:

中文英文属性名
地名NAME
县级NAME_3
县级码GID_3
县级类TYPE_3
地级NAME_2
地级码GID_2
地级类TYPE_2
省级NAME_1
省级码GID_1
省级类TYPE_1
地名的中文拼音标注VAR_NAME
县级的中文拼音标注VAR_NAME3
地级的中文拼音标注VAR_NAME2
省级的中文拼音标注VAR_NAME1

省市县的类型英文名对应为:

中文名英文名中文名英文名
County地级市Prefecture City
县级市County City自治州Autonomous Prefecture
自治县Autonomous County地区Prefecture
市辖区DistrictLeague
Banner直辖市Municipality
自治旗Autonomous BannerProvince
林区Forestry Area自治区Autonomous Region
特区(县级)Special District特区Special District


不统计NULL

另外,考虑到汉语拼音是表述普通话语音的拼音系统,后被用作对外宣传的拼写法则,这也就是我们看到大部分省市英文为拼音的原因。也有部分地区是非拼音,使用的是邮政式拼音。例如广东、广西、福建有一部分地区的地名已经有了拉丁字母的习惯拼法,例如Amoy(厦门)、Canton(广州)、Foochow(福州)等。

但考虑到我国一直使用的拼音代表地名,联合国也于1977年起正式改用汉语拼音拼写中国大陆地名,因此本数据全部采用拼音系统代表地名。但单个字的地区,比如广西横县、山西临县等,保留县名称,再命名。带民族的,保留民族的英文名字。

自此,我们获得了完整的具有英文属性的省市县行政区划矢量数据。

图片
我国省级单位(英文属性)

图片

年2020省市县

11数据获取

(1)我也使用vuepress进行网站的搭建,后续的数据将放到该网站上。读者可以登录www.shengshixian.com(谐音:省市县),省市县区划数据网,进行数据下载。 或者网站shengshixianruiduobao.com(上面的网站需要代理上网)

(2)或者读者也可以直接公众号回复  锐多宝矢量  获取。

12写在最后

我为什么会选做这样的事?是因为我在搭建自己的网站(landcover100.com)中,经常遇到行政区划数据的问题。到底该用哪一套行政区划数据深深困扰着我。天地图数据?不完整。中科资环数据?太旧。高德地图数据?属性不够。

因此,我准备自己做一套能够使用的数据。最开始有两个思路,一个是使用民政部的区划数据,该数据的边界精度非常高,且没有数据加偏。但该数据有个问题,民政部并未发布该数据,数据来源的声明不太好写,难道说是通过爬虫获取,哈哈哈。另外一个数据就是该文的思路,基于国家基础地理信息中心发布的县矢量数据,这个数据虽然精度不高,但胜在权威,且可以声明数据来源

因此我打算基于该数据,参考民政部历年行政区划变化情况,做一套长时间序列的行政区划数据。年2020初(截至2019年12月31日)的行政区划数据为基础,将以此为扩展,在半年内构建2015年-2022年的行政区划数据(后续会有增删改查),欢迎持续关注。

13参考

国家基础地理信息中心.https://www./ngcc/html/1/index.html

中国科学院资源环境科学与数据中心.https://www./

确定

  • 不看此公众号

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多