 上图中的蓝色线表示秦岭-淮河线,每一个点表示表示一家企业,点的颜色深浅和大小表示该企业距离秦岭-淮河线的距离,颜色越深、点越大表示距离越远,反之则越近。 出于保护原数据的版权考虑,我只给大家分享如下变量(报名培训班可以获取包含全部工企业数据库变量的完整版数据): - 所在区县是否为内部县(不和省界、国界线、海岸线接触的);
其中最后四个变量是 0 1 变量,例如 是否和省界接触 变量,该变量取 1 的时候表示该企业所在的区县和省界接触:  本次分享的数据包含了 1998~2013 年的 440+ 万个观测值! 数据格式方面我提供四个格式的: - 供 R 语言读取的 rds 格式(使用 readr 包中的 read_rds 函数读取);
- 供文本编辑器打开的 csv 格式的数据(用 Excel 打开会出现中文乱码);
- 供 Excel 读取的 csv 格式的数据(文件名中含有 excel 的字样)。
注意事项(请认真阅读)- 所有的地址都是使用高德地图接口批量解析的,可能包含部分解析错误的观测值,不过从上面的地图来看大部分解析的都是正确的;
- 由于工企数据库是 1998~2013 年的,里面的地址自然也是 1998~2013 年的,而高德地图接口返回的经纬度是最新地址的,这也可能导致经纬度错误(这个应该问题不大,毕竟公司搬家的不多。且也没有什么好的办法了);
- 我提供的地理位置数据里有几个公司的名称含乱码,这是原数据的锅;
- 高德地图接口解析得到的是 GCJ02 坐标系的经纬度,我已经转换成了 WGS84 坐标系的,可放心使用;
获取数据
|