配色: 字号:
地名中的大数据,这里有你还未揭开的秘密!
2022-12-19 | 阅:  转:  |  分享 
  
地名中的大数据,这里有你还未揭开的秘密!我们使用中华人民共和国民政部(简称民政部)官网提供的最新的行政区划编码“2020年11月份县以上行政
区划代码”台湾省、香港特别行政区和澳门特别行政区暂缺地市和区县信息除此之外,一共包含了4个直辖市、333个地级行政区和30个省直辖
县级行政区,这也是我们俗称的“城市”的概念,因此我们首先研究这367座城市的名称。在民政部提供的数据中,各行政区划都包含了其区划单
位,比如“北京市”,在分析的时候应该剔除“市”字,只保留其本名。由于自治州县的全名中也包含了相应的民族名称,我们也予以剔除。在处理
后的结果中,367个城市的本名里一共包含了388个不同的汉字,我们根据频数绘制词云图,如下图所示。其中尺寸越大的字说明出现的频率越
高,很明显,“州”字遥遥领先,此外描述方位的“阳”“南”、 描述地理特征的“山”“海”、描述美好愿望的“安”“昌”也比较多。频数排
名第一从“州”字来看,在所有城市中出现了43次,其中在华东出现了21次,占了几乎一半,例如苏州、杭州、扬州等,也占华东所有城市中的
27.2%。频数排名第二从“阳”出现了23次来看,在华中的城市中出现了10次,也接近一半,例如安阳、洛阳、襄阳等,占华中所有城市中
的20.4%。频数第三“南”和“山”,都出现了18次,排第四的是“安”,出现了15次,除了西南地区的“山”字比较多以外,其他的字在
不同区域间没有明显的不同。由此可见,一些和地貌方位、历史传承相关的汉字,在不同区域确实有区别,但很多常用字并没有明显的不同。进一步
说,我们使用县级行政区的名称进行分析,在当前的数据中,一共包含2727个区县旗等行政机构,如果加上30个省直辖县级行政区和86个直
辖市的区县,就有2843个“区县”,我们用同样的方式剔除这些行政单位的后缀,只保留其标识性的本名。在县一级的行政区中,开始出现重名
的现象,例如鼓楼区出现了5次,南京、开封、西安、福州、徐州都有鼓楼区。为什么这5个完全不同的城市都有鼓楼区呢?其实都和鼓楼有关系。
明朝建立之后,在全国省会城市和战略要地都加强了防御工事。开封、西安、福州在明朝都是省会城市,南京是明朝初期的首都,徐州是南北要冲的
兵家必争之地。所以这些城市都需要重新建设防御工事,什么防御工事呢?就是城墙防御体系,最经典的就是鼓楼。随着经济的发展,城市规模也在
扩大,原来鼓楼逐步纳入了市区的一部分。在有的城市,鼓楼甚至成为了市中心建筑。为了便于管理,鼓楼区也就相应出现了。此外在济南、内江、
乐山都有市中区,北京和长春都有朝阳区,朝阳市下还有朝阳县。在这2843个区县中,不重复的汉字一共用了1167个,由于新华字典中的汉
字也只有11200个,而日常生活中常用的汉字只有3500个左右,这些地名中就出现了1000多个汉字,涉及面还是很广的。从频数来看,
出现频率最高的字是:这5个汉字都超过了100次,我们发现,在367个城市名中,这些汉字的频率也很高,可见人们在地名的使用中还是存在
共性的,和行政区划的大小无关。在这5个高频字中,“山”“城”“安”在七大地理分区中出现的比例都比较接近,“阳”在华中的比例非常高,
在其他区域也比较相似,“江”在华南和西南出现的比例很高,在华北和西北出现得比例非常少,说明一些地名和当地的自然情况还是关系比较大的
。我们针对七大地理区域的区县名称,绘制比较词云图,如下图所示。该图用不同颜色的字体展现了不同的地理区域,如果某个字在某个区域出现的
比例越高、在其他区域中出现的比例越低,字体就会越大,且表现为该区域的颜色。有一些字在各大区域中的比例都差不多的就不会显示在图中,从
图中我们可以看到,东北的地名中最具特色的是河、东、铁等字,和东北河流丰富、工业发达的映象是相符的。华北地名中最常出现的是县(单字的
县名保留了“县”字,可见华北的单字县名比较多)、尔、特等字。西北最常出现的是克、玛等字,民族特色都比较明显。西南最具代表性的是江、
川等字,确实是很多大江大川的源头。华南最常见的是南、平,海,也符合当地的特色。华中最常见的是阳、陵,也和当地遍布山水丘陵的地貌相关
。华东最常出现的是湖、溪等字,同样符合人们对这些地方的印象。地名在我们的日常生活中随处可见,当我们游历祖国的大好河山时,地名通常也
是我们对陌生城市的第一印象,通过以上一些简单的统计和分析,可以帮助我们更加清晰地了解全国地名中的一些常见现象和不同区域的差别。以此为引,如果能够进一步地探究其中的深层含义和历史文化,将会是一件非常有趣的事情。
献花(0)
+1
(本文系ldtsg1957首藏)