配色: 字号:
GeoHash算法解析:马太航
2015-11-13 | 阅:  转:  |  分享 
  
GeoHash算法解析:马太航信息检索的过程,排序是非常重要的一个环节,传统的一维数据排序,往往采用B树索引排序,它要求数据类型是可排序的,
比如整型、字符串、浮点型数据;而对于二维的地理位置,B树索引便无能为力了,GeoHash便是为了解决二维地理位置排序而出现的一套算
法技术。由于二维坐标不可排序,GeoHash解决此问题的思路是将二维数据转换为一维数据。GeoHash将二维的经纬度转换转换为字符
串,每个字符串不是代表一个点,而是代表了一个矩形区域,这个矩形区域内的所有点都享有共同的GeoHash位置信息。GeoHash位置
有如下4个特点:字符串长度与位置精度对应;字符串相近表示距离相近,这样有利于使用字符串匹配来进行附近信息查询;由于位置表示的是一个
矩形区域,有利于隐私信息保护;点在位置所表示的矩形区域内移动,位置信息不变,这样有利于做数据的缓存。GeoHash仅仅通过一个字符
串来表示位置信息,GeoHash字符串的产生是通过确定的算法计算得来的。GeoHash有多种算法,算法根据空间曲线填充方式来确定。
目前常用的几种空间曲线有3种:Peano曲线、Hilbert曲线、Z-order曲线。下面以Peano曲线来说明GeoHash字符
串的计算方式,步骤可分为:二进制转换、组码、base32编码。二进制转换:以GPS坐标(39.928167,116.389550
)来计算。下面是经度的计算步骤:1)将纬度区间[-90,90]二分为[-90,0),[0,90](称为左右区间),可以确定39.9
28167属于右区间[0,90],给标记为1;2)继续将区间[0,90]二分为[0,45),[45,90],可以确定39.928
167属于左区间[0,45),给标记为0;3)递归上述过程,39.928167总是属于某个区间[a,b]。随着每次迭代区间[a,
b]总在缩小,并越来越逼近39.928167;给定的纬度x(39.928167)属于左区间,则记录0,如果属于右区间则记录1,这样
随着算法的进行会产生一个序列1011100011,序列的长度跟给定的区间划分次数有关,划分次数依需求精度而定。经度的计算方式与维
度类似,产生序列1101001011。组码:将维度和经度产生的序列依次交叉组合,偶数位放经度,奇数位放偶数,生成新的二进制序列:
11100111010010001111。base32编码:首先将11100111010010001111转成十进制,
对应着28、29、4、15,十进制对应的编码就是wx4g。wx4g既是需要的GeoHash字符串。GeoHash将二维坐标信息转换
成了一维的字符串,实现了距离的排序,可以应用于LBS检索过程。比如检索天安门附近的餐厅,可以先将天安门的坐标转换为GeoHash字
符串(w34g6f7k),然后通过数据库模糊来对查询数据的位置信息进行限制(比如SQL可使用like‘w34g6f%’来实现),
查询范围可以通过字符串的长度来进行控制,如果要扩大查询范围,则只需去掉末位字符缩短字符串长度。实际业务中使用GeoHash算法时,
可能会出现以下几个问题:1.由于GeoHash将矩形区域编码为一个字符串,这会导致以矩形边界上的点为中心时,可能距离很近的信息却在
不同的矩形区域里。这个问题可以通过手动扩大查找范围来优化。2.GeoHash算法使用了空间填充曲线,这种曲线会导致矩形编码突变,使
附近信息查询不能完全依靠模糊匹配进行。这个问题,可以通过手动计算周围8个矩形区域,然后通过绝对匹配来解决。3.GeoHash不能计
算距离,这对距离要求较高或要求直接显示距离的业务无能为力,这时可以将GeoHash视为缩小查询范围的辅助工具,距离的计算采用其他的方式(比如SQL计算)。
献花(0)
+1
(本文系hanlixuan20...首藏)