基于redis的IP地址快速查询

vclyin 2018-08-22

展开全文

在一些大数据处理中，我们需要用到IP地址查询，一般为了查询一个IP属于哪个地址，我们通常需要根据一个IP数据库来查询，网络上比较常用的IP库是纯真IP数据库。IP数据库里面的记录一般存储方式为IP的开始和结束的数字段，比如 "221.179.172.1-221.179.175.254 中国移动/北京市" 我们通常把IP转换为长整型存储为"3719539713,3719540734,中国移动,北京市"，我们查询的时候就可以先把IP转换为长整型，然后去大于开始，小于结束这个条件去查询，但是一般IP数据库都有几十万条数据，我们去这样查询，即使建立索引或者全部放到内存查询，效率还是不太高，通常1秒查询几百次，看上去效率已经很高了，但是试想如果我要查询1亿次，就需要几百个小时，在做大数据量数据处理的时候，这个速度还是很慢的。

为了提高查询速度，我们引入redis，redis是目前热门的Nosql数据库，很多大的公司都在用，具体的用法大家可以查查资料，redis中有一种数据结构是有序集合 sortset,我的IP数据库可以转化为sortset存储，一个sortset中存储所有的IP记录(所有的IP地址区间不允许重复)，结构为value中存储IP的开始(长整型)，结束(长整型)，省份等，分别依照逗号隔开，score中存放的是IP的结束值(长整型)

举例为

value	score
1,5，中国移动，北京市	5
10,20，中国联通，上海市	20

比如我们查询一个IP，IP转化为长整型的数字为 2，然后我们查询的时候就通过sortset 的zrangebyscore ranges 2 +inf LIMIT 0 1 这样我们就查询出来大于2的第一条记录，这样我们查询出来记录为 “1,5,中国移动,北京市” 然后我们在判断一下我们要查询的地址在不在 1,5之间，2在1,5之间，所以查出来了2对应的IP地址为中国移动北京市，再比如我们要查询的IP地址数字为 8，通过zrangebyscore ranges 8 +inf LIMIT 0 1 我们查询到了 10,20,中国联通,上海市，但是8不在10,20之间，所以查询不到此IP对应的地址。

通过这个思路，我写了个测试程序，100000次查询，IP记录172738条，耗时5.2秒左右，差不多一秒钟两万次，我在windows下测试的,机器配置（固态硬盘）为