配色: 字号:
用机器学习来帮助吃货的你找最合适的聚点
2016-09-20 | 阅:  转:  |  分享 
  
用机器学习来帮助吃货的你找最合适的聚点



准备食材



首先,我不对这次排行的可信度负责,我只是直接百度的top餐厅,里面的水分大家自己掂量,甩锅给哈尔滨美食最新榜出炉,史上最强300家美食满足你各种挑剔!

大概是这样的



怎么爬我就不重复演示了,这里可以了解动态和静态爬的各种方法可以参考这里,有静态和动态的例子,这次我用静态爬发现被拦截了,mdzz,然后我就直接上selenium+Firefox(这里有一堆用Selenium的不累述了),至于为什么不上PhantomJS,我这里说下,有时候PhantomJS爬的内容没有Firefox全,或许有人跳出来说,你个sb,他两是一样的啊,而且PhantomJS更加省内存,呵呵,你自己去试试就知道了,我不止一次在爬动态的时候PhantomJS遇到问题而Firefox没有问题的(比如这个伪解决Selenium中调用PhantomJS无法模拟点击(click)操作,连xpath都一样,就换了个无头,就不行了,我也有看到StackOverflow上遇到同样问题的,可能是我手法不够吧,或许是我真的理解错了,到时候我自来认错。



清洗食材



刚爬下来的数据肯定不能直接用的,又是空格又是序列的,处理的方法很多,可以用正则,sub换空格,然后splite切割,组成列表再取,洗的方法很多,具体看数据是怎么样的,洗完后放进冰箱,啊不是,放进txt或者保存为csv,xls都可以的呢~



注意点



有些数据,大概三四个,我清洗完之后发现有错误,比如洗出个空格,额。。。。我尝试用try,except检测错误,查看原始数据,发现源链接中的js写的不标准造成的,哎,手动改好,再清洗一遍,不要刻意为了这一两个数据重写清洗算法,不就是sb了想着全自动一步成型,我咋不上天啊。。。



食材腌制-定位经纬度



这个我在上一篇文章中详细写了如何从一个地址转换得到相应的经纬度,可以查看经纬度地址转换的方法集合(Python描述)这里不再赘述,得到的数据格式有两种如下所示



左一为地址+经纬度,逗号隔开,右一为经纬度,空格隔开,为什么要生成两个格式?因为我喜欢啊,哈哈哈



食材保存–转化CSV



直接右键另存为,然后保存格式为.csv即可,有人说,为什么不用csv的写入方法啊,因为我懒啊,我懒得重新构造字典了,这里甩上一段可以写入中文的csv格式。

importcsv

importcodecs



csvfile=file(''csv_test.csv'',''wb'')

csvfile.write(codecs.BOM_UTF8)

writer=csv.writer(csvfile)

writer.writerow([''姓名'',''年龄'',''电话''])



data=[

(''%s'',''25'',''1234567''),

(''С李'',''18'',''789456'')

]

csvfile.close()



弄完之后大概是这样的就可以下锅了



烹饪食材–聚类处理



我们要用的数据集是空格隔开的,至于为什么空格隔开的经纬度数据,因为我以前写好的bikmeans里面输入项就是就是酱紫的,空格用正则比较好处理,用个list装下Obj.[0],[1]立马出来值了,至于Kmeans是啥,怎么用,请看机器学习之K-means算法(Python描述)基础,这里处理完后,我随机设置了5,10,15,20四种聚类点,观察各种效果。代码我在附录放上,参考的可以直接取附录找。聚类处理之后依旧保存如上一步的一张图形式,之后就可以开始可视化了!



佳肴摆上桌–数据可视化



枯燥的数据让人很难受,根本分析不出什么来,而且看着枯燥,这里我用了地图无忧这个网页版,虽然只有七天免费期,哎,辛辛苦苦画的图以后不能用了,(如果有谁知道还有类似的批量经纬度点转化图的软件请告诉我一下)真蛋疼,这里快给大家分享看看吃货的地图,不看就没了!



具体的操作,直接看教程很简单的,我就是建图层,然后图层上批量放入经纬度,它就能转化成地图上的点,很好玩,看个动图,这是我把点放上的效果。



享用佳肴–分析数据



先看下各种分布把,这个是热力图



这个是点阵图



把聚类的点加上,选了聚类点为15个



有些点不错,但是有些点太扯了把,貌似不是kmeans的宗旨的,他是为了找距离各热点最近的平衡点啊,是聚类点啊,但是有几个点明显不是了,查看原因。



问题所在:可以看出来,上面的点分布原因因为这些离散点的存在,我看了最远的点,亚布力滑雪场,的确有家店不错,额,可是我不考虑,我要是在市区玩,我还想去那么远的地方?明显不合理,所以我需要的是真的热点区域,也就是第二幅的那样,所以又要重新洗一下数据了,把离散点也就是噪声去掉!



烧糊了–重新来



虽然整体上来说,这个算法没错,但是如果对具体问题,比如说,我就想知道哈尔滨市内有什么比较好吃的,我懒得动,不会跑到江北或者更远的地方去吃,而且交通不方便,所以就要对经纬度集合进行切割,我找了合适返回,规定为经度范围126.56571~126.706807,纬度返回45.706283~45.802307,主程序中添加LockHotArea子函数,进行再一次过滤即可。

defLockHotArea(location):

HotArea=[]

foriinlocation:

i=re.sub("\n",",",i)

i=re.split(",",i)



if(i[1]>"126.56571"andi[1]<"126.706807")and(i[2]>"45.706283"andi[2]<"45.802307"):

HotArea.append(i)

else:

print"farawayfromhotArea",i



returnHotArea



之后步骤重回前面的,最后的效果就是这样的



回锅肉–再分析数据



这回应该没有问题了,所以开始分析图吧



这里上20个聚类点的情况



可以看出,聚类点的分布基本都在热点区域,说明比较符合情况,但是K的值并不很能确定,需要多次试验k值



cluster15,这些点就有点尴尬了。能说明什么?可能是住宿的最佳点把,因为离各个好吃的距离是比较近的,这本来就是kmeans的核心。



回锅肉上的一颗花椒–单点分析



这里我把24个TOP数据都摆上了图层,可以清晰的看出这些好吃的都分布在哪,这里放上几张示范图,具体自己想看的,可以自己吃货的地图自己定位







可以从图像自带缓冲区看重叠部分,看包子热点

所以综上所述,喜欢吃包子的吃货,可以选择以上的点当做中转点或者住宿点,到哪个包子铺都是比较近的,但是!!!谁会一天三餐加夜宵都吃包子??开个玩笑哈

更多组合



喜欢吃什么,任君挑选,比如说,你又喜欢吃饺子又喜欢串串香,没问题,看看他们都在哪。聚类我没做,懒。和做包子聚类点类似,先把饺



子的经纬度和串串香经纬度挑出来,再进行聚类即可



再比如包子和扒肉你都喜欢,那么看看重合区,不愧是老道外,真的是美食天堂啊!



人气最高&口味最好~这个,额,我一家都没去过。。。。不做分析。。。



当然,你还有不可兼得的烧烤&酸菜,哭



图就到这,更多美食大家自己去发现,点开图层就可以了~



PayAtterntion



1.再进行对热点区域的切割的时候,需要比较阈值,出现了错误,测试发现原来类型错误,比较错误,如下演示。



str1="250"

str2=250

printstr1>"300"#False

printstr1>300#True

printstr2>"100"#False

printstr2>100#True



2.调用API经度误差的问题,具体演示这里,误差我看了一下。能调用的API精度误差大概百米多,没办法,能免费调用的API大家都懂的。



当然,很多都是比较准确的,比如这些。



总结



最终住哪,这不是我能决定的,主要还是靠交通,住宿环境和个人心情,推荐住在地铁附近,吃货可以选择在中央大街附近,最繁华,也里老道外很近,好吃的很多~诶,等等,我不是在做学术研究么,怎么成旅游节目了。。



这里写图片描述



附录–代码



这是核心程序,调用的API_get子程序太长了,请参考经纬度地址转换的方法集合(Python描述)或者在这里进行下载使用源代码集合



#--coding:utf-8--

#Author:哈士奇说喵

importre

importAPI_get



#写入txt操作子函数

defwrite2txt(file,txtname):



f=open(txtname,''a'')

f.write(file)

f.write("\n")

f.close()

#pleaseusethiswithtryexcept/finallf.close()





f=open("C:\\Users\\MrLevo\\PycharmProjects\\test\\KmeansEat.txt","r")

lines=f.readlines()

eatlocation=[]

i=0

#清洗+转换经纬度

forlineinlines:

line=re.sub("\n","",line)

line=re.sub("+","",line)

line=re.split("",line)

try:

line_shopname=line[1].strip()

try:



line=line[2]+line[3]

#printline

line="哈尔滨市"+line

line=line.strip()



try:

lat_lng,lng_latWithCommon=API_get.getLocation_xml(line)

shopWithLocatwww.shanxiwang.netion="%s,%s"%(line_shopname,lng_latWithCommon)

printshopWithLocation

eatlocation.append(shopWithLocation)

#write2txt(lat_lng,"eatOnlyLocation.txt")

except:

print"failed%s"%line

i+=1

except:

line=line[2]

line="哈尔滨市"+line

line=line.strip()



try:

lat_lng,lng_latWithCommon=API_get.getLocation_xml(line)

shopWithLocation="%s,%s"%(line_shopname,lng_latWithCommon)

printshopWithLocation

eatlocation.append(shopWithLocation)

#write2txt(lat_lng,"eatOnlyLocation.txt")

except:

print"failed%s"%line

i+=1

except:

pass



print"failed!%d"%i



#清洗热点

defLockHotArea(location):

HotArea=[]

foriinlocation:

i=re.sub("\n",",",i)

i=re.split(",",i)



if(i[1]>"126.56571"andi[1]<"126.706807")and(i[2]>"45.706283"andi[2]<"45.802307"):

HotArea.append(i)

else:

print"farawayfromhotArea",i



returnHotArea



HotArea=LockHotArea(eatlocation)



#写入数据

foriinHotArea:

rebuild="%s,%s,%s"%(i[0],i[1],i[2])

write2txt(rebuild,"HotAreaWithCommon.txt")

献花(0)
+1
(本文系网络学习天...首藏)