分享

Python爬虫 百度地图搜索数据采集

 大傻子的文渊阁 2019-12-18

之前在网上看到有流传VBA编写的版本,不过参数固定,通用性并不强.

趁空闲时间用Python来简单分析制作一个简单的爬虫小脚本。

三个参数主要考虑的,一个是地理位置,一个是关键词,一个是页数。在抓包的过程中对“页数”这个参数纠结了很久,一直没看明白,后面仔细对比才找到猫腻。

先说说地理位置:


需要按指定地址搜索的时候会需要一个叫City_Code 的参数,输入搜索的时候可以爬取到,输入后有上述的几种情况,不存在会强制要求你重新输入,如果输入“广东”就会定位在广东省内,不过实际搜索关键词的时候页面并不会显示广东所有的结果,而是需要你做二次选择。

在百度的开发平台有城市代码可以直接下载,不过并不完整,有需要的可以自行下载查阅http://developer.baidu.com/map/devRes.htm

  1. parameter = {
  2. "newmap": "1",
  3. "reqflag": "pcmap",
  4. "biz": "1",
  5. "from": "webmap",
  6. "da_par": "direct",
  7. "pcevaname": "pc4.1",
  8. "qt": "con",
  9. "c": City_Code, # 城市代码
  10. "wd": key_word, # 搜索关键词
  11. "wd2": "",
  12. "pn": page, # 页数
  13. "nn": page * 10,
  14. "db": "0",
  15. "sug": "0",
  16. "addr": "0",
  17. "da_src": "pcmappg.poi.page",
  18. "on_gel": "1",
  19. "src": "7",
  20. "gr": "3",
  21. "l": "12",
  22. "tn": "B_NORMAL_MAP",
  23. # "u_loc": "12621219.536556,2630747.285024",
  24. "ie": "utf-8",
  25. # "b": "(11845157.18,3047692.2;11922085.18,3073932.2)", #这个应该是地理位置坐标,可以忽略
  26. "t": "1468896652886"
  27. }
页数的参数有两个,一个是"pn",另外一个是"nn",没搞明白两者之间的关系;

pn=0,nn=0     第一页

pn=1,nn=10    第二页

pn=2,nn=20    第三页

pn=3,nn=30    第四页

"nn"参数在调试过程中试过固定的话但是返回的数据是一样的。

  1. url = 'http://map.baidu.com/'
  2. htm = requests.get(url, params=parameter)
  3. htm = htm.text.encode('latin-1').decode('unicode_escape') # 转码
  4. pattern = r'(?<=\baddress_norm":"\[).+?(?="ty":)'
  5. htm = re.findall(pattern, htm) # 按段落匹配
  6. for r in htm:
  7. pattern = r'(?<=\b"\},"name":").+?(?=")'
  8. name = re.findall(pattern, r)
  9. if not name:
  10. pattern = r'(?<=\b,"name":").+?(?=")'
  11. name = re.findall(pattern, r)
  12. print(name[0]) # 名称
  13. pattern = r'.+?(?=")'
  14. adr = re.findall(pattern, r)
  15. pattern = r'\(.+?\['
  16. address = re.sub(pattern, ' ', adr[0])
  17. pattern = r'\(.+?\]'
  18. address = re.sub(pattern, ' ', address)
  19. print(address) # 地址
  20. pattern = r'(?<="phone":").+?(?=")'
  21. phone = re.findall(pattern, r)
  22. print(phone[0]) #电话

运行结果:


代码是Python3.4版本编写的,代码很简单,用requests和re就可以得到结果。

再谈谈城市代码,网页GET的参数都是一样的,要获取输入的城市代码的话,可以做个for循环匹配,试过拿0到10000的,结果抓不完,默认顺序是省份开始,然后到市区到县,前端现实是一样的,但代码不同,就像广州,抓出来有几个广州的代码,其实它分为广州市,广州市下面又按区来做了区分,同一个地址名称用不同代码去搜索,结果是不同的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多