加VX:mmp9972 即可获取数十套PDF哦!源码单独私信! 所用模块: re+requests+json 所用环境: windows10 + pycharm 实战分析: 第一步:根据url来在google chrome中分析数据 分析的结果是:数据就是通过json来存储的 第二步: 得到网页的源码 第三步把得到的数据进行解析 第四步:对数据进行解密 第五步:就可以把json的数据拿到并分析得到相应的数据 以下是源码: 1 import json 2 import re 3 4 import requests 5 6 # 在搜索框中输入美食得到的数据q=%E7%BE%8E%E9%A3%9F 7 url = 'https://s.taobao.com/search?q=%E7%BE%8E%E9%A3%9F' 8 response = requests.get(url) 9 # print(response.text) 10 11 # 用正则对html源码进行解析到一个json数据 12 pattern = re.compile('g_page_config =(.*?});', re.S) 13 result = re.search(pattern, response.text) 14 # print(result.group(1)) 15 try: 16 # 发现并不是那么简单而是加密的数据并是有规律可寻的,以下是加密的几个数据段 17 json_data = re.sub('(\\=)|(\\&)|(\\<)|(\\>)', '', result.group(1)) 18 print('数据解密成功') 19 # print(json_data) 20 except Exception as e: 21 print('数据解密失败,原因是:',e) 22 23 24 # json_dumps = json.dumps(json_data) 25 # print(json_dumps) 26 data_count = 1 27 data = json.loads(json_data) 28 # 分析json的数据并把需要的数据给读取出来 29 for good in data['mods']['itemlist']['data']['auctions']: 30 print('商店名:{},商品标题:{},商品图片:{},商品产地:{},商品价格:{},付款人数:{},'.format(good['nick'], good['title'], good['pic_url'], good['item_loc'], good['view_price'],good['view_sales'])) 31 data_count += 1 32 33 print(data_count) )|(\\> 是不是超级简单啊!拿去玩吧! |
|