淘宝的每个商品都有密码的！今天用Python来攻破它！马哥别找我！

ly88 2018-09-21

展开全文

加VX:mmp9972 即可获取数十套PDF哦！源码单独私信！

所用模块：

re+requests+json

所用环境：

windows10 + pycharm

实战分析：

第一步：根据url来在google chrome中分析数据

分析的结果是：数据就是通过json来存储的

第二步：

得到网页的源码

第三步把得到的数据进行解析

第四步：对数据进行解密

第五步：就可以把json的数据拿到并分析得到相应的数据

以下是源码：

1 import json
2 import re
3
4 import requests
5
6 # 在搜索框中输入美食得到的数据q=%E7%BE%8E%E9%A3%9F
7 url = 'https://s.taobao.com/search?q=%E7%BE%8E%E9%A3%9F'
8 response = requests.get(url)
9 # print(response.text)
10
11 # 用正则对html源码进行解析到一个json数据
12 pattern = re.compile('g_page_config =(.*?});', re.S)
13 result = re.search(pattern, response.text)
14 # print(result.group(1))
15 try:
16 # 发现并不是那么简单而是加密的数据并是有规律可寻的，以下是加密的几个数据段
17 json_data = re.sub('(\\=)|(\\&)|(\\<)|(\\>)', '', result.group(1))
18 print('数据解密成功')
19 # print(json_data)
20 except Exception as e:
21 print('数据解密失败，原因是：',e)
22
23
24 # json_dumps = json.dumps(json_data)
25 # print(json_dumps)
26 data_count = 1
27 data = json.loads(json_data)
28 # 分析json的数据并把需要的数据给读取出来
29 for good in data['mods']['itemlist']['data']['auctions']:
30 print('商店名：{},商品标题:{},商品图片：{},商品产地：{},商品价格：{},付款人数：{},'.format(good['nick'], good['title'], good['pic_url'], good['item_loc'], good['view_price'],good['view_sales']))
31 data_count += 1
32
33 print(data_count)

是不是超级简单啊！拿去玩吧！

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： ly88 > 《Python》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多