Python爬虫连载11

文炳春秋 2020-04-01

展开全文

一、cookie

1.requests可以自动处理cookie信息

import requests

rsp = requests.get("http://www.baidu.com")

#如果对方服务器给传送过来cookie信息，则可以同通过反馈的cookie属性得到

#返回一个cookiejar的实例

cookiejar = rsp.cookies

print(cookiejar)



#可以将cookiejar转换为字典

cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print(cookiedict)

二、session

1.跟服务器端的session不是一个东西

2.模拟一次会话，从客户端浏览器链接服务器开始，到客户端浏览器断开

3.能让我们跨请求保持某些参数，比如在同一个session实例发出的所有请求之间保持cookie

import requests



#创建session对象，可以暴捶cookie的值

ss = requests.session()



headers = {"User-Agent":"xxxxxxxxxxxxxxxxxxxxxxxxx"}



data = {"name":"xxxxxxxxxxxxxxxxxxxxxx"}



#此时，由创建的session管理请求，负责发出请求

ss.post("http://www.baidu.com",data=data,headers=headers)

rsp = ss.get("xxxxxxxxxxxxx")

三、https请求验证ssl证书

1.参数verify负责表示是否需要验证ssl证书，默认是True

2.如果不需要验证ssl证书，则设置成False表示关闭

 

import requests

rsp1 = requests.get("https://www.baidu.com",verify=False)

#如果用verify=True访问12306,会报错，因为它的证书有问题

四、数据提取

1.页面解析和数据提取

（1）结构数据：现有的结构，后有的数据

例如：JSON文件（JSON Path）（转化为Python类型进行操作）、XML文件（转换为python类型（xmltodict)、Xpath、CSS选择器、正则

（2）非结构化数据：先有数据，后有的结构

例如：文本文件、电话号码、邮箱地址（通常处理此类数据，使用正则表达式）、Html文件（使用正则、Xpath、CSS选择器）

五、源码

Reptitle11_1_cookieAndSession.py

Reptitle11_2_SessionAnalysis.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_1_cookieAndSession.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_2_SessionAnalysis.py

2.CSDN：https://blog.csdn.net/weixin_44630050

3.博客园：https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号：傅里叶变换，个人公众号，仅用于学习交流，后台回复”礼包“，获取大数据学习资料

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：文炳春秋 > 《Python资料》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

文炳春秋

关注对话

TA的最新馆藏

糖尿病患者方
祛风除湿、舒筋活血、散瘀止痛方
一定要懂喝茶“叩指礼”，原来对面敲桌子只是对你的回礼
辽宁地区常见的可以食用的山野菜大全，再也不用担心采错野菜了
这些老司机常用灯语，你都知道吗？
现实中最常用的侧方位停车，赶紧来围观！

喜欢该文的人也喜欢更多

热门阅读换一换