分享

cookie在爬虫中的应用

 生信修炼手册 2020-10-23
当爬取需要登录之后才可以获取的页面时,我们就可以借助cookie来实现。cookie是一种存储在本地浏览器中的用户认证信息,具体表现为一串字符串。当我们在浏览器中登录之后,可以通过F12查看对应的cookie信息,示例如下

cookie的表现形式是键值对,类似python中的字典,可以有多个键,有些网站还会对值进行加密处理。

cookie是一个动态信息,是和服务器交互之后生成的,具有时效性,在有效期内,cookie可以保持用户的登录状态,避免重复登录。当我们手动重新登录时,可以看到cookie的信息发生了变化

利用cookie的这一特性,一个简便的爬取办法是从浏览器获取cookie, 然后用该cookie来与网站交互,从而绕过了登录的限制。在urllib模块中的用法如下

>>> headers = {
...   'Cookie': 'sessionid=feli4ngf23njptxxb0qma5tl04x8wc43; csrftoken=O9YSm7TMaIb2ZdqEnENJY1GBXj3xUE26',
...   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
... }
>>> request = urllib.request.Request('http://www.', headers = headers)
>>> response = urllib.request.urlopen(request)

requests模块中的用法如下

>>> import requests
>>> headers = {
...   'Cookie': 'sessionid=feli4ngf23njptxxb0qma5tl04x8wc43; csrftoken=O9YSm7TMaIb2ZdqEnENJY1GBXj3xUE26',
...   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
... }
>>> r = requests.get('http://www.', headers=headers)

如果是短时的数据采集操作,用这种方式还是相当便利的。为了克服cookie的时效性问题,也可以通过爬虫模拟登录,然后动态获取cookie信息。当然,模拟登录是比较复杂的,对于简单的用户名和密码登录的网站,程序处理还比较简单,对于需要验证码的网站,验证码的机器识别的难度决定了模拟登录的难度。

可以做到模拟登录的话,就可以通过http.cookiejar来自动管理cookie, 代码如下

>>> import urllib.request
>>> import http.cookiejar
>>>
>>> url = 'http://www.'
>>> user = 'user'
>>> password = 'passwd'
>>> # 账号,密码的验证
>>> pwdmgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()
>>> pwdmgr.add_password(None, url, user, password)
>>> auth_handler = urllib.request.HTTPBasicAuthHandler(pwdmgr)
>>>
>>> # cookie处理
>>> cookies = http.cookiejar.CookieJar()
>>> cookie_handler = urllib.request.HTTPCookieProcessor(cookies)
>>>
>>> # 构建opener
>>> opener = urllib.request.build_opener(auth_handler, cookie_handler)
>>>
>>> # 安装为全局
>>> urllib.request.install_opener(opener)
>>>
>>> r = urllib.request.urlopen(url)
>>>
>>> for item in cookies:
... print(item.name+'='+item.value)
...
sessionid=frrg9le03nkw959upu1bnrew9j4eu5ex

cookie可以保护我们的登录信息,适用于爬取需要登录之后才能查看的页面,手动管理操作简便,自动管理需要克服模拟登录的难点。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多