urllib模块 urllib库是python中自带的模块,也是一个最基本的网络请求库,该模块提供了一个urlopen()方法,通过该方法指定URL发送网络请求来获取数据。 urllib 是一个收集了多个涉及 URL 的模块的包 urllib.request 打开和读取 URL 三行代码即可爬取百度首页源代码: import urllib.request # 打开指定需要爬取的网页 response=urllib.request.urlopen('http://www.baidu.com') # 或者是 # from urllib import request # response = request.urlopen('http://www.baidu.com')
# 打印网页源代码 print(response.read().decode()) 加入decode()是为了避免出现下图中十六进制内容 加入decode()进行解码后 下面三种本篇将不做详述 urllib.error 包含 urllib.request 抛出的异常urllib.parse 用于解析 URLurllib.robotparser 用于解析 robots.txt 文件requests模块requests模块是python中实现HTTP请求的一种方式,是第三方模块,该模块在实现HTTP请求时要比urllib模块简化很多,操作更加人性化。
输出结果如下: 状态码:200 请求地址:http://www.baidu.com/ 头部信息:{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sun, 10 May 2020 02:43:33 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:23 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'} cookie信息:<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]> 这里讲解一下response.text和 response.content的区别
以POST请求为例
请求headers处理当爬取页面由于该网页为防止恶意采集信息而使用反爬虫设置,从而拒绝用户访问,我们可以通过模拟浏览器的头部信息来进行访问,这样就能解决反爬虫设置的问题。 通过浏览器进入指定网页,右击鼠标,选中“检查”,选择“Network”,刷新页面后选择第一条信息,右侧消息头面板将显示下图中请求头部信息 例如: import requests url = 'https://www.bilibili.com/' headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content.decode()) 网络超时在访问一个页面,如果该页面长时间未响应,系统就会判断该网页超时,所以无法打开网页。
部分输出结果如下: 代理服务设置代理IP可以解决不久前可以爬取的网页现在无法爬取了,然后报错——由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败的问题。 例如: import requests
# 设置代理IP proxy = {'http': '117.45.139.139:9006', 'https': '121.36.210.88:8080' } # 发送请求 url = 'https://www.baidu.com' response = requests.get(url, proxies=proxy) # 也就是说如果想取文本数据可以通过response.text # 如果想取图片,文件,则可以通过 response.content # 以字节流的形式打印网页源代码,bytes类型 print(response.content.decode()) # 以文本的形式打印网页源代码,为str类型 print(response.text) # 默认”iso-8859-1”编码,服务器不指定的话是根据网页的响应来猜测编码。 Beautiful Soup模块 Beautiful Soup模块是一个用于HTML和XML文件中提取数据的python库。Beautiful Soup模块自动将输入的文档转换为Unicode编码,输出文档转换为UTF-8编码,你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了,然后,仅仅需要说明一下原始编码方式就可以了。 例如:
运行结果如下: <html><head><title>The Dormouse's story</title></head> <body> <p class='title'><b>The Dormouse's story</b></p> <p class='story'>Once upon a time there were three little sisters; and their names were <a class='sister' href='http:///elsie' id='link1'>Elsie</a>, <a class='sister' href='http:///lacie' id='link2'>Lacie</a> and <a class='sister' href='http:///tillie' id='link3'>Tillie</a>; and they lived at the bottom of a well.</p> <p class='story'>...</p> </body></html> 用Beautiful Soup爬取百度首页标题
运行结果如下: 百度新闻——海量中文资讯平台 |
|