分享

Python——网络爬虫

 excel05 2022-06-29 发布于福建

这一节介绍webbrowser模块浏览网页

import webbrowser

python提供webbrowser模块,可以调用这个模块的open()方法打开指定网页!

文章图片1

下载网页信息使用requests模块

requests模块属于第三方模块,因此需要安装此模块才可以使用:

pip install requests

requests.get()方法内需放置欲下载网页信息的网址当参数,这个方法可以传回网页的HTML源文件。

文章图片2

由上述可知requests.get()方法传回的数据类型是Response对象!!!!!那什么是Response对象呢??

Response对象

Response对象有几个重要属性:

status_code如果值是requests.codes.ok,表示获得的网页内容成功。

文章图片3

text:网页内容。

文章图片4
文章图片5

下载网页失败的异常处理

有些网页由反爬虫机制,会造成网页下载失败。使用抛出异常可以处理类似问题。Response对象有raise_for_status()方法,可以针对网址正确但是后续文件名错误的状况产生异常处理。也可以预防错误网址!!!

文章图片6

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多