分享

Python爬虫学习心得一

 戈安御凝 2021-02-02

学习来源:https://www.bilibili.com/video/BV12E411A7ZQ?p=15

爬虫的基本流程:准备工作,获取数据,解析内容,保存数据。任务介绍需求分析爬取豆瓣电影Top250的基本信息,包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等。https://movie.douban.com/top250

爬虫初识什么是爬虫?网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。

百度指数:可以对比百度搜索点击热度的数据。电影天堂爬取豆瓣的电影介绍。http://index.baidu.com/v2/index.html#/

天眼查就是数据采集、清洗、聚合、建设、平台。https://www.tianyancha.com/

爬虫可以做什么?你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据,都可以通过爬虫获取。

爬虫的本质是什么?模拟浏览器打开网页,获取网页中我们想要的那部分数据。

搜索引擎的原理

  

基本流程:准备工作-获取数据-解析内容-保存数据

准备工作

通过浏览器查看分析目标网页,学习编程基础规范。

获取数据

通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个response,便是索要获取的页面内容。

解析内容

得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析。

保存数据

保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多