【原】Python爬虫学习心得一

戈安御凝 2021-02-02

展开全文

爬虫的基本流程：准备工作，获取数据，解析内容，保存数据。任务介绍需求分析爬取豆瓣电影Top250的基本信息，包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等。https://movie.douban.com/top250

爬虫初识什么是爬虫？网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性，根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。

百度指数：可以对比百度搜索点击热度的数据。电影天堂爬取豆瓣的电影介绍。http://index.baidu.com/v2/index.html#/

天眼查就是数据采集、清洗、聚合、建设、平台。https://www.tianyancha.com/

爬虫可以做什么？你可以爬取妹子的图片，爬取自己想看的视频等等，只要你能通过浏览器访问的数据，都可以通过爬虫获取。

爬虫的本质是什么？模拟浏览器打开网页，获取网页中我们想要的那部分数据。

搜索引擎的原理

基本流程：准备工作-获取数据-解析内容-保存数据

准备工作

通过浏览器查看分析目标网页，学习编程基础规范。

获取数据

通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个response，便是索要获取的页面内容。

解析内容

得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析。

保存数据

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：戈安御凝 > 《python爬虫》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

戈安御凝

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换