上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。前面我们同时说了,爬虫的本质就是找规律,当初这些程序员设计网页时,肯定会依循一些规则,当我们找到规律时,就可以预测他们的行为,达到我们的目的。 今天我们就找找豆瓣网站的规律,想办法抓取全部数据。今天的规律就从常常被人忽略的网址链接开始。 1.链接分析我们先看看第一页的豆瓣网址链接: https://movie.douban.com/top250?start=0&filter=
再看看第二页的网址链接,前面都一样,只有后面的参数变了,变成了 我们再看看第三页的链接,参数变成了 分析 3 个链接我们很容易得出规律:
规律找到了就好办了,只要技术提供支持就行。随着深入学习,你会发现 Web Scraper 的操作并不是难点,最需要思考的其实还是这个找规律。 2.Web Scraper 控制链接参数翻页Web Scraper 针对这种通过超链接数字分页获取分页数据的网页,提供了非常便捷的操作,那就是范围指定器。 比如说你想抓取的网页链接是这样的:
你就可以写成 http:///page/[1-3],把链接改成这样,Web Scraper 就会自动抓取这三个网页的内容。 当然,你也可以写成 http:///page/[1-100],这样就可以抓取前 100 个网页。 那么像我们之前分析的豆瓣网页呢?它不是从 1 到 100 递增的,而是 0 -> 25 -> 50 -> 75 这样每隔 25 跳的,这种怎么办?
其实也很简单,这种情况可以用 https://movie.douban.com/top250?start=[0-225:25]&filter= 这样 Web Scraper 就会抓取 TOP250 的所有网页了。 3.抓取数据解决了链接的问题,接下来就是如何在 Web Scraper 里修改链接了,很简单,就点击两下鼠标: 1.点击 2.进入新的面板后,找到 3.修改原来的网址,图中的红框是不同之处: 修改好了超链接,我们重新抓取网页就好了。操作和上文一样,我这里就简单复述一下:
如果你操作到这里并抓取成功的话,你会发现数据是全部抓取下来了,但是顺序都是乱的。 我们这里先不管顺序问题,因为这个属于数据清洗的内容了,我们现在的专题是数据抓取。先把相关的知识点讲完,再攻克下一个知识点,才是更合理的学习方式。 这期讲了通过修改超链接的方式抓取了 250 个电影的名字。下一期我们说一些简单轻松的内容换换脑子,讲讲 Web Scraper 如何导入别人写好的爬虫文件,导出自己写好的爬虫软件。 4.参考阅读:简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影 5.联系我因为文章发在各大平台上,账号较多不能及时回复评论和私信,有问题可关注公众号 ——「卤蛋实验室」,(或 wx 搜索 egglabs)关注上车防失联。 |
|
来自: senllon > 《Web Scraper》