專 欄 简书: http://www.jianshu.com/u/1562c7f16a04 ①抓取简书用户信息 之前我写的爬虫都是将已知的固定数据的网址存到list中,然后遍历list中的网址。这次针对简书,我们使用递归来试一下。 什么是递归 递归的优点 ②抓取淘宝评论 之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据,优点是可见容易且不宜被淘宝公司封锁;缺点是速度太慢。 经过今天一天的钻研,终于学会分析数据包,而且淘宝评论的数据包都是以json格式传输的。除了学会抓包,还要会从json中提取出想要的评论数据才行。 实现难点: 本案例视频讲解如下: ③爬取豆瓣电影名 豆瓣是我很喜欢的平台,一般大家都会去豆瓣看影评,书评,根据评论决定自己是否观看电影或者入手书籍。所以有很多经济管理类的学生有这方面的数据采集需求,当然,我也是其中的一员,对这方面的兴趣促使我学的python。 那么写爬虫前,一定要学会分析网页结构,定位到你要抓的数据所在的节点标签。定位方法有以下几种:
本案例视频讲解如下: |
|
来自: 石头p4g54puvpz > 《爬虫》