Python网络爬虫实战三例（附视频讲解）

石头p4g54puvpz 2017-05-10

展开全文

專欄

邓旭东，Python中文社区专栏作者。

简书：

http://www.jianshu.com/u/1562c7f16a04

①抓取简书用户信息

之前我写的爬虫都是将已知的固定数据的网址存到list中，然后遍历list中的网址。这次针对简书，我们使用递归来试一下。

什么是递归
程序（或函数）调用自身的编程技巧称为递归（ recursion）。一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法，它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解。

递归的优点
1、降低问题难度
2、大大地减少了程序的代码量
3、递归的能力在于用有限的语句来定义对象的无限集合
本案例视频讲解如下：

②抓取淘宝评论

之前我水平有限，对于淘宝评论这种动态网页，由于数据在网页源码中是找不到的，所以无法抓取数据，只能使用selenium模仿人操控浏览器来抓数据，优点是可见容易且不宜被淘宝公司封锁；缺点是速度太慢。

经过今天一天的钻研，终于学会分析数据包，而且淘宝评论的数据包都是以json格式传输的。除了学会抓包，还要会从json中提取出想要的评论数据才行。

实现难点：
一、分析数据包，找到淘宝评论传输用的网址，分析网址特点
二、如何从找到的数据包中，从json格式内容中得到想要的数据

本案例视频讲解如下：

③爬取豆瓣电影名

豆瓣是我很喜欢的平台，一般大家都会去豆瓣看影评，书评，根据评论决定自己是否观看电影或者入手书籍。所以有很多经济管理类的学生有这方面的数据采集需求，当然，我也是其中的一员，对这方面的兴趣促使我学的python。

那么写爬虫前，一定要学会分析网页结构，定位到你要抓的数据所在的节点标签。定位方法有以下几种：

本案例视频讲解如下：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：石头p4g54puvpz > 《爬虫》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多