分享

Python爬虫似懂非懂?这个煎蛋网的零基础爬虫再合适不过!

 AnonymousV脸 2018-09-26

头条上有很多大佬分享心得,我也每天都在更新,有目录式的:一篇一篇,由浅入深;

有项目式的,一篇一个项目。今天小弟我,分享一下Python爬取煎蛋网的妹子图心得!

第一步:

如果你感觉学不会?莫慌,小编推荐大家加入群,

前面548中间377后面875,群里有志同道合的小伙伴,

互帮互助,还可以拿到许多视频教程!

进cmd建立一个scrapy项目,然后再创建一个spider,语法可以在网上查到。在item中创建我们需要取到的信息对象

这里我就创建了两个,在爬虫spider里就是重头戏了,使用xpath,css等选择器爬取网页中有用的信息,如下:

下面的一个next_url,存在不足,就是在第一页的时候不能够找到这个标签。。(也没有报错不知道为啥)

其实重点也就是,图片链接被js文件中的函数进行加密了而已,使用到了两个函数。

在这里我们发现只需要base64库中的函数进行解码就可以

最后是保存了,在pipeline中函数如下:

代码的可变性比较大,比如说图片的命名,保存路径等。

主要自己对煎蛋网的网页源代码摸得不太熟,希望钻研过的朋友可以不吝赐教。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多