头条上有很多大佬分享心得,我也每天都在更新,有目录式的:一篇一篇,由浅入深; 有项目式的,一篇一个项目。今天小弟我,分享一下Python爬取煎蛋网的妹子图心得! 第一步: 如果你感觉学不会?莫慌,小编推荐大家加入群, 前面548中间377后面875,群里有志同道合的小伙伴, 互帮互助,还可以拿到许多视频教程! 进cmd建立一个scrapy项目,然后再创建一个spider,语法可以在网上查到。在item中创建我们需要取到的信息对象 这里我就创建了两个,在爬虫spider里就是重头戏了,使用xpath,css等选择器爬取网页中有用的信息,如下: 下面的一个next_url,存在不足,就是在第一页的时候不能够找到这个标签。。(也没有报错不知道为啥) 其实重点也就是,图片链接被js文件中的函数进行加密了而已,使用到了两个函数。 在这里我们发现只需要base64库中的函数进行解码就可以 最后是保存了,在pipeline中函数如下: 代码的可变性比较大,比如说图片的命名,保存路径等。 主要自己对煎蛋网的网页源代码摸得不太熟,希望钻研过的朋友可以不吝赐教。 |
|
来自: AnonymousV脸 > 《手机电脑类知识的文章》