菜鸟福利！Github 近1万 star，专门针对爬虫新手的开源项目，包含淘宝、微博等网站

awoziji 2020-12-22

展开全文

重磅干货，第一时间送到

在Python的学习中，很多的小伙伴喜欢做爬虫，爬虫程序可以快速的从网络上获取大量的我们感兴趣的数据，但是爬虫程序需要不断的及时的维护，而且要自己从零开始，尤其是对于爬虫新手来讲，写一个爬虫程序是非常煎熬的，学习成本太高了。

小编最近在GitHub上看到了一个爬虫项目，是中文开源的，专门针对于爬虫新手来设计的，赶紧跟大家来分享一下。该项目的名称叫做examples-of-web-crawlers，从名字可以看出，该项目是针对于爬虫的，项目的地址为：

https://github.com/shengqiangzhang/examples-of-web-crawlers

打开该项目的链接后，作者非常清楚的让大家看到，作者提供的是一些非常有趣的，而且代码的通用性和时效性强，最重要的是，代码对于新手非常的友好，配备了大量的注释。

01.项目简介

这位大神开源了很多爬虫的项目，几乎覆盖很多主流的网站，让人眼花缭乱，不信的话，我们来看一下，如下图所示：

可以看到，作者为大家提供了非常丰富的内容介绍，作者不仅仅告诉大家程序是如何编写的，而且还配上了GIF的动图展示。为了更好的展现作者的项目用途，接下来，小编将利用作者提供的程序，来实际运行一下，看一下程序的效果如何。

02.淘宝模拟登录

我们首先以淘宝模拟登录为例，来进行展示，作者使用的是selenium来进行淘宝网页的模拟登录，程序如下图所示：

上述的程序中，可以看到，首先是对象的初始化部分，包括了selenium信息的设置，不加载图片，以便加快访问速度，将selenium打开的网页设置为开发者模式。

在login函数中，先是用selenium代开网页，然后是找到用户名输入和密码输入的标签，并分别输入用户名和密码，然后找到“登录”按钮，并点击登录，这样就可以实现淘宝网页的模拟登录，程序运行效果如下图所示：

可以看到，程序在执行的过程中，分别找到了用户名和密码的位置，并分别输入了用户名和密码后点击登录，登录后的页面中也省略了图片的实现。加快了访问的速度。此外，程序中还给出了非常详尽的使用教程。甚至是包括了浏览器的下载和chromedriver的下载方式。

该项目中还提供了包含GUI界面的程序，同时作者也给出了具体的操作流程。

大家只需要按照指示，将getMovieInRankingList.py文件中的第59行中的executable_path改成自己的chromedriver路径即可。然后点击运行main.py程序即可，其运行效果如下图所示。

当程序运行后，大家可以根据自己的喜好，来分别选择“电影类型”、“获取数量”、“电影评分”、“评价人数”等搜索的关键字，并按照“从排行榜搜索”或者是“从关键字搜索”来抓取豆瓣的电影数据。同样，在程序中，作者仍旧给出了大量的中文注释，非常适合小伙伴对于GUI界面和爬虫程序的学习。

04.总结

以上就是今天小编同大家分享的关于examples-of-web-crawlers项目的内容，大家可以下载该项目，然后进行学习，来提升自己的爬虫能力。当然，由于网页变化速度极快，程序可能有存在报错的可能，需要大家耐心的调试，在调试中提升自己的能力。

传送门地址:

https://github.com/shengqiangzhang/examples-of-web-crawlers

有兴趣的同学，留言吱一声。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： awoziji > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

awoziji

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换