Python爬虫常用模块及工具！

老男孩IT教育 2021-05-19

展开全文

　想要学好Python，除了合适的学习路线外，选择合适的工具也很重要，它可以提高我们的工作效率，也可以节省时间。这篇文章重点为大家介绍Python爬虫常用工具，快跟着小编来看看吧。

　　第一种：常用模块介绍

　　1.requests模块

　　Requests是用Python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，比urllib更方便，可以节省很多时间。

　　2.pyquery模块

　　Pyquery库也是一个非常强大又灵活的网页解析库，是Python仿照juquery的严格实现;与其语法几乎相同，所以不用费心去记一些方法。

　　3.selenium模块

　　Selenium是一套完整的Web应用程序测试系统，包括了测试的录制，编写及运行和测试的并行处理。它的核心是基于Jsunit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。可以模拟真实浏览器，自动化测试工具，支持多种浏览器。

　　4.celery模块

　　Celery是一个由Python编写的简单、灵活、可靠的用来处理大量信息的分布式系统，它同时提供操作和维护分布式系统所需的工具。专注于实时任务处理，支持任务调度。

　　第二种：爬虫框架介绍

　　1. Scrapy：Scrapy是一个为了抓取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy使用Twisted这个异步网络库来处理网络通讯，架构清晰，并且包含各种中间件接口，可以灵活的完成各种需求。

　　2. Pyspider：是一个国人编写的强大的网络爬虫系统并带有强大的WebUI，采用Python编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。

　　第三种：数据库

　　1. Redis数据库：Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。

　　2. MongoDB数据库：MongoDB是一个基于分布式文件存储的数据库，由C++语言编写。旨在为Web应用提供可扩展的高性能数据存储解决方案;MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最想关系数据库的。

　　第四种：消息队列

　　1. RabbitMQ：是一个由于erlang开发的AMQP的开源实现。AMQP的出现其实也是为了广大人民群众需求，虽然在同步消息通讯的世界里有很多公开标准，但是在异步消息处理中却不是这样，只有大企业有一些商业实现，因此2006年，Cisco 、Redhat、iMatix 等联合制定了 AMQP 的公开标准。

　　2. Kafka：由Apache微软基金会开发的一个开源流处理平台，由Scala和Java编写。是一种高吞吐的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据，这种动作是在现代网络上的许多社会功能的一个关键因素。