开发一款开源爬虫框架系列（二）：设计爬虫架构

WindySky 2018-03-01

展开全文

欢迎留言讨论！

爬虫开源项目地址：http://git.oschina.net/coliza/MongooCrawler

既然是构建分布式爬虫架构，分布式说明爬虫能在多台机器同时运行，所以一定是多客户端的，客户端主要用于下载网页，内容会放入队列，多客户端就有可能运行在不同的操作系统不同的语言环境，所以我们让它暂时支持java和scala两种依赖jvm的语言，不用区分平台。提到客户端也一定意味着有服务端的存在，服务端主要用于解析网页，提取url，输出内容到相应的存储器，服务端和客户端使用netty进行通讯，这是C/S模式。还有一种cluster模式，将爬虫部署到集群机器上，之间相互通讯协调，完成下载、分析、存储等功能，这种模式下性能和扩展性都能得到提升。那么问题来了，我们怎么保活呢？很显然是用心跳管理能完成这个功能。那么我们怎么保证可靠性呢？很显然是用tcp通讯协议。那么怎么设计spider的客户端呢？首先明确客户端的功能边界，客户端首先必须接受服务端的指令，服务端让爬哪些url就爬哪些url，所以url由服务端统一管理，服务端会从url队列(以域名区分维护不同的url队列)中取出url并封装后传输给客户端，客户端接受到对象和会插入到队列中，然后客户端从队列中取出url爬取网页并解析（相当于scrapy中downloader和spider的功能集合），解析出的信息封装到对象中传给服务端，服务端接收到这个对象后会传入storechannel（可能是hadoop－hdfs，hbase，elasticsearch）。传过来的url会经过验证和去重后存储到内存数据库中，并将url根据host塞入队列。

爬虫的关键技术：

1、抓取效率

2、链接分析（死链、去重）

3、结构化和非结构化数据提取、正文提取

4、垃圾网页过滤（大量的网页）

5、质量识别

6、分类

7、反爬虫

技术架构设计的初稿是这样的：（待修改）