欢迎留言讨论! 爬虫开源项目地址:http://git.oschina.net/coliza/MongooCrawler 既然是构建分布式爬虫架构,分布式说明爬虫能在多台机器同时运行,所以一定是多客户端的,客户端主要用于下载网页,内容会放入队列,多客户端就有可能运行在不同的操作系统不同的语言环境,所以我们让它暂时支持java和scala两种依赖jvm的语言,不用区分平台。提到客户端也一定意味着有服务端的存在,服务端主要用于解析网页,提取url,输出内容到相应的存储器,服务端和客户端使用netty进行通讯,这是C/S模式。还有一种cluster模式,将爬虫部署到集群机器上,之间相互通讯协调,完成下载、分析、存储等功能,这种模式下性能和扩展性都能得到提升。那么问题来了,我们怎么保活呢?很显然是用心跳管理能完成这个功能。那么我们怎么保证可靠性呢?很显然是用tcp通讯协议。那么怎么设计spider的客户端呢?首先明确客户端的功能边界,客户端首先必须接受服务端的指令,服务端让爬哪些url就爬哪些url,所以url由服务端统一管理,服务端会从url队列(以域名区分维护不同的url队列)中取出url并封装后传输给客户端,客户端接受到对象和会插入到队列中,然后客户端从队列中取出url爬取网页并解析(相当于scrapy中downloader和spider的功能集合),解析出的信息封装到对象中传给服务端,服务端接收到这个对象后会传入storechannel(可能是hadoop-hdfs,hbase,elasticsearch)。传过来的url会经过验证和去重后存储到内存数据库中,并将url根据host塞入队列。 爬虫的关键技术: 1、抓取效率 2、链接分析(死链、去重) 3、结构化和非结构化数据提取、正文提取 4、垃圾网页过滤(大量的网页) 5、质量识别 6、分类 7、反爬虫 技术架构设计的初稿是这样的:(待修改)
|
|
来自: WindySky > 《开发一款开源爬虫框架系列》