在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www. 。基本定义描述:Heritrix is the Internet Archive‘s open-source, extensible, web-scale, archival-quality web crawler project. 没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。 我对 Mohr 的发言整理一下。主要有以下几点: 主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。 二者的差异:
暂时还没有看到 Doug Cutting 对二者比较的评价. Heritrix 的架构示意图: Nutch 的架构示意图: |
|
来自: 漂在北方的狼 > 《Nutch&Lucene》