搜索

分享

QQ空间 QQ好友新浪微博微信

未知都是已知的: Heritrix Crawler vs. Nutch Crawler

漂在北方的狼 2006-10-31

展开全文

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下，该项目的领导者是 Gordon Mohr ，Heritrix 主要用在 http://www. 。基本定义描述：

Heritrix is the Internet Archive‘s open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿，在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

我对 Mohr 的发言整理一下。主要有以下几点:

主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整，允许弹性的定义要获取的URL。

二者的差异：

Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
Nutch 可以修剪内容，或者对内容格式进行转换。
Nutch 保存内容为数据库优化格式便于以后索引；刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
Nutch 的定制能力不够强，不过现在已经有了一定改进。Heritrix 可控制的参数更多。

暂时还没有看到 Doug Cutting 对二者比较的评价．

Heritrix 的架构示意图：

Heritrix Arch.png

Nutch 的架构示意图：

Nutch Architecture.png

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：漂在北方的狼 > 《Nutch&Lucene》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

漂在北方的狼

关注对话

TA的最新馆藏

一个RoR的站点性能优化的故事(4) | ityum.net
一个RoR的站点性能优化的故事(3) | ityum.net
一个RoR的站点性能优化的故事(2) | ityum.net
一个RoR的站点性能优化的故事(1) | ityum.net
MySpace的六次重构 | ityum.net
我的Maven之旅(1)-为什么使用maven

喜欢该文的人也喜欢更多

热门阅读换一换