Larbin 一种高效的搜索引擎爬虫工具::[Search Engine]![]() 离开dallas已经整整十天了,基本上除了到处见见人之外基本上没有其它的时间来学习新知识,也没有空将要完成的工作收尾。 Niu.la ,Booso,luliang.dhs.org 和 wespoke 相继宕机,看来年底各个地方的维护都不力。 itseek的开发者多次问起 larbin 的事情,我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工作效率。 1]larbin的简介 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。 2] Larbin的性能特征 我将我自己的网页 六翼作为入口,运行larbin进行5层内的url的抓取。 当时纪录的一些数据: 3] larbin 的作用 总归,larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品,虽然其功能逐渐被 Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得称道。 |
|