分享

几种开源网络爬虫的简单比较

 昵称16883405 2016-07-16

爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表:

python

还有其他的一些比如Ubicrawler、FAST Crawler、天网蜘蛛等等没有添加进来。

之后主要研究下larbin爬虫,如果有可能会给它添加一个删除功能,因为其排重部分用的是bloom filter算法,这个算法的有点很明显,对大规模数据的处理很快,性能很好,而且内存占用很小,但是什么事都没有尽善尽美的,该算法的直接缺点就是不能删除,还会出现误判情况。关于bloom filter有很多相关论文,网上也有些高质量的文章,暂时不做累述,之后如果自己有不一样的看法,再写关于该算法的文章。

删除功能的算法暂时还不太确定,需要进一步了解,现在了解的counting bloom filter不错,带来的代价是内存占用高一点,园友们有什么建议和想法欢迎提出来哈!

原文链接:http://www.cnblogs.com/shapherd/archive/2011/03/16/crawler_cmp.html

【编辑推荐】

  1. 浅析Python中的列表解析和生成表达式
  2. 自制Python函数帮助查询小工具
  3. 巧用IronPython做更灵活的网页爬虫
  4. 浅谈Python Web的五大框架
  5. Python 3.2 RC3 发布 附下载
【责任编辑:陈贻新 TEL:(010)68476606】

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多