larbin的配置说明: Larbin的配置基本涉及到两个文件。Larbin.conf及Options.h 。larbin.conf进行一些简单的配置。修改此配置文件不需要重新编译larbin。但要修改options.h则需要重新编译。这个文件是你要larbin怎么做的设置文件非常重要。修改要重新编译生成新的larbin再运行。 1.larbin.conf UserAgent : 客服端标识 当对其他网站抓取时被抓取的网站知道是什么抓取的。 httpPort : 用于运行的http web服务器的端口号 (larbin运行时访问http://localhost:8081/ 设置为:httpPort 8081). 如果将端口号设为0 则不会启动web服务器。这允许larbin不作为单线程运行。通过这个查看爬行结果。 inputPort :你要爬去的urls的端口。如果注释掉或设为0 则可能没有任何输入。如果通过手动或者程序提交爬去的urls则必须连接到计算机的TCP端口1976。即设为: inputPort 1076。可以添加爬行的url。 pagesConnexions : 并行爬取网页的数量。根据自己的网络速度调解。如果超时的太多则要降低这个并行数量。 dnsConnexions : 并行dns域名解析的数量。建议为10 。 depthInSite :对一个站点爬取得深度 。 noExternalLinks :不允许访问外部连接。如果设置则只可访问同一HOST的连接。 waitDuration :访问同一服务器的时间间隔。不可低于30s。建议60s,也不会慢。 proxy :是否用代理连接,是则要设置. 可以不用代理就不要用代理连接,用代理很慢,也可能不适合于代理特别是带有缓存的。 StartUrl : 开始爬取得url. 如:StartUrl http:///。 limitToDomain : 这选项可用则不可以爬行指定的特殊域名。设置方式:limitToDomain .fr .dk end 。则不允许爬行这些域名。 forbiddenExtensions : 不想要的扩展名文件。一定不要禁止.html .htm larbin爬得即使它们。实际上指定禁止也一定是无效的。 用法:forbiddenExtensions .tar .gz .deb |
|