配色: 字号:
win7下cygwin + Eclipse + Nutch1
2013-02-07 | 阅:  转:  |  分享 
  
win7下cygwin+Eclipse+Nutch1.2+Tomcat7安装配置(成功!)

今天由于学习与工作的需要所以决定自己部署Nutch,在这过程中有很多设置阻挡进程,好不容易成功了,所以记录一下,以供自己和有需要的朋友。

需要的软件:

cygwin、eclipse、Nutch1.2、Tomcat

下面开始安装配置过程

1、cygwin的安装:

cygwin的下载我想就不用介绍了,自行下载就可以,给出一个下载链接:http://cygwin.com/setup.exe

至于他的安装可以参考此日志:http://hi.baidu.com/www100/item/b79723f239cf9449932af29f

cygwin安装完成后一定要在系统环境变量中设置path添加D:\cygwin\bin其中D是你安装的路径

2、eclipse安装

eclipse需要jdk的安装,此处就省略了....

3、Nutch1.2下载与解压

Nutch(推荐使用1.2版本,下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/)

Nutch:全文搜索引擎,这个安装步骤比较繁琐,本文使用的是nutch1.2版本。下载apache-nutch-1.2-bin和源代码(如果你想研究就下载)apache-nutch-1.2-src

安装配置过程:

解压apache-nutch-1.2-bin得到nutch-1.2文件夹

在eclipse中创建一个新的java项目名为NutchTestA.将apache-nutch-1.2-src.zip解压出来的/src/java目录下的代码全部复制到工程的src目录下。B.将解压后的nutch-1.2目录下的lib、plugins、conf三个文件夹复制到新建工程的根目录下(与src同级)。C.右键工程properties,javabuildpath切换到"Libraries"选择"AddClassFolder..."按钮,从列表中选择"conf",将conf加入到classpath中。D.右键工程properties,切换到"Libraries"选择"AddExternalJARs"按钮,将lib文件夹中的所有jar加入到工程中。这两步完成后看代码应该不会有编译错误了。

E.接下来我们需要配置conf/nutch-site.xml(nutch-site.xml会覆盖nutch-default.xml中的默认配置),这个需要填写相关的代理属性,应为Nutch也许要准受Robot协议,在爬行人家网站的时候,把相关的信息提交给被爬行的网站。我们在这个文件中,需要在之间,加入是个代理属性修改conf下的nutch-site.xml,在configuration标签对中添加如下代码:http.agent.nameYourAgentNameHere(可以改为自己喜欢的名字)F.在conf下的nutch-default.xml中找到plugin.folders,将值设为./plugins或者直接为plugins,如果这里设置的不对,会报错:JobFailure,这也是一个常见的错误。G.还是conf下,在crawl-urlfilter.txt中找到+^http://([a-z0-9]\.)MY.DOMAIN.NAME/,改为想抓取的网站的正则表达式,这里我们把这行改为+^,试图抓取qq网站的内容。H.在工程的根目录下建立urls文件夹,其中新建一个url.txt文件,该文件中写入想抓取的网站URL,其实也就是一个爬虫的种子url,这里为了抓取qq的网页,我们添加一个url为http://www.qq.com/,注意这里最后的斜线一定要加上,不然最后的索引结果为0。I.配置java项目的运行参数:

org.apache.nutch.crawl.Crawl作为主类,右键选择Runas->Runconfigration;

ProgramArguments:urls-dircrawl-depth5-threads5-topN100

VMarguments:-Dhadoop.log.dir=logs-Dhadoop.log.file=hadoop.log

urls是存放需要爬行网址的文件夹目录。-dir选项是抓取的页面的存放目录。-threads选项是启动的最大线程数。-depth选项是能爬行的最大深度,也就是最多爬行到第几级的页面,也叫爬行深度。-topN选项是在每层深度上,所能爬行的最多页面数,也称爬行广度。最后点击Eclipse的Run按钮,如果没有什么问题,命令行下面就会显示很多打印的抓取提示,然后是索引之类的。

到此,nutch基本已经安装完毕,下面继续介绍安装tomcat

4、tomcat的安装我也就不多介绍了。。。

5、将nutch部署在Tomcat中.

nutch解压后的文件中的war包放在tomcat的webapps下,启动tomcat,在生成的nutch-1.2文件夹下修改/WEB-INF/classes/nutch-site.xml,设置抓取文件夹的位置(或者直接将war包解压后放进webapps下,并修改其中相关文件):



searcher.dir

E:\ProgramFiles\eclipse\Workspace\nutch-1.2\crawl



重新启动Tomcat。通过浏览器访问:http://localhost:8080/nutch-1.2,将看到搜索页面。

tomcat的中文搜索乱码设置。

修改tomcat配置文件\conf\server.xml。增加URIEncoding,useBodyEncodingForURI两项。


connectionTimeout="20000"

redirectPort="8443"

URIEncoding="UTF-8"

useBodyEncodingForURI="true"/>

6、一下是我的搜索结果截图













接着自己进行研究喽!望各位也可以成功!!!



献花(0)
+1
(本文系心灵驿站119...首藏)