win7下cygwin + Eclipse + Nutch1

来自：心灵驿站119 > 馆藏分类

配色：

字号：大中小

2013-02-07 | 阅：转： | 分享

win7下cygwin+Eclipse+Nutch1.2+Tomcat7安装配置（成功！）

今天由于学习与工作的需要所以决定自己部署Nutch，在这过程中有很多设置阻挡进程，好不容易成功了，所以记录一下，以供自己和有需要的朋友。

需要的软件：

cygwin、eclipse、Nutch1.2、Tomcat

下面开始安装配置过程

1、cygwin的安装：

cygwin的下载我想就不用介绍了，自行下载就可以，给出一个下载链接：http://cygwin.com/setup.exe

至于他的安装可以参考此日志：http://hi.baidu.com/www100/item/b79723f239cf9449932af29f

cygwin安装完成后一定要在系统环境变量中设置path添加D:\cygwin\bin其中D是你安装的路径

2、eclipse安装

eclipse需要jdk的安装，此处就省略了....

3、Nutch1.2下载与解压

Nutch(推荐使用1.2版本，下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/）

Nutch：全文搜索引擎，这个安装步骤比较繁琐，本文使用的是nutch1.2版本。下载apache-nutch-1.2-bin和源代码（如果你想研究就下载）apache-nutch-1.2-src

安装配置过程：

解压apache-nutch-1.2-bin得到nutch-1.2文件夹

在eclipse中创建一个新的java项目名为NutchTestA．将apache-nutch-1.2-src.zip解压出来的/src/java目录下的代码全部复制到工程的src目录下。B．将解压后的nutch-1.2目录下的lib、plugins、conf三个文件夹复制到新建工程的根目录下(与src同级)。C.右键工程properties，javabuildpath切换到"Libraries"选择"AddClassFolder..."按钮，从列表中选择"conf"，将conf加入到classpath中。D.右键工程properties，切换到"Libraries"选择"AddExternalJARs"按钮，将lib文件夹中的所有jar加入到工程中。这两步完成后看代码应该不会有编译错误了。

E.接下来我们需要配置conf/nutch-site.xml（nutch-site.xml会覆盖nutch-default.xml中的默认配置)，这个需要填写相关的代理属性，应为Nutch也许要准受Robot协议，在爬行人家网站的时候，把相关的信息提交给被爬行的网站。我们在这个文件中，需要在和之间，加入是个代理属性修改conf下的nutch-site.xml，在configuration标签对中添加如下代码:http.agent.nameYourAgentNameHere（可以改为自己喜欢的名字）F.在conf下的nutch-default.xml中找到plugin.folders,将值设为./plugins或者直接为plugins，如果这里设置的不对，会报错:JobFailure，这也是一个常见的错误。G.还是conf下，在crawl-urlfilter.txt中找到+^http://([a-z0-9]\.)MY.DOMAIN.NAME/，改为想抓取的网站的正则表达式，这里我们把这行改为+^，试图抓取qq网站的内容。H.在工程的根目录下建立urls文件夹，其中新建一个url.txt文件，该文件中写入想抓取的网站URL，其实也就是一个爬虫的种子url，这里为了抓取qq的网页，我们添加一个url为http://www.qq.com/，注意这里最后的斜线一定要加上，不然最后的索引结果为0。I.配置java项目的运行参数:

org.apache.nutch.crawl.Crawl作为主类，右键选择Runas->Runconfigration；

ProgramArguments：urls-dircrawl-depth5-threads5-topN100

VMarguments：-Dhadoop.log.dir=logs-Dhadoop.log.file=hadoop.log

urls是存放需要爬行网址的文件夹目录。-dir选项是抓取的页面的存放目录。-threads选项是启动的最大线程数。-depth选项是能爬行的最大深度，也就是最多爬行到第几级的页面，也叫爬行深度。-topN选项是在每层深度上，所能爬行的最多页面数，也称爬行广度。最后点击Eclipse的Run按钮，如果没有什么问题，命令行下面就会显示很多打印的抓取提示，然后是索引之类的。

到此，nutch基本已经安装完毕，下面继续介绍安装tomcat

4、tomcat的安装我也就不多介绍了。。。

5、将nutch部署在Tomcat中.

nutch解压后的文件中的war包放在tomcat的webapps下，启动tomcat，在生成的nutch-1.2文件夹下修改/WEB-INF/classes/nutch-site.xml，设置抓取文件夹的位置（或者直接将war包解压后放进webapps下，并修改其中相关文件）：

searcher.dir

E:\ProgramFiles\eclipse\Workspace\nutch-1.2\crawl

重新启动Tomcat。通过浏览器访问：http://localhost:8080/nutch-1.2，将看到搜索页面。

tomcat的中文搜索乱码设置。

修改tomcat配置文件\conf\server.xml。增加URIEncoding,useBodyEncodingForURI两项。

connectionTimeout="20000"

redirectPort="8443"

URIEncoding="UTF-8"

useBodyEncodingForURI="true"/>

6、一下是我的搜索结果截图

接着自己进行研究喽！望各位也可以成功！！！

献花(0)

(本文系心灵驿站119...首藏)

类似文章 更多

发表评论：