配色: 字号:
nutch(windows7环境下的配置)
2013-02-07 | 阅:  转:  |  分享 
  
经过好几天的尝试,终于成功在windows7的环境下将nutch成功运行出来了,下面将经验记下。

1、cygwin的安装:下载地址:http://www.cygwin.com/setup.exe

(1)因为nutch自身的命令是要在linux环境下才能运行,所以先安装了cygwin,Cygwin是一个在Windows下的模拟Linux系统程序。Cygwin的安装: http://www.programarts.com/cfree_ch/doc/help/UsingCF/CompilerSupport/Cygwin/Cygwin1.htm

这个网址对cygwin的安装步骤演示的很详细,对我们这些初步接触cygwin的人有很大的帮助。

下面是我自己安装时的截图

1)安装页面,点击下一步

选择安装目录,可以根据默认,也可以根据自己需要换路径

建立Downloads文件夹,接收下载包





4)选择镜像地址,没有演示中说的:http://www.cygwin.cn

5)选择安装包







6)安装完成







2、下载安装apache-nutch-1.2-bin.zip并设置。下载地址:http://archive.apache.org/dist/nutch/

(1)下载完成后将其解压到D盘,文件夹名为nutch-1.2

(2)输入,打开到d盘目录下nutch-1.2文件夹,输入bin/nutch进行nutch安装测试:出来一系列nutch的命令,证明nutch安装成功;

(3)在Windows系统的环境变量设置中,添加NUTCH_JAVA_HOME环境变量: D:\jdk1.7.0_07。并将其值设为JDK的安装目录。

(4)Nutch抓取网站页面前的预备工作

1)在Nutch-1.2的安装目录下建立一个名为urls的文件夹,并在文件夹下建立url.text文件,在文件中写入:http://www.sohu.com(即要抓取网站的网址)

2))修改网址过滤规则,编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分:



3)修改conf/nutch-site.xml代理信息,在之间添加如下内容



4)修改nutch-1.2\conf\nutch-default.xml文件,找http.agent.name,然后随便设置Value值



注意:如果http.agent.name为空时,在爬行的时候可能出现空指针异常且在tomcat中搜索时可能导致0条记录,所以务必加上。

(5)运行Crawl命令抓取网站内容

1)双击电脑桌面上的Cygwin图标,在命令行窗口中输入:cd/cygdrive/d/nutch-1.2



2)然后再输入:bin/nutchcrawlurls-dircrawled-depth4-threads3-topN30

3)大概1分多钟后,程序运行结束。发现在nutch-1.2目录下被创建了一个名为crawled的文件夹,同时还生成一个名为crawl.log的日志文件。在上述命令的参数中,crawl是nutch检索数据命令,后面跟上要检索的URL文件;

-dir指定抓取内容所存放的目录;

-depth表示以要抓取网站顶级网址为起点的爬行深度;

-threads指定并发的线程数;

-topN抓取时每页的最大抓取链接。



4)抓取结果:



5)在抓取过程中出现过如下问题:



这是设置linux环境变量,可以

jdk下载安装设置:nutch是用java开发的,所以下载jdk1.7.0_07安装。

(1)下载地址: http://download.oracle.com/otn-pub/java/jdk/7u7-b11/jdk-7u7-windows-x64.exe?AuthParam=1349761485_89bac7bb18b87eb21d42858c503c0f3c

(2)下载完成后安装,并设置环境变量:

右键“我的电脑”—“属性”—“高级”—“环境变量”,在系统变量中,

添加JAVA_HOME环境变量:D:\jdk1.7.0_07(其值为jdk安装目录)

添加PATH环境变量:;D:\jdk1.7.0_07\bin

添加CLASSPATH环境变量:D:\jdk1.7.0_07\lib\dt.jar;D:\jdk1.7.0_07\lib\tools.jar;

(3)变量设置成功后可以运行cmd打开命令行,分别输入”java–version”,“java”,“javac”,测试是否安装成功若显示具体信息而没有报错,则安装成功,如下图











4、Tomcat的安装设置:Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器。

(1)下载地址:http://tomcat.apache.org/download-60.cgi

(2)设置CATALINA_BASE环境变量:D:\tomcat;CATALINA_HOME环境变量:D:\tomcat;添加CLASSPATH:%CATALINA_HOME%\lib。

(3)nutch提供了类似google、baidu的网页页面,关闭tomcat服务,在nutch-1.2/下找到nutch-1.2.war文件,放到D:\tomcat\webapps目录下,重新启动tomcat服务,则自动解压出nutch-1.2,修改nutch-1.2/WEB-INF/classes/nutch-site.xml文件内容如下:





注意:1)value的值是爬行后的sina目录位置;2)nutch-1.2.war应在爬完网页再解压;3)每次修改nutch-site.xml都需要重启tomcat

(4)检索爬行结果:

1)启动Tomcat:下的startup.bat。



输入http://localhost:8080/nutch-1.2,输入关键字sohu和十一,就会看到





关于中文乱码问题:

为了支持中文,在tomcat\conf的server.xml里的

里面,增加URIEncoding="UTF-8"useBodyEncodingForURI="true"配置,

最后如:

,每一项都用空格隔开。



献花(0)
+1
(本文系心灵驿站119...首藏)