分类: Java
2010-01-06 23:45:30
Nutch是一个开源的Web搜索引擎。
主要分为两个部分:爬虫crawler和查询searcher,两者之间的接口是索引。
JDK1.6
Tomcat6.0
cygwin
nutch1.0
下载地址:
安装目录:C:\Java\jdk1.6.0_14
修改环境变量:
JAVA_HOME= C:\Java\jdk1.6.0_14
CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar
PATH= %JAVA_HOME%\bin
测试:
Java -version
下载地址:
安装目录:C:\tomcat6
安装测试:
a) 启动tomcat:在DOS下,cd C:\tomcat6\bin\startup.bat
b) 浏览器地址栏输入:
出现tomcat主页则成功
更改C:\tomcat6\conf \tomcat-users.xml内容
"manager"/>
"tomcat" password="tomcat" roles="manager"/>
下载地址:
使用原因:
运行Nutch自带的脚本命令需要Linux的环境,使用cygwin来模拟该环境。cygwin是在windows平台上运行的unix模拟环境。
安装目录:C:\cygwin
注意:在选择下载站点需要输入如下网址,并在最后选择本地磁盘安装:
测试:
进入cygwin
下载地址:
版本:nutch-1.0
解压后到:C:\nutch-1.0
设置Nutch的环境变量:
NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14
修改环境变量PATH :
PATH= %JAVA_HOME%\bin; % NUTCH_JAVA_HOME %\bin
在C:\nutch-1.0下建立url.txt文件来制定爬去列表
在txt文件中写入需要爬取的网站地址
测试:
开启Cygwin
cd cygdriver/c/nutch-1.0
bin/nutch
若出现若干命令,则说明Nutch配置成功
# accept hosts in MY.DOMAIN.NAME
+^
http.agent.name <value>my nutch agentvalue>
http.agent.version <value>1.0value>
cd /cygdrive/c/nutch-1.0
Bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log
其中:dir是指定爬取内容所存放的目录,depth表示以要爬取网站顶级网址为起点的爬行深度,threads指定并发的线程数
更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ,将内容更改为索引生成的目录
"1.0"?> "text/xsl" href="nutch-conf.xsl"?>
searcher.dir <value>C:\nutch-1.0\crawledvalue>
修改文件C:\tomcat6\conf\server.xml
"8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443"
acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />