实现有价值的IT服务
全部博文(709)
分类: Java
2006-12-05 15:35:14
相关环境
1、Java jdk1.5.0_08
安装目录:C:\Program Files\Java\jdk1.5.0_08
2、Apache’s Tomcat 5.5
安装目录:C:\Program Files\Apache Software Foundation\Tomcat 5.5
3、OS:Win xp, Cygwin,for shell support (Windows 下需要Linux 模拟器)
安装目录:C:\cygwin
5、nutch-0.7.2
安装目录:D:\nutch
环境变量
1、右键点击 我的电脑 系统属性——>高级——>环境变量——>系统变量(S)中——>新建
2、
变量名(N):JAVA_HOME
变量值(V):C:\Program Files\Java\jdk1.5.0_08
变量名(N):CLASSPATH
变量值(V):.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar
变量名(N):NUTCH_JAVA_HOME
变量值(V):C:\Program Files\Java\jdk1.5.0_08
变量名(N):TOMCAT_HOME
变量值(V):C:\Program Files\Apache Software Foundation\Tomcat 5.5
变量名(N):Path
变量值(V):
%SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;%JAVA_HOME%/bin;%TOMCAT_HOME%\bin
爬行
1、D:\nutch\conf\crawl-urlfilter.txt
将MY.DOMAIN.NAME换成想抓的域名,比如
2、打开Cygwin
cd d:nutch
在此目录下执行
bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >& crawl.log
此命令后,会在当前目录下建立一名为crawled的文件夹,然后对刚才设置的网站进行检索。同时该目录(d:\nutch)下还会生成一个名为crawl.log的日志文件。
3、将nutch-0.7.2.war改名nutch.war ,并复制到到Tomcat 5.5\webapps目录下。
4、在Tomcat 5.5\conf\Catalina\localhost\ 建立nutch.xml,输入如下内容:
5、启动Tomcat,等nutch.war解压后,打开nutch\WEB-INF\classes\nutch-site.xml
修改:
6、在Tomcat 5.5\webapps\nutch\zh\include 下面新建header.jsp,内容就是复制header.html,但是
前面加上
<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:\tomcat\webapps\nutch\search.jsp里面,找到并修改为
顺便把下面js注释掉
function queryfocus() {
//search.query.focus(); }
7、在Tomcat 5.5\conf\server.xml 找到以下段,并修改
8、重启tomcat,访问 就可以看到搜索主页了,而且搜索支持中文和分词。
也可以放到将nutch目录下内容放于webapps/ROOT目录下,通过即可直接访问。