Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2554277
  • 博文数量: 709
  • 博客积分: 12251
  • 博客等级: 上将
  • 技术积分: 7905
  • 用 户 组: 普通用户
  • 注册时间: 2005-07-17 00:00
个人简介

实现有价值的IT服务

文章存档

2012年(7)

2011年(147)

2009年(3)

2008年(5)

2007年(74)

2006年(431)

2005年(42)

分类: Java

2006-12-05 15:35:14

Nutch配置笔记

相关环境
1、Java jdk1.5.0_08

安装目录:C:\Program Files\Java\jdk1.5.0_08
2、Apache’s Tomcat 5.5
安装目录:C:\Program Files\Apache Software Foundation\Tomcat 5.5
3、OS:Win xp, Cygwin,for shell support (Windows 下需要Linux 模拟器)
安装目录:C:\cygwin
5、nutch-0.7.2
安装目录:D:\nutch  

环境变量
1、右键点击 我的电脑 系统属性——>高级——>环境变量——>系统变量(S)中——>新建

2、
变量名(N):JAVA_HOME
变量值(V):C:\Program Files\Java\jdk1.5.0_08  
变量名(N):CLASSPATH
变量值(V):.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar 
变量名(N):NUTCH_JAVA_HOME
变量值(V):C:\Program Files\Java\jdk1.5.0_08 
变量名(N):TOMCAT_HOME
变量值(V):C:\Program Files\Apache Software Foundation\Tomcat 5.5 
变量名(N):Path
变量值(V):
%SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;%JAVA_HOME%/bin;%TOMCAT_HOME%\bin

 爬行

1、D:\nutch\conf\crawl-urlfilter.txt
将MY.DOMAIN.NAME换成想抓的域名,比如

2、打开Cygwin 
    cd d:nutch 
    在此目录下执行
    bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >& crawl.log 
    此命令后,会在当前目录下建立一名为crawled的文件夹,然后对刚才设置的网站进行检索。同时该目录(d:\nutch)下还会生成一个名为crawl.log的日志文件。

3、将nutch-0.7.2.war改名nutch.war ,并复制到到Tomcat 5.5\webapps目录下。

4、在Tomcat 5.5\conf\Catalina\localhost\ 建立nutch.xml,输入如下内容:


5、启动Tomcat,等nutch.war解压后,打开nutch\WEB-INF\classes\nutch-site.xml
修改:
searcher.dir D:\nutch\crawled\

6、在Tomcat 5.5\webapps\nutch\zh\include 下面新建header.jsp,内容就是复制header.html,但是
前面加上
<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:\tomcat\webapps\nutch\search.jsp里面,找到并修改为
"/>
顺便把下面js注释掉
function queryfocus() {
//search.query.focus(); }

7、在Tomcat 5.5\conf\server.xml 找到以下段,并修改


8、重启tomcat,访问 就可以看到搜索主页了,而且搜索支持中文和分词。
也可以放到将nutch目录下内容放于webapps/ROOT目录下,通过即可直接访问。

阅读(2192) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~