Nutch配置笔记-softiger-ChinaUnix博客

softiger的IT&nbsp;BLOGsoftiger.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

softiger

博客访问： 2587802
博文数量： 709
博客积分： 12251
博客等级：上将
技术积分： 7905
用户组：普通用户
注册时间： 2005-07-17 00:00

个人简介

实现有价值的IT服务

文章分类

全部博文（709）

IT管理工具（9）
软件工程（0）
IT管理框架（29）
书籍（2）
话里有话（39）
Tivoli（0）
finance（1）
个人工具（21）

工作（20）
技术--java编程--（2）
运营--myweb（0）
文化--人物（1）
生活--搞笑“梨花（1）
运营--互联网要闻（8）
运营--电子商务研（0）
运营--静看电子商（15）
运营--静看互联网（25）

运营--团队管理（0）
运营--团队建设（6）
文化--人文沙龙（6）
管理--项目管理与（17）
文化--历史（7）
技术--模式（0）
技术--J2EE（98）

javascript dom（0）

css（5）

xml处理（1）

Java模式（2）

servlet学习（9）
文化--西方哲学（2）
文化--古诗词（3）
技术--建模（3）
技术--Windows 管（2）
文化--传统文化（30）
技术--JavaScript（8）

drw（3）
随笔（65）

名词解释（7）
运营--Web2.0（18）

运营--web2.0--pi（7）
技术--MySql（49）
技术--网络运用（3）
经常使用站点（2）
运营--网站建设与（11）
运营--社区（0）
运营--Seo技能（2）
技术--安全（5）
技术--Java编程（96）

技术--Java编程--（32）

技术--Java编程--（3）

技术--Java编程--（4）
技术--Web服务器（51）
技术--Ms Sql 相（14）
技术--Oracle相关（2）
技术--Shell编程（10）
技术--Linux系统（41）

网络命令（4）

系统命令（1）
未分配的博文（5）

文章存档

2012年（7）

2011年（147）

2009年（3）

2008年（5）

2007年（74）

2006年（431）

2005年（42）

我的朋友

Nutch配置笔记

相关环境
1、Java jdk1.5.0_08

安装目录：C:\Program Files\Java\jdk1.5.0_08
2、Apache’s Tomcat 5.5
安装目录：C:\Program Files\Apache Software Foundation\Tomcat 5.5
3、OS：Win xp, Cygwin,for shell support （Windows 下需要Linux 模拟器）
安装目录：C:\cygwin
5、nutch-0.7.2
安装目录：D:\nutch

环境变量
1、右键点击我的电脑系统属性——>高级——>环境变量——>系统变量（S）中——>新建

2、
变量名（N）：JAVA_HOME
变量值（V）：C:\Program Files\Java\jdk1.5.0_08
变量名（N）：CLASSPATH
变量值（V）：.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar
变量名（N）：NUTCH_JAVA_HOME
变量值（V）：C:\Program Files\Java\jdk1.5.0_08
变量名（N）：TOMCAT_HOME
变量值（V）：C:\Program Files\Apache Software Foundation\Tomcat 5.5
变量名（N）：Path
变量值（V）：
%SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;%JAVA_HOME%/bin;%TOMCAT_HOME%\bin

爬行

1、D:\nutch\conf\crawl-urlfilter.txt
将MY.DOMAIN.NAME换成想抓的域名，比如

2、打开Cygwin
    cd d:nutch
    在此目录下执行
    bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >& crawl.log
    此命令后，会在当前目录下建立一名为crawled的文件夹，然后对刚才设置的网站进行检索。同时该目录（d:\nutch）下还会生成一个名为crawl.log的日志文件。

3、将nutch-0.7.2.war改名nutch.war ，并复制到到Tomcat 5.5\webapps目录下。

4、在Tomcat 5.5\conf\Catalina\localhost\ 建立nutch.xml，输入如下内容：

5、启动Tomcat，等nutch.war解压后，打开nutch\WEB-INF\classes\nutch-site.xml
修改：
searcher.dir D:\nutch\crawled\

6、在Tomcat 5.5\webapps\nutch\zh\include 下面新建header.jsp，内容就是复制header.html，但是
前面加上
<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
在D:\tomcat\webapps\nutch\search.jsp里面，找到并修改为
"/>
顺便把下面js注释掉
function queryfocus() {
//search.query.focus(); }

7、在Tomcat 5.5\conf\server.xml 找到以下段，并修改

8、重启tomcat，访问就可以看到搜索主页了，而且搜索支持中文和分词。
也可以放到将nutch目录下内容放于webapps/ROOT目录下，通过即可直接访问。

阅读(2240) | 评论(0) | 转发(0) |

上一篇：nutch的一些文章

下一篇：多服务器间共享Session的解决方案

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6