喜欢编程的鱼

首页　| 　博文目录　| 　关于我

oop_ming

博客访问： 2033893
博文数量： 606
博客积分： 9991
博客等级：中将
技术积分： 5725
用户组：普通用户
注册时间： 2008-07-17 19:07

文章分类

全部博文（606）

C-sharp（1）
数据建模（1）

UML（1）
数据挖掘（8）

文本分类（2）
服务器（2）

Apache Http serv（2）
性能调优（3）

JProfiler（3）
网络技术（1）
信息安全（4）
搜索引擎（22）

Apache Lucene Ma（1）

googleapi（3）

nutch（10）

heritrix（1）

lucene（7）
设计模式（13）

J2EE模式（2）

行为模式（4）

结构模式（1）

创建模式（3）
web（88）

FreeMarker（1）

Weblogic（3）

JSF（1）

Ajax（12）

Tomcat（5）

xml（6）

servlet（4）

JSP（19）

css（2）

javascript（30）

html（5）
开发工具（38）

Flex Builder（10）

NetBeans（0）

eclipse（28）
算法设计（6）
操作系统（30）

Linux（24）

windows（2）

Solaris（4）
数据库（65）

Memcached（2）

NoSQL（0）

MS SQL（18）

MySQL（13）

Oracle（32）
软件工程（2）
Java（249）

iBATIS（1）

junit（3）

J2ME（1）

SWT（2）

webservice（17）

quartz（6）

J2EE（11）

J2SE（80）

面试题集（2）

问题集锦（1）

其他（8）

ANT（3）

jboss（1）

hibernate（56）

spring（33）

struts（23）
未分配的博文（73）

文章存档

2011年（10）

2010年（67）

2009年（155）

2008年（386）

我的朋友

一、简介

　　Nutch是一个开源的Web搜索引擎。

主要分为两个部分：爬虫crawler和查询searcher，两者之间的接口是索引。

二、需要的软件

JDK1.6
Tomcat6.0
cygwin
nutch1.0

三、安装与配置

1. JDK

下载地址：
安装目录：C:\Java\jdk1.6.0_14
修改环境变量：

JAVA_HOME= C:\Java\jdk1.6.0_14

CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar

PATH= %JAVA_HOME%\bin

测试：

Java -version

2. Tomcat6.0

下载地址：

安装目录：C:\tomcat6
安装测试：
        a) 启动tomcat：在DOS下，cd C:\tomcat6\bin\startup.bat

        b) 浏览器地址栏输入：

出现tomcat主页则成功

更改C:\tomcat6\conf \tomcat-users.xml内容

　　"manager"/>

　　"tomcat" password="tomcat" roles="manager"/>

3. Cygwin

下载地址：

使用原因：

运行Nutch自带的脚本命令需要Linux的环境，使用cygwin来模拟该环境。cygwin是在windows平台上运行的unix模拟环境。

安装目录：C:\cygwin
注意：在选择下载站点需要输入如下网址，并在最后选择本地磁盘安装：

测试：

进入cygwin

4. Nutch

下载地址：

版本：nutch-1.0
解压后到：C:\nutch-1.0

设置Nutch的环境变量：

NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

修改环境变量PATH ：

PATH= %JAVA_HOME%\bin; % NUTCH_JAVA_HOME %\bin

在C:\nutch-1.0下建立url.txt文件来制定爬去列表

在txt文件中写入需要爬取的网站地址

测试：
开启Cygwin

cd cygdriver/c/nutch-1.0

bin/nutch

若出现若干命令，则说明Nutch配置成功

四、抓取网页数据

1. 指定爬虫规则

修改Nutch-1.0/conf/crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME

+^

修改Nutch-1.0/conf/nutch-site.xml

　　

　　http.agent.name

　　<value>my nutch agentvalue>

　　

　　

　　http.agent.version

　　<value>1.0value>

　　

2. 开始爬取

3. 打开Cygwin

4. 在命令行输入

cd /cygdrive/c/nutch-1.0

5. 执行命令

Bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log

　　其中：dir是指定爬取内容所存放的目录，depth表示以要爬取网站顶级网址为起点的爬行深度，threads指定并发的线程数

6. 爬取中......（采集网页并建立索引）

7. 结束后在Nutch目录下产生爬取内容的文件夹crawled和日志文件夹logs

五、部署Web前端

1. 将nutch-1.0.war拷贝到webapps目录下

2. 通过浏览器访问如下网址，war包会自解压

3. 修改nutch的web配置

更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ，将内容更改为索引生成的目录

"1.0"?> "text/xsl" href="nutch-conf.xsl"?>

　　searcher.dir

　　<value>C:\nutch-1.0\crawledvalue>

六、解决中文乱码问题

修改文件C:\tomcat6\conf\server.xml

"8080" maxThreads="150" minSpareThreads="25"

maxSpareThreads="75" enableLookups="false" redirectPort="8443"

acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"

URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />

七、搭建完成

1. 启动Tomcat

2. 通过浏览器访问

阅读(1066) | 评论(0) | 转发(0) |

上一篇：Welcome to Apache Mahout

下一篇：Run Nutch In Eclipse on Linux and Windows nutch ve

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6