Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1888167
  • 博文数量: 606
  • 博客积分: 9991
  • 博客等级: 中将
  • 技术积分: 5725
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-17 19:07
文章分类

全部博文(606)

文章存档

2011年(10)

2010年(67)

2009年(155)

2008年(386)

分类: Java

2010-01-06 23:45:30

一、简介

  Nutch是一个开源的Web搜索引擎。

       主要分为两个部分:爬虫crawler和查询searcher,两者之间的接口是索引。

二、需要的软件

  • JDK1.6

  • Tomcat6.0

  • cygwin

  • nutch1.0

三、安装与配置

1. JDK

  • 下载地址:

  • 安装目录:C:\Java\jdk1.6.0_14

  • 修改环境变量:

JAVA_HOME= C:\Java\jdk1.6.0_14

CLASSPATH= C:\Java\jdk1.6.0_14\lib\dt.jar; C:\Java\jdk1.6.0_14\lib\tool.jar

PATH= %JAVA_HOME%\bin

  • 测试:

Java -version

2. Tomcat6.0

  • 下载地址:

  • 安装目录:C:\tomcat6

  • 安装测试:

                a)  启动tomcat:在DOS下,cd C:\tomcat6\bin\startup.bat

                b)  浏览器地址栏输入:

            

                   出现tomcat主页则成功

      • 更改C:\tomcat6\conf \tomcat-users.xml内容

        "manager"/>

        "tomcat" password="tomcat" roles="manager"/>

      3. Cygwin

      • 下载地址:

      • 使用原因:

                 运行Nutch自带的脚本命令需要Linux的环境,使用cygwin来模拟该环境。cygwin是在windows平台上运行的unix模拟环境。

            • 安装目录:C:\cygwin

                           注意:在选择下载站点需要输入如下网址,并在最后选择本地磁盘安装:

                                 

              • 测试:

              进入cygwin

              4. Nutch

              • 下载地址:

              • 版本:nutch-1.0

              • 解压后到:C:\nutch-1.0

              • 设置Nutch的环境变量:

              NUTCH_JAVA_HOME= C:\Java\jdk1.6.0_14

              • 修改环境变量PATH :

                PATH= %JAVA_HOME%\bin; % NUTCH_JAVA_HOME %\bin

                • 在C:\nutch-1.0下建立url.txt文件来制定爬去列表

                      在txt文件中写入需要爬取的网站地址

                    • 测试:

                          开启Cygwin

                        cd cygdriver/c/nutch-1.0

                        bin/nutch

                        若出现若干命令,则说明Nutch配置成功

                        四、抓取网页数据

                        1. 指定爬虫规则

                        • 修改Nutch-1.0/conf/crawl-urlfilter.txt

                        # accept hosts in MY.DOMAIN.NAME

                        +^

                        • 修改Nutch-1.0/conf/nutch-site.xml

                          

                          http.agent.name

                          <value>my nutch agentvalue>

                          

                          

                          http.agent.version

                          <value>1.0value>

                          

                        2. 开始爬取

                        3. 打开Cygwin

                        4. 在命令行输入

                        cd /cygdrive/c/nutch-1.0

                        5. 执行命令

                        Bin/nutch crawl url.txt -dir crawled -depth 3 - threads 4 >&crawl.log

                           其中:dir是指定爬取内容所存放的目录,depth表示以要爬取网站顶级网址为起点的爬行深度,threads指定并发的线程数

                        6. 爬取中......(采集网页并建立索引)

                        7. 结束后在Nutch目录下产生爬取内容的文件夹crawled和日志文件夹logs

                        五、部署Web前端

                        1. 将nutch-1.0.war拷贝到webapps目录下

                        2. 通过浏览器访问如下网址,war包会自解压

                        3. 修改nutch的web配置

                               更改c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml ,将内容更改为索引生成的目录

                        "1.0"?> "text/xsl" href="nutch-conf.xsl"?>

                          searcher.dir

                          <value>C:\nutch-1.0\crawledvalue>

                        六、解决中文乱码问题

                                 修改文件C:\tomcat6\conf\server.xml

                        "8080" maxThreads="150" minSpareThreads="25"

                        maxSpareThreads="75" enableLookups="false" redirectPort="8443"

                        acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"

                        URIEncoding="UTF-8" useBodyEncodingForURI="true" protocol="HTTP/1.1" />

                         

                        七、搭建完成

                        1. 启动Tomcat

                        2. 通过浏览器访问

                        阅读(994) | 评论(0) | 转发(0) |
                        给主人留下些什么吧!~~