nutch的安装（转）-oop_ming-ChinaUnix博客

喜欢编程的鱼

首页　| 　博文目录　| 　关于我

oop_ming

博客访问： 2033954
博文数量： 606
博客积分： 9991
博客等级：中将
技术积分： 5725
用户组：普通用户
注册时间： 2008-07-17 19:07

文章分类

全部博文（606）

C-sharp（1）
数据建模（1）

UML（1）
数据挖掘（8）

文本分类（2）
服务器（2）

Apache Http serv（2）
性能调优（3）

JProfiler（3）
网络技术（1）
信息安全（4）
搜索引擎（22）

Apache Lucene Ma（1）

googleapi（3）

nutch（10）

heritrix（1）

lucene（7）
设计模式（13）

J2EE模式（2）

行为模式（4）

结构模式（1）

创建模式（3）
web（88）

FreeMarker（1）

Weblogic（3）

JSF（1）

Ajax（12）

Tomcat（5）

xml（6）

servlet（4）

JSP（19）

css（2）

javascript（30）

html（5）
开发工具（38）

Flex Builder（10）

NetBeans（0）

eclipse（28）
算法设计（6）
操作系统（30）

Linux（24）

windows（2）

Solaris（4）
数据库（65）

Memcached（2）

NoSQL（0）

MS SQL（18）

MySQL（13）

Oracle（32）
软件工程（2）
Java（249）

iBATIS（1）

junit（3）

J2ME（1）

SWT（2）

webservice（17）

quartz（6）

J2EE（11）

J2SE（80）

面试题集（2）

问题集锦（1）

其他（8）

ANT（3）

jboss（1）

hibernate（56）

spring（33）

struts（23）
未分配的博文（73）

文章存档

2011年（10）

2010年（67）

2009年（155）

2008年（386）

我的朋友

最近访客

推荐博文

nutch的安装（转）

分类：

2009-05-21 20:38:49

nutch作为开源代码，为热爱搜索引擎的开发人员们提供了很好的学习平台，0.8版本开始，采用了Hadoop作为自己的分布式文件系统，更是把nutch同其他开源搜索引擎的差距拉开。 ntuch提供了一个高效、开源、易操作的搜索引擎，内部有许多细微之处都是值得借鉴的，例如采用了hadoop的分布式文件系统，类似eclipse 的插件技术，apache的httpclient来访问网站，org.cyberneko.html得HtmlParse来解析页面等等。

   nutch的官方网站：
   nutch的入门文章：

   以下详细的介绍一下nutch0.8的安装方法：

一、环境：
      1.操作系统：windowsXP, windows2000+
      2.javaVM：java1.5.x，设置JAVA_HOME到环境变量
      3.cygwin,当然这个不是必需的，只是nutch提供的脚本只能在shell环境下使用，所以使用cygwin来虚拟shell命令。
      4.nutch版本：0.9+
      5.tomcat：5.0+

二、cygwin的安装：

      cygwin的安装不再介绍安装步骤，只介绍安装后需要如何判断是否能够使用：在cygwin的安装目录下，查找x:\cygwin\cygwin\bin\sh.exe，存在此命令即可使用。
      cygwin在删除后会发现无法再次成功安装的问题，可以通过注册表内的查找功能，删除所有包含cygwin内容的键值即可。

三、nutch的安装和配置：

1。从下载0.9或更高的版本，解压缩后，放置到某个目录下(如d:)。

2。在nutch/bin下，建立urls目录，然后建立一个url.txt文件，在url.txt文件内写入一个希望爬行的url，例如：

3。打开nutch\conf\crawl-urlfilter.txt文件，把MY.DOMAIN.NAME字符替换为url.txt内的url的域名，其实更简单点，直接删除MY.DOMAIN.NAME这几个字就可以了，也就是说，只保存+^http://([a-z0-9]*\.)*这几个字就可以了，表示所有http的网站都同意爬行。

4 。打开nutch\conf\conf/nutch-site.xml文件，在内插入一下内容：

http.agent.name

HTTP 'User-Agent' request header. MUST NOT be empty -

please set this to a single word uniquely related to your organization.

NOTE: You should also check other related properties:

http.robots.agents

http.agent.description

http.agent.url

http.agent.email

http.agent.version

and set their values appropriately.

http.agent.description

Further description of our bot- this text is used in

the User-Agent header. It appears in parenthesis after the agent name.

http.agent.url

A URL to advertise in the User-Agent header. This will

appear in parenthesis after the agent name. Custom dictates that this

should be a URL of a page explaining the purpose and behavior of this

crawler.

http.agent.email

An email address to advertise in the HTTP 'From' request

header and User-Agent header. A good practice is to mangle this

address (e.g. 'info at example dot com') to avoid spamming.

把XXX之间的内容替换为其他字符，当然就算是不替换也无所谓，这里的设置，是因为nutch遵守了robots协议，在获取response时，把自己的相关信息提交给被爬行的网站，以供识别。

以上配置，是爬取intranet的配置方式。

四、执行nutch

   由于配置nutch采用的是单独网站的配置方式，所以执行上我们也采用的是单网查询，全网查询在以后的内容中介绍。

   先看一看nutch给出的命令：nutch crawl urls -dir crawl -depth 3 -topN 50
   crawl：通知nutch.jar，执行crawl的main方法。
   urls：存放需要爬行的url.txt文件的目录，注意，这个名字需要和你的文件夹目录相同，如果你的文件夹为search，那这里也应该改成search。
   -dir crawl：爬行后文件保存的位置，可以在nutch/bin目录下找到。
   -depth 3：爬行次数，或者成为深度，不过还是觉得次数更贴切，建议测试时改为1。
   -topN 50：一个网站保存的最大页面数。

      执行命令的步骤：
      1。进入cygwin界面。
      2。使用cd命令，进入nutch\bin路径下。(如：cd /cygdrive/d/nutch-0.9/bin)
      3。执行：sh nutch crawl urls -dir crawl -depth 3 -topN 50

   具体的爬行日志可以在nutch/logs目录下看到，注意查找“INFO fetcher.Fetcher - fetching ”这样的内容，这里是抓去过程日志。

五、查询搜索：
nutch提供了类似google、baidu的网搜索页面，在nutch压缩包下找到 nutch-0.9.war文件，放到tomcat/webapps目录下，修改webapps/nutch/WEB-INF/classes /nutch-site.xml文件内容如下：

searcher.dir
d:\\nutch-0.9\\bin\\crawl

的内容是刚才爬行后的crawl目录位置，提供给客户端来查询。

　　配置完成后，启动tomcat，输入，输入关键字，就会看到结果。

中文可能会出现乱码的问题，这个问题其实和 Nutch 关系不大，主要原因是使用 Tomcat 5.0 的问题。解决办法是修改 Tomcat 的 server.xml 文件的 connnector：

其中 URIEncoding="UTF-8" useBodyEncodingForURI="true" 是需要新增的。否则搜索栏输入的字符默认编码将不能正确解析。

阅读(1314) | 评论(0) | 转发(0) |

上一篇：nutch工作原理剖析

下一篇：文本分类相关资料

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6