实现有价值的IT服务
全部博文(709)
分类: Java
2006-12-05 14:54:19
最近用到了nutch,目的是针对指定的一些网站抓取其内容,然后做分析用。 好了,废话少说,言归正传,第一篇:Quick Start,我们的目标是快速的能跑起来,能检索出我们想要的结果。 首先要明白nutch是什么? 一:安装JDK 代码
或者从sun公司网站下载bin文件执行安装 设置了JAVA_HOME 代码
在最后面增加 代码
二:下载nutch的最新版本nutch0.8.1 代码
释放下来即可 代码
三:抓取页面 代码
编辑conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME为 代码
修改conf/nutch-site.xml,增加http.agent.name值 代码
执行bin/nutch crawl开始抓取页面 代码
这个过程需要等待一些时间 三:检索 代码
将nutch自带的war文件拷贝到webapps下面 代码
运行tomcat,如果不设定nutch-site.xml的searcher.dir的值,则需要在crawl目录下面执行 代码
我们也可以设定nutch-site.xml的searcher.dir的值 代码
增加 代码
四:中文乱码 代码
五:截图 |
一:Recrawl 把它放在nutch-0.8.1/bin/recrawl.sh
代码
wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是 代码
让tomcat重新加载webapp,如果你没有使用tomcat,只是crawl,你修改一下脚本,就把这个参数给去掉吧。 二:Crawl more urls and merge 新增news.163.com 代码
重新执行我们上面提到的crawl 代码
note: 这个时间会很长,如果你愿意可以用别的资讯很少的网站代替 合并我们采用nutch wiki上的脚本保存到bin/mergecrawl.sh。
代码
传递的两个参数分别是两次crawl的目录 修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录
代码
重新加载webapp 代码
以下是截图 这个是xici的 ============================== Nutch-0.8于2006年7月25日在其官方网正式发布,此版本在以前的基础了做了很大改进。因此在进行crawling时上不能完全照以前各版本的方法进行。本人已成功安装和使用,具体如下。共享出来希望对搜索引擎爱好者有一定帮助。(因为字数限制,所以分三个帖子发出,见谅!) |