freebsd 下nutch 的安装-zzxia-ChinaUnix博客

猪侠山庄

首页　| 　博文目录　| 　关于我

zzxia

博客访问： 495509
博文数量： 127
博客积分： 7010
博客等级：少将
技术积分： 1972
用户组：普通用户
注册时间： 2006-12-01 12:42

文章分类

全部博文（127）

杂（2）
缓存（4）
debian（1）
squid（5）
邮件（1）
系统管理一些技巧（33）
脚本（5）
安全（3）
perl（3）
ubuntu（6）
lvs（0）
apache（15）
监控（4）
linux（18）
mysql（8）
postfix（0）
freebsd（9）
励志（10）
未分配的博文（0）

文章存档

2009年（33）

2008年（94）

我的朋友

相关博文

freebsd 下nutch 的安装

分类： LINUX

2008-05-05 16:09:46

在Freebsd 6下安装试用的，首先安装了个jdk1.5,下载了一个diablo-caffe-freebsd6-i386-1.5.0_07-b01.tar.bz2，放在/usr/ports/distfiles目录下，进入
/usr/ports/java/diablo-jdk15,执行
make install clean;rehash

安装Tomcat5.5

#cd /usr/ports/www/tomcat55
#make install clean ; rehash

临时设置一下环境变量

#setenv JAVA_HOME /usr/local/diablo-jdk1.5.0
#setenv CLASSPATH $JAVA_HOME/lib

下载nutch0.9并解压
进入nutch的目录，新建个抓取页面的文件urls，写入你要爬取的网站地址，比如

编辑conf目录下的crawl-urlfilter.txt文件,该文件用于设置爬虫的过滤条件
    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
    修改为：
    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*\.)*
    表示抓取域名下的所有页面

    编辑conf目录下的nutch-site.xml文件,该文件用于将爬虫信息告诉被抓取的网站,如果不进行设置nutch不能运行.
    该文件默认为这样:

    下面是我修改后的一个例子:





              http.agent.name
              163


    上述文件描述了爬虫的名称/描述/来自哪个网站/联系email等信息.

     抓取
    执行抓取并建立索引的命令:
    bin/nutch crawl urls -dir 163 -depth 4 -threads 5 -topN 1000 >&logs/log.log
    其中
        urls目录中的文件里记录了待爬网站地址
        -dir指定爬来的信息放到哪个目录下
        -depth 指定抓取的深度
        -thread 指定线程数
        -topN 指定抓取该网站的前若干页,这个参数对于抓取大网站的网页非常有用
        >&logs/log1.log指定日志存放位置,如果你想在控制台监视运行情况,可以不使用这行代码

    等待几分钟,抓取及建立索引结束

bin/nutch readdb 163/crawldb -stats 查看抓取壮态

#setenv NUTCH_JAVA_HOME /usr/local/diablo-jdk1.5.0

爬完之后，把tomcat设置一下，

rm -rf /usr/local/tomcat5.5/webapps/ROOT*
cp nutch*.war /usr/local/tomcat5.5/webapps/ROOT.war
cd /usr/local/tomcat5.5/webapps/
jar xvf ROOT.war

然后，修改一下webapps/ROOT/WEB-INF/classes/nutch-site.xml

searcher.dir
/usr/local/nutch/163

并修改一下tomcat的server.xml

               maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               connectionTimeout="20000" disableUploadTimeout="true"
                URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

加上UTF-8,这样搜索中文的时候就不会有问题了。

启动tomcat。
cd /usr/local/tomcat5.5/bin/
./startup.sh 启动
./shutdown.sh 停止

../conf/server.xml tomcat5.5的配置文件

访问
应该看到查询页面了。

阅读(972) | 评论(0) | 转发(0) |

上一篇：缓存的理解，什么是好缓存

下一篇：如何开启apache的server-status辅助分析工具

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6