Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1966822
  • 博文数量: 606
  • 博客积分: 9991
  • 博客等级: 中将
  • 技术积分: 5725
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-17 19:07
文章分类

全部博文(606)

文章存档

2011年(10)

2010年(67)

2009年(155)

2008年(386)

分类:

2008-12-25 17:06:11

在Windows下运行Nutch,很简单,只要你能执行Crawl这个类就行,写一个Ant脚本放在Nuthc的根目录下执行它就OK,内容如下:

<project name="nutch-crawl" default="crawl" basedir=".">
    
    
<property name="lib.dir"  location="lib"/>
    
<property name="conf.dir"  location="conf"/>
    

    
<path id="project.classpath">
        
<fileset dir="." includes="nutch-*.jar"/>
        
<fileset dir="lib" />
        
<pathelement path="."/>
        
<pathelement path="${conf.dir}"/>
    
path>
    
    
    
<target name="crawl" >
        
<echo>crwaling startingecho>
        
<property name="JVM.extra.args" value="-Xmx512m" />
        
<java classname="org.apache.nutch.crawl.Crawl" classpathref="project.classpath" fork="true">
            
<jvmarg line="${JVM.extra.args}"/>
            
<arg value="C:/dev-tools/nutch-0.9/urls"/> 
            
<arg value="-dir"/>
            
<arg value="C:/dev-tools/nutch-0.9/crawl"/> 
            
<arg value="-depth"/>
            
<arg value="3"/>
            
<arg value="-threads"/>
            
<arg value="15"/>
        
java>
        
<echo>crwaling finishedecho>
    
target>
    
project>

启动bulid.xml批处理文件run.bat(放在Nuthc的根目录,假若工程放在E盘下)

@echo off  
cd e:
ant
pause

 
阅读(725) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~