索引源码-静止的流水-ChinaUnix博客

静止的流水的学习日志

首页　| 　博文目录　| 　关于我

静止的流水

博客访问： 1713373
博文数量： 210
博客积分： 10013
博客等级：上将
技术积分： 2322
用户组：普通用户
注册时间： 2008-09-25 15:56

文章分类

全部博文（210）

php（3）
健康生活（4）
软件工程（3）
C++（68）
用户行为数据统计（2）
英文（0）
自然语言处理（1）
java（39）
开发语言（1）
搜索引擎（4）
工作（3）
算法导论（3）
操作系统（33）

Windows（1）

Linux（31）
数据库（6）
网络技术（3）
生活随笔（35）
OPENMP（0）
MPI（1）
未分配的博文（1）

文章存档

2011年（34）

2010年（121）

2009年（37）

2008年（18）

我的朋友

相关博文

索引源码

分类： LINUX

2008-10-18 11:07:58

package test;

import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Date;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;

public class Indexer {

/**
* @param args
*/
public static void main(String[] args) {
  // TODO Auto-generated method stub
  //创建索引文件和要索引文件所在的目录
  File indexDir = new File(Constants.INDEX_STORE_PATH);//调用Constants中的常量
  File dataDir = new File(Constants.INDEX_FILE_PATH);
  //获取建立索引开始的时间
  long start =new Date().getTime();
  int numIndexed = 0;
  try {
   numIndexed = index(indexDir,dataDir);返回要索引文件的数量
  } catch (IOException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }
  long end = new Date().getTime();
  System.out.print("Indexing"+ numIndexed + "files took"
    + (end - start) + "milliseconds");//计算整个索引过程所需要的时间

}

private static int index(File indexDir, File dataDir) throws IOException{
  // TODO Auto-generated method stub
  if(!dataDir.exists() || !dataDir.isDirectory())
  {
   throw new IOException(dataDir + "does not exit or" +
     "is not a directory");
  }

//第一个参数是索引文件存放目录，第二个参数是分析器（可选），第三个参数确定是否

覆盖原有索引，建立此对象对索引进行写操作。
IndexWriter writer = new IndexWriter(indexDir,new StandardAnalyzer(),true);

  writer.setUseCompoundFile(false);//使用复合文件？
  indexDirectory(writer,dataDir);
  int numIndexed = writer.docCount();
  writer.optimize();//进行优化
  writer.close();//关闭writer对象
  return numIndexed;
}

//对文件夹和文件查找遍历。

private static void indexDirectory(IndexWriter writer, File dataDir)
  throws IOException{
  // TODO Auto-generated method stub
  File[] files = dataDir.listFiles();
  for(int i = 0;i
  {
   File f = files[i];
   if(f.isDirectory())
   {
    indexDirectory(writer,f);
   }
   else if(f.getName().endsWith(".txt"))
   {
    indexFile(writer,f);
   }
  }

}

private static void indexFile(IndexWriter writer, File f) throws IOException{
  // TODO Auto-generated method stub
  if(f.isHidden() || !f.exists() || !f.canRead())
  {
   return;
  }
  System.out.println("Indexing" + f.getCanonicalPath());

//最主要的部分
  Document doc = new Document();
  Field fieldContents = new Field("contents", new FileReader(f));//得到文本的内容域
  doc.add(fieldContents);
  Field fieldName = new Field("name",f.getCanonicalPath(),Field.Store.YES,Field.Index.UN_TOKENIZED);//得到文本的

路径名称，不同的内容会有不同的操作方法（四种）
doc.add(fieldName);
writer.addDocument(doc);

}

阅读(3267) | 评论(0) | 转发(0) |

上一篇：JDK1.6官方下载_JDK6官方下载_JDK1.6API(chm)下载_JDK6APICHM中文参

下一篇：远程唤醒

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6