Chinaunix首页 | 论坛 | 博客
  • 博客访问: 391164
  • 博文数量: 87
  • 博客积分: 2571
  • 博客等级: 少校
  • 技术积分: 920
  • 用 户 组: 普通用户
  • 注册时间: 2009-12-29 13:10
文章分类

全部博文(87)

文章存档

2012年(49)

2011年(7)

2010年(26)

2009年(5)

分类: Java

2012-03-28 18:19:58

标准分词器的三部分结构

1.构建器

从无参数---有参数---文件读入参数---reader流输入参数等各种构建器(加载停用词表)


2.Filters

各个filters逐个过滤

如:StandarFilters  --->  LowerCaseFilter ---> StopFilter(带有一个stop words表的过滤器)

 

3.返回

返回一个TokenStream对象

这个Token流可以输出或写入文件

阅读(1332) | 评论(1) | 转发(0) |
给主人留下些什么吧!~~

3783335812012-03-30 01:13:45

进来看看……