Chinaunix首页 | 论坛 | 博客
  • 博客访问: 90608
  • 博文数量: 40
  • 博客积分: 651
  • 博客等级: 上士
  • 技术积分: 356
  • 用 户 组: 普通用户
  • 注册时间: 2011-08-08 22:31
文章分类

全部博文(40)

文章存档

2013年(6)

2012年(3)

2011年(31)

我的朋友

发布时间:2013-04-01 17:08:45

http://blog.csdn.net/flamingsky007/article/details/7195399......【阅读全文】

阅读(5903) | 评论(1) | 转发(0)

发布时间:2013-03-22 23:49:08

Analyzer 定义了从文本中抽取词的一组规范,首先要实现一个Tokenizer,这个类会把输入流中的字符串切分成原始的词元。    这里所谓TokenStream,后面我们会讲到,是一个由分词后的Token结果组成的流,能够不断的得到下一个分成的Token。为了提高性能,使得在同一个线程中无需再生成新的TokenStream对象,老.........【阅读全文】

阅读(3631) | 评论(0) | 转发(0)

发布时间:2013-03-22 16:51:51

 【主要代码】点击(此处)折叠或打开@Override     public final boolean incrementToken() throws IOException {             &.........【阅读全文】

阅读(1663) | 评论(0) | 转发(0)

发布时间:2013-03-22 15:12:11

在  if (!input.incrementToken())判断中,调用构建TokenScreamComponent时传入的分词器获取token分词并存入CharTermAttribute中//A TokenFilter is a TokenStream whose input is another TokenStream.public class StandardFilter extends TokenFilter {.........【阅读全文】

阅读(1558) | 评论(0) | 转发(0)

发布时间:2013-03-21 22:14:15

基本上算是仿照StandardTokenizer来实现的4.0,3.0之后和2.0Tokenizer的实现有了很大的区别Lucene 3.0在这里有很大的变化。Tokenizer 继承TokenStream,主要有两个方法public boolean incrementToken(){}用于得到下一个tokenpublic void reset(){}重置该分词器,使得此TokenStrean可以重新开始返回各个分词。scan.........【阅读全文】

阅读(6403) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册