发布时间:2013-03-22 23:49:08
Analyzer 定义了从文本中抽取词的一组规范,首先要实现一个Tokenizer,这个类会把输入流中的字符串切分成原始的词元。 这里所谓TokenStream,后面我们会讲到,是一个由分词后的Token结果组成的流,能够不断的得到下一个分成的Token。为了提高性能,使得在同一个线程中无需再生成新的TokenStream对象,老.........【阅读全文】
发布时间:2013-03-22 16:51:51
【主要代码】点击(此处)折叠或打开@Override public final boolean incrementToken() throws IOException { &.........【阅读全文】
发布时间:2013-03-22 15:12:11
在 if (!input.incrementToken())判断中,调用构建TokenScreamComponent时传入的分词器获取token分词并存入CharTermAttribute中//A TokenFilter is a TokenStream whose input is another TokenStream.public class StandardFilter extends TokenFilter {.........【阅读全文】
发布时间:2013-03-21 22:14:15
基本上算是仿照StandardTokenizer来实现的4.0,3.0之后和2.0Tokenizer的实现有了很大的区别Lucene 3.0在这里有很大的变化。Tokenizer 继承TokenStream,主要有两个方法public boolean incrementToken(){}用于得到下一个tokenpublic void reset(){}重置该分词器,使得此TokenStrean可以重新开始返回各个分词。scan.........【阅读全文】