Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2422669
  • 博文数量: 392
  • 博客积分: 7040
  • 博客等级: 少将
  • 技术积分: 4138
  • 用 户 组: 普通用户
  • 注册时间: 2009-06-17 13:03
个人简介

范德萨发而为

文章分类

全部博文(392)

文章存档

2017年(5)

2016年(19)

2015年(34)

2014年(14)

2013年(47)

2012年(40)

2011年(51)

2010年(137)

2009年(45)

分类: Java

2012-11-29 11:15:12

转载请注明出处:

前面三篇文章介绍了IK分词的两个核心模块:子分词器和歧义处理,这篇文章收尾,介绍停用词以及未切分词的处理方法:
process已经介绍过了,接下来关注processUnknownCJKChar()和getNextLexeme()

点击(此处)折叠或打开

  1. //对分词进行歧义处理
  2.             this.arbitrator.process(context, this.cfg.useSmart());            
  3.             //处理未切分CJK字符
  4.             context.processUnkownCJKChar();
  5.             //记录本次分词的缓冲区位移
  6.             context.markBufferOffset();
  7.             //输出词元
  8.             if(this.context.hasNextResult()){
  9.                 return this.context.getNextLexeme();
  10.             }
不逐句分析了,比较简单,说明如下:
  • 过滤掉CHAR_USELESS字符,包括标点、无法识别的字符
  • pathMap存储的是lexemePath集合,找出相邻的lexemePath,把它们之间未切分的字符逐字符输出

点击(此处)折叠或打开

  1. /**
  2.      * 处理未知类型的CJK字符
  3.      */
  4.     void processUnkownCJKChar(){
  5.         int index = 0;
  6.         for( ; index < this.available ;){
  7.             //跳过标点符号等字符
  8.             if(CharacterUtil.CHAR_USELESS == this.charTypes[index]){
  9.                 index++;
  10.                 continue;
  11.             }
  12.             //从pathMap找出对应index位置的LexemePath
  13.             LexemePath path = this.pathMap.get(index);
  14.             if(path != null){
  15.                 //输出LexemePath中的lexeme到results集合
  16.                 Lexeme l = path.pollFirst();
  17.                 while(l != null){
  18.                     this.results.add(l);
  19.                     //将index移至lexeme后
  20.                     index = l.getBegin() + l.getLength();                    
  21.                     l = path.pollFirst();
  22.                     if(l != null){
  23.                         //jw输出两个path之间没有匹配到的字符,直接单字输出
  24.                         //输出path内部,词元间遗漏的单字
  25.                         for(;index < l.getBegin();index++){
  26.                             this.outputSingleCJK(index);
  27.                         }
  28.                     }
  29.                 }
  30.             }else{//pathMap中找不到index对应的LexemePath
  31.                 //jw没有匹配的字符,直接单字输出
  32.                 //单字输出
  33.                 this.outputSingleCJK(index);
  34.                 index++;
  35.             }
  36.         }
  37.         //清空当前的Map
  38.         this.pathMap.clear();
  39.     }
markBufferOffset(),这个函数就是标记buffer中的cursor指针,标明现在已经处理到哪个字符了

最后来看getNextLexeme(),从最终的分词结果集中取出分词结果,输出
  • compound()合并数量词,将相邻的数量词切分结果进行合并
  • 如果取出来的词是停用词,则过滤掉,不输出

点击(此处)折叠或打开

  1. //jw这里处理数量词合并以及停用词处理
  2.     Lexeme getNextLexeme(){
  3.         //从结果集取出,并移除第一个Lexme
  4.         Lexeme result = this.results.pollFirst();
  5.         while(result != null){
  6.             //数量词合并
  7.             this.compound(result);
  8.             if(Dictionary.getSingleton().isStopWord(this.segmentBuff , result.getBegin() , result.getLength())){
  9.                    //是停止词继续取列表的下一个
  10.                 result = this.results.pollFirst();                 
  11.             }else{
  12.                  //不是停止词, 生成lexeme的词元文本,输出
  13.              result.setLexemeText(String.valueOf(segmentBuff , result.getBegin() , result.getLength()));
  14.              break;
  15.             }
  16.         }
  17.         System.out.println("AnalyzeContext.java getNextLexeme result:" + result.getLexemeText());
  18.         return result;
  19.     }

到这里,IK分词的大部分功能都已经介绍完了,还有词典初始化,配置文件使用等功能不是核心功能,无关紧要,暂时就不做分析了,后续有需要再继续
总结下,IK分词还是非常简单的,没有复杂的处理过程,效果也还可以,是学习分词的不错工具,我花了3天左右时间就能基本了解IK原理

上一篇
阅读(5701) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~