阿里巴巴是个快乐的青年
发布时间:2014-08-11 00:06:43
一、简介 htmlcxx是一款简洁的,非验证式的,用C++编写的css1和html解析器。和其他的几款Html解析器相比,它具有以下的几个特点: (1)使用由KasperPeeters编写的强大的tree.h库文件,可以实现类似STL的DOM树遍历和导航.........【阅读全文】
发布时间:2014-01-22 00:08:06
因为中文文本中,词和词之间不像英文一样存在边界,所以中文分词是一个专业处理中文信息的搜索引擎首先面对的问题,需要靠程序来切分出词。一、Lucene中的中文分词 Lucene在中处理中文的常用方法有三种,以“咬死猎人的狗”为例说.........【阅读全文】