范德萨发而为
全部博文(392)
发布时间:2013-01-10 20:50:22
用 Xapian 和 Omega 读取并索引文档安装并部署开源 Xapian 来索引多种信息Martin C. Brown, 作家, Freelance简介: 存储并提供对文档和信息的访问是很多公司都面临的一个日益严重的问题。解决这个问题有很多解决方案,包括 wikis 和结构化了的文档存储,但全文本索引通常是从大量文档中获取信息的惟一方式。Xapian 是一种开源工具,可读取并索引文档,包括 HTML、PDF、 OpenOffice、Microsoft® Office® 等格式的文档,而且还具有一些可编程的接口来添加和抽取信息,包括 Java™ 技术......【阅读全文】
发布时间:2012-11-28 16:20:44
开始进入IK分词的另一个核心模块,分词歧义处理,这里使用了组合遍历的一些代码,代码有点绕 总体思路是这样......【阅读全文】
发布时间:2012-11-28 13:14:01
这次详细介绍IK里的三个分词器:CJKSegmenter(中文分词),CN_QuantifierSegmenter(数量词分词),LetterSegmenter(字母分词)。......【阅读全文】
CU博客助理2013-01-08 14:27
chinaunix网友2010-04-18 14:30
你好,可以麻烦你加我的qq么:852476785 看了你hadoop那篇编程,Sogo日志分析那个,想请教一下。。。。非常非常非常非常非常非常感性吖