范德萨发而为
全部博文(392)
发布时间:2013-06-18 12:44:16
Lucene's default similarity functionLucene's scoring Function is defined by the function where tf(t in d) denotes the term's frequency, defined as the number of times the term t appears in the currently scored document d. Documents that have more occ.........【阅读全文】
发布时间:2013-06-17 22:48:30
1. 同步概念Xapian没有显示的支持多线程,为了避免不必要的线程死锁,Xapian没有使用任何全局变量,所以你可以你的多线程应用中放心的使用Xapain对象,但是一些Xapian对象内部是有关联的,如Xapian::Database::get_document(),返回的对象Xapian::Document对象内部保存了一个指向DataBase的一个引用,所以它不适合在多.........【阅读全文】
发布时间:2013-06-15 11:01:19
used index statistics per index segment, and make them available at search time. To understand the new statistics, let's pretend we've indexed the following two example documents, each with only one field "title":document 1: The Lion, the Witch, and the Wardrobedocument 2: The Da.........【阅读全文】
发布时间:2013-05-22 21:51:15
http://www.cnblogs.com/rocketfan/archive/2010/08/09/1796054.html一直想 学习下C++开源引擎的源代码,比较了下xapian,lemur,firtex,最终还是决定从xapian开始,以后有时间再看下lemur。选择xapian是因为xapian的代码可读性更强,更接近现代C++风格,用户端代码很少需要直接和指针打交道而看了下lemur示例代码到.........【阅读全文】
发布时间:2013-03-29 17:29:35
1、WhitespaceAnalyzer 仅仅是去除空格,对字符没有lowcase化,不支持中文; 并且不对生成的词汇单元进行其他的规范化处理。2、SimpleAnalyzer 功能强于WhitespaceAnalyzer, 首先会通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式。该分.........【阅读全文】
CU博客助理2013-01-08 14:27
chinaunix网友2010-04-18 14:30
你好,可以麻烦你加我的qq么:852476785 看了你hadoop那篇编程,Sogo日志分析那个,想请教一下。。。。非常非常非常非常非常非常感性吖