专注点,细心点,耐心点 知行合一
发布时间:2013-01-25 10:47:31
Xapian是一款开源的C++信息检索系统,提供了非常强大的功能。国人喜欢跟风,收到某宴的影响,国人一直推崇Sphinx:与MySQL深度集成,开箱即用,非常傻瓜。但是它定制起来非常的麻烦,就连最基础的中文分词都要改好多地方才能实现。与市面上其他的信息检索相比,Xapian类似于Lucene,提供丰富、可拓展的编程接口,.........【阅读全文】
发布时间:2013-01-23 22:06:35
在上一篇《利用Xapian构建自己的搜索引擎:Database》里指出database是Xapian的基础,而这一篇里讲到的documents、terms和values则是索引和查询的必要组成部分。Documents 、terms and posting在信息检索(IR)中,我们企图要获取的项称之为“document”,每一个document是被一个terms集合所描述.........【阅读全文】
发布时间:2013-01-23 22:05:35
在Xapian1.0之前,是使用quartz作为database文件格式的,不过自从1.0之后,便改用Flint作为database的文件格式了。有时候,我们会将database称为“索引”,在Xapian中,索引通常比被索引的documents还要多,这表示Xapian做一个信息检索系统比做一个信息存储系统更适合。 Database的存储.........【阅读全文】