Chinaunix首页 | 论坛 | 博客
  • 博客访问: 822167
  • 博文数量: 96
  • 博客积分: 1553
  • 博客等级: 上尉
  • 技术积分: 1871
  • 用 户 组: 普通用户
  • 注册时间: 2011-12-25 14:50
个人简介

专注点,细心点,耐心点 知行合一

文章分类

全部博文(96)

文章存档

2018年(1)

2014年(4)

2013年(31)

2012年(56)

2011年(4)

发布时间:2013-01-25 11:09:35

在信息检索中,有一类任务叫做Faceting Search,在Wikipedia中的定义如下:Faceted search, also called faceted navigation or faceted browsing, is a technique for accessing a collection of information represented using a faceted classification, allowing users to explore by filtering available inf.........【阅读全文】

阅读(987) | 评论(0) | 转发(0)

发布时间:2013-01-25 11:07:38

Xapian支持同义词的查询拓展。按照同义词进行拓展算是查询拓展最基本的一种方式。比如“汽车展览”和“车展”是同义词,我们搜索汽车展览的时候,也会把“车展”的结果返回。很多人认为这个就是拼写校正,但实际它比拼写校正稍微高级点,特别是放在Xapian的语境下,毕竟拼写校正是基于编辑距离而不是语义的。1、在.........【阅读全文】

阅读(1331) | 评论(0) | 转发(0)

发布时间:2013-01-25 10:58:15

Xapian提供了拼写校正功能,其基本算法就是编辑距离,只不过它支持UTF-8,也就是说是支持中文的。1、建立拼写校正辞典虽然编辑距离的算法很土很原始,但是Xapian提供了方便的接口建立辞典,至少有如下两种方式:(1)Xapian::WritableDatabase.db.add_spelling(word, freq)word就是正确的词,freq是出现频率,默.........【阅读全文】

阅读(1165) | 评论(0) | 转发(0)

发布时间:2013-01-25 10:47:31

Xapian是一款开源的C++信息检索系统,提供了非常强大的功能。国人喜欢跟风,收到某宴的影响,国人一直推崇Sphinx:与MySQL深度集成,开箱即用,非常傻瓜。但是它定制起来非常的麻烦,就连最基础的中文分词都要改好多地方才能实现。与市面上其他的信息检索相比,Xapian类似于Lucene,提供丰富、可拓展的编程接口,.........【阅读全文】

阅读(2310) | 评论(0) | 转发(0)

发布时间:2013-01-23 22:07:22

经过前面几篇的介绍,如果再参考一下Omega的话,估计应该可以顺利创建database和往database里添加document了。有了数据,下一步关心的当然是怎样将它们查出来,在一个IR系统(不单止Xapian)中,检索的方式是多元化的,排序则是多样化的,结果则是人性化的,这就是跟关系数据库相比的最大优势。由于内容较多,因此将检索.........【阅读全文】

阅读(2709) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册