Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1004414
  • 博文数量: 96
  • 博客积分: 1553
  • 博客等级: 上尉
  • 技术积分: 1871
  • 用 户 组: 普通用户
  • 注册时间: 2011-12-25 14:50
个人简介

专注点,细心点,耐心点 知行合一

文章分类

全部博文(96)

文章存档

2018年(1)

2014年(4)

2013年(31)

2012年(56)

2011年(4)

发布时间:2013-01-25 10:47:31

Xapian是一款开源的C++信息检索系统,提供了非常强大的功能。国人喜欢跟风,收到某宴的影响,国人一直推崇Sphinx:与MySQL深度集成,开箱即用,非常傻瓜。但是它定制起来非常的麻烦,就连最基础的中文分词都要改好多地方才能实现。与市面上其他的信息检索相比,Xapian类似于Lucene,提供丰富、可拓展的编程接口,.........【阅读全文】

阅读(3010) | 评论(0) | 转发(0)

发布时间:2013-01-23 22:07:22

经过前面几篇的介绍,如果再参考一下Omega的话,估计应该可以顺利创建database和往database里添加document了。有了数据,下一步关心的当然是怎样将它们查出来,在一个IR系统(不单止Xapian)中,检索的方式是多元化的,排序则是多样化的,结果则是人性化的,这就是跟关系数据库相比的最大优势。由于内容较多,因此将检索.........【阅读全文】

阅读(3412) | 评论(0) | 转发(0)

发布时间:2013-01-23 22:06:35

  在上一篇《利用Xapian构建自己的搜索引擎:Database》里指出database是Xapian的基础,而这一篇里讲到的documents、terms和values则是索引和查询的必要组成部分。Documents 、terms and posting在信息检索(IR)中,我们企图要获取的项称之为“document”,每一个document是被一个terms集合所描述.........【阅读全文】

阅读(2740) | 评论(0) | 转发(0)

发布时间:2013-01-23 22:05:35

  在Xapian1.0之前,是使用quartz作为database文件格式的,不过自从1.0之后,便改用Flint作为database的文件格式了。有时候,我们会将database称为“索引”,在Xapian中,索引通常比被索引的documents还要多,这表示Xapian做一个信息检索系统比做一个信息存储系统更适合。   Database的存储.........【阅读全文】

阅读(1981) | 评论(0) | 转发(0)

发布时间:2013-01-12 21:33:16

map-reducerhttp://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.htmlhadoop详细安装http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html......【阅读全文】

阅读(1229) | 评论(0) | 转发(1)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册