学习Xapian(1) – 基础的建索引和搜索-bjpiao-ChinaUnix博客

michael

首页　| 　博文目录　| 　关于我

bjpiao

博客访问： 1017507
博文数量： 96
博客积分： 1553
博客等级：上尉
技术积分： 1871
用户组：普通用户
注册时间： 2011-12-25 14:50

个人简介

专注点，细心点，耐心点知行合一

文章分类

全部博文（96）

java（0）
python（0）
ML-DM（1）
hadoop体系（4）
代码展示（0）
开源项目分析（24）

xapian（7）

lustre（0）

zeromq（0）

tcpcopy（0）

curl（0）

LevelDb（1）

nginx（3）

mongodb（0）

tokoycabinet（1）

redis（4）

ssl（5）

mfs（2）
网络编程（15）
数据挖掘（0）
并行计算（4）
框架中间件（2）
编程小技巧（26）
算法（4）
杂谈（6）
mysql（10）
未分配的博文（0）

文章存档

2018年（1）

2014年（4）

2013年（31）

2012年（56）

2011年（4）

我的朋友

相关博文

学习Xapian(1) – 基础的建索引和搜索

分类： C/C++

2013-01-25 10:47:31

Xapian是一款开源的C++信息检索系统，提供了非常强大的功能。

国人喜欢跟风，收到某宴的影响，国人一直推崇Sphinx：与MySQL深度集成，开箱即用，非常傻瓜。但是它定制起来非常的麻烦，就连最基础的中文分词都要改好多地方才能实现。

与市面上其他的信息检索相比，Xapian类似于Lucene，提供丰富、可拓展的编程接口，让Xapian能够更好的融入你的系统中。同时，他的检索性能又远远高于Lucene，并采用BM-25模型，具有更好的检索效果。

至于大家最关心的中文问题，我可以负责任的说：虽然Xapian无内置的中文分词算法，但是核心与分词部分毫无耦合，只要借助外置分词器，即可无需改动任何Xapian代码，实现对中文文本的索引和检索。

另外：Xapian的发音为Zap-in，X读Z，大家不要搞错了。（这是常识了，比如XEN发音就是Zen）

本系列文章不会说的很细，目标受众是：
1)熟悉信息检索的基本知识，如TF、IDF、BM25模型等
2)使用过至少一种开源信息检索系统，如Lucene

Xapian的教程非常精简，Documentation又是Doxygen生成的，我接触Xapian也刚刚1天，因此很多地方都不是很详细。我也是抱着边写边学的心态，才能写下这一系列的文章，如果有不对的地方，欢迎大家指正！

1、常用的数据结构

检索相关：
Xapian::Database 用于读取索引。
Xapian::Enquire 提供检索服务，与Xapian::Database配合使用
Xapian::QueryParser 查询语句解析器
Xapian::Query 查询语句
Xapian::MSet 检索返回的匹配结果记录集

建索引相关
Xapian::WritableDatabase 用于建立索引。
Xapian::TermGenerator 非常简单的切词、建索引器，不是必须使用的，可用其他替代，但是提供了一些帮助函数，非常好用。

共用：
Xapian::Document 文档的抽象。
Xapian::SimpleStopper 停用词
Xapian::Error 异常类，.get_description()获取详细信息。

2、建立索引的步骤

(1)打开一个Xapian::WritableDatabase
(2)准备Document
可以用.set_data(string)设置负载数据，有且只能有一个
可以用.add_value(slot, string)设置附加域，可以有N个，slot不能是-1。
上述两个都是Document中附加的，只存储，不会被分词和索引。
建立索引域的方法有两种
a)Document.add_term(word, pos)，一个词+位置，一个词+位置的放入。这样显然有点麻烦，于是有了b)方式。
b)建立Xapian::TermGenerator，.set_document(doc)，然后将一段用空格分开的字符串传入index_text。之后，doc中就会有这段文本的索引域了。
注意这里我说的是用空格分开的字符串，也就是说，中文分词的步骤我们可以直接拿到外面去做，处理好了再交给Xapian即可！
(3)Document准备完毕后，将其加入DB
(4)切记，一定要DB.commit()，这和Lucene是一样的。

3、检索流程

与建索引相比，检索要复杂的多。
(1)打开Xapian::Database，路径是建索引时候的WritableDatabase的路径。
(2)用Db构造Xapian::Enquire，后者提供了检索的接口。
(3)使用Xapian::QueryParser解析Query字符串，生成Xapian::Query。
(4)enquire.set_query()，进行检索，说实话这个API真够冏的……
(5)enquire.get_mset(start,len)返回结果集合，MSet，相当于支持分页，这个太赞了！
(6)对返回的MSet遍历使用Xapian::MSetIterator，get_rank()获取排名，get_document返回检索时对应的文档。

4、检索语法

检索语法：
Term AND|OR|NOT Term …
Term -> Term|~Term
其中~表示同义词（依赖于建索引时候额外提供的同义词pair）

5、关于域的支持

最早的Xapian是不支持多个域的，现在虽然支持，但是没有提供类似Lucene中add_field这样的操作，而是采用了“前缀”和“映射”的方法。
它依赖于建索引和检索时候分别提供额外的“前缀”和“前缀映射”。
(1)建立索引时，以Xapian::TermGenerator为例
需要设置TermGenerator.set_database(db)
建索引域时，API如下：
index_text (const std::string &text, Xapian::termcount wdf_inc=1, const std::string &prefix=std::string())
后两个是有默认数值的，第二个是tf增加量，最后一个是前缀，比如Title域，我们令prefix=“T”,Content域，prefix=”C”，这个前缀得是你自己定义好的，并且要前后一致！
(2)搜索时候，在Xapian::QueryParser中添加映射，.add_prefix(“title”, “T”)，于是，我们给qp.parse_query的查询字符串就可以包含域了！形如：

title:新闻 AND content:男篮

基础的部分就说这么多，看代码吧。

源代码：建立索引

#include
#include
using namespace std;
#define CONTENT "70比 69，这是男篮亚锦赛历史上的最小分差比赛，笑到最后的是东道主中国队。可以说，这是一次最惊险的胜利；也可以说，这是中国男篮最幸运的结局。终 > 场哨响，中国队主教练邓华德和篮管中心副主任胡加时紧紧拥抱在一起，两人都激动得热泪盈眶 —— 中国队赢了，赢得很庆幸。"
#define TITLE "这是一条新闻"
#define INDEX_PATH "./index_data"
#define F_DOCID 1
int main()
{
try
{

//Text to be indexed

string content(CONTENT);

string title(TITLE);

//Open an Database for write

Xapian::WritableDatabase db(string(INDEX_PATH), Xapian::DB_CREATE_OR_OPEN);

//Prepare TermGenerator, just split word by space, not chinese analysis

Xapian::TermGenerator indexer;

//Make Document

Xapian::Document doc;

doc.add_value(F_DOCID, string("1104"));

doc.set_data(content);

indexer.set_document(doc);

indexer.index_text(title, 1, "T");

indexer.index_text(content, 1, "C");

//Add Document to db

db.add_document(doc);

//Flush to disk

db.commit();

}

catch(const Xapian::Error &e)

{

cout << e.get_description() << endl;

}

return 0;

}

源代码：检索

#include

using namespace std;

#define QUERY "title:新闻 AND content:男篮"

#define INDEX_PATH "./index_data"

#define F_DOCID 1

int main()

{

try

{

//Query

string query_str(QUERY);

//Open an Database for read

Xapian::Database db(string(INDEX_PATH));

//Open Search Handle

Xapian::Enquire enquire(db);

//Parser Query

Xapian::QueryParser qp;

qp.add_prefix(
"title", "T");

qp.add_prefix(
"content", "C");

Xapian::Query query = qp.parse_query(query_str);

cout <<
"Query is " << query.get_description() << endl;

//Find top 10 results

enquire.set_query(query);

Xapian::MSet result = enquire.get_mset(0, 10);

cout << result.get_matches_estimated() <<
" results found" << endl;

//Print results

for
(Xapian::MSetIterator itr = result.begin(); itr!=result.end(); itr++)

{

Xapian::Document doc = itr.get_document();

cout << itr.get_rank() <<
": docid " << doc.get_value(F_DOCID) << ", data " << doc.get_data() << endl;

}

}

catch(const Xapian::Error &e)

{

cout << e.get_description() << endl;

}

return 0;

}

阅读(3057) | 评论(0) | 转发(0) |

上一篇：Xapian：检索

下一篇：学习Xapian(2) – 拼写校正

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6