对全文搜索的一点思考-qyf404-ChinaUnix博客

飞车兔qyf404.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qyf404

博客访问： 544427
博文数量： 59
博客积分： 1169
博客等级：少尉
技术积分： 572
用户组：普通用户
注册时间： 2011-04-01 18:03

个人简介

信息量太大，每天疲于辨别信息得真伪。

文章分类

全部博文（59）

REST（1）
杂谈（3）
linux（17）

一个梦（13）

linux下的挑战（4）
python（1）
设计（2）
小故事大道理（3）
Contact Center（1）
windows（2）
web（1）
页面的混乱之治（4）
bat脚本（1）
外语学习（0）
java（15）

返璞归真 - JAVA（5）

Exception（6）
c/c++（1）
数据库（3）
未分配的博文（4）

文章存档

2016年（1）

2014年（9）

2013年（1）

2011年（48）

我的朋友

最近访客

推荐博文

对全文搜索的一点思考

分类： IT业界

2014-05-27 14:41:17

很久之前就想着整一个全文搜索的功能在项目中。最近想了一些搜索相关的内容。

1.在内容增加后，放入一个缓存区域，等到一定的条件，缓存时间或缓存大小达到阀值，追加数据索引到索引库。
2.在适当的时间(在压力小的时候)，对索引文件分批次进行重够优化及排错。在一些特殊情况下，可能需要整体重新生成索引，要尽可能避免这种情况，可以局部重建，不断追加索引（一般情况下，索引的数据冗余要比整体重构带来的负面影响小很多）。
3.在构建索引时，注意分词器的设计，注意索引字段的设计，注意各字段搜索权重的设计，注意跳转路径的设计，注意摘要内容的保持方式（避免在索引中保存大的数据）。
4.索引构建好了就该查询了，查询时要注意查询条件的分词（一般与构建索引的分词器一致），注意查询条件的拼接逻辑（一般是与和或，也有非），注意查询结果的拼接及分页返回。

阅读(1025) | 评论(0) | 转发(0) |

上一篇：在linux上用script和scriptreplay对命令行操作录像

下一篇：设计模式－适配器

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6