《搜索引擎--原理、技术与系统》--读书笔记(3)-garyneville-ChinaUnix博客

文章分类

文章存档

2010年（11）

2009年（35）

2008年（22）

我的朋友

相关博文

分类： LINUX

2009-05-04 10:03:02

如果不对网页库建立索引信息,可以通过顺序朝着的方法完成URL到指定记录的过程，但是会消耗大量的I/O，数据量增大的时候不能够满足搜索引擎的快速响应要求，所以需要创建索引。
选择索引网页使用的数据结构的时候需要考虑两个因素：紧凑的数据格式和高效的检索能力。
自动分词的基本方法有：基于字符串匹配的分词方法和基于统计的分词方法。
实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
开个小差：map容器采用的数据结构是“红黑树”，“红黑树”是一种较常用的查找效率较高的平衡二叉搜索树。在实际应用中可以采用hash表数据结构存储获得更快速的查找。
为网页建立全文索引是网页预处理的核心部分，包括分析网页和建立倒排文件。
一般的数据库系统不能快速响应如此大量的用户请求，在搜索引擎中通常采用倒排索引技术。其实所谓倒排，就是将网页编号->关键词的正向映射编程关键词->网页编号的逆向映射。

阅读(728) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们