Chinaunix首页 | 论坛 | 博客
  • 博客访问: 179903
  • 博文数量: 69
  • 博客积分: 1430
  • 博客等级: 上尉
  • 技术积分: 686
  • 用 户 组: 普通用户
  • 注册时间: 2008-06-22 11:12
文章存档

2011年(1)

2010年(11)

2009年(35)

2008年(22)

我的朋友

分类: LINUX

2009-05-04 10:03:02

  1. 如果不对网页库建立索引信息,可以通过顺序朝着的方法完成URL到指定记录的过程,但是会消耗大量的I/O,数据量增大的时候不能够满足搜索引擎的快速响应要求,所以需要创建索引。
  2. 选择索引网页使用的数据结构的时候需要考虑两个因素:紧凑的数据格式和高效的检索能力。
  3. 自动分词的基本方法有:基于字符串匹配的分词方法和基于统计的分词方法。
  4. 实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
  5. 开个小差:map容器采用的数据结构是“红黑树”,“红黑树”是一种较常用的查找效率较高的平衡二叉搜索树。在实际应用中可以采用hash表数据结构存储获得更快速的查找。
  6. 为网页建立全文索引是网页预处理的核心部分,包括分析网页和建立倒排文件。
  7. 一般的数据库系统不能快速响应如此大量的用户请求,在搜索引擎中通常采用倒排索引技术。其实所谓倒排,就是将网页编号->关键词的正向映射编程关键词->网页编号的逆向映射。
阅读(676) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~