Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1291999
  • 博文数量: 196
  • 博客积分: 4141
  • 博客等级: 中将
  • 技术积分: 2253
  • 用 户 组: 普通用户
  • 注册时间: 2009-03-21 20:04
文章存档

2019年(31)

2016年(1)

2014年(16)

2011年(8)

2010年(25)

2009年(115)

分类: 系统运维

2010-10-18 14:26:50

搜索引擎三段式结构

网页搜集

1.      定期收集

2.      增量搜集

a)        搜集新出现的网页

b)        搜集自上次搜集完之后有改变的网页

c)        删除已不存在的网页

     具体搜集过程可以采用深度搜索或者广度搜索。

     搜索方式:

1.      主动搜索:通过url搜索

2.      被动搜索:网站主动向搜索引擎提交网页

预处理

1.      关键字的提取

l  通过去掉“的”,“在”等无用词,获取有用词

2.      重复和转载网页的消除

3.      链接的分析

4.      网页重要程度的计算

l  核心思想:被引用多的就是重要的

信息查询服务

1.查询方式和匹配

2.结果排序

a)        基于词汇出现的频度

b)        网页重要程度的计算

3.文档摘要的形成

a)        静态方式:事先形成

b)        动态方式:提起出关键字周围的文字

搜索引擎的体系结构

网页搜集的效率:

l  采用并发方式,充分利用好网络带宽(因为搜索引擎的处理和服务器的响应需要时间,这部分时间可以充分利用起来)

l  当使用并发的时候,网络带宽有可能成为瓶颈

l  服务方的响应,也是影响搜集效率的因素

网页搜集的“礼貌”:

l  限制单位时间抓取网页

网页质量

l  较靠近主页的网页,较为重要

其他问题:

l  注意URL的循环链接,可以利用visited_tableunvisited_table两张表解决

阅读(1572) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~