Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1039314
  • 博文数量: 197
  • 博客积分: 4141
  • 博客等级: 中将
  • 技术积分: 2263
  • 用 户 组: 普通用户
  • 注册时间: 2009-03-21 20:04
文章存档

2019年(32)

2016年(1)

2014年(16)

2011年(8)

2010年(25)

2009年(115)

分类: 系统运维

2010-10-18 14:33:27

TSE体系结构

网页搜集

DNS缓存功能:

l  避免过度频繁的DNS解析;

l  占用内存小,而且有实效性

IP范围控制:

l  避免搜索非允许的资源(如大学里面的论文);

l  针对特定信息的搜索;

l  网络资费,网络提供商会对不同的ip收取不同的费用;

发送请求和接收数据:

l  需要处理网页重定向功能;

l  要设置定时器;

网页信息的存储

要处理的问题:

l  考虑的介质坏掉时的数据可恢复性,如果只有部分数据损坏,那么剩下的数据能用则用,将损失降低到最低;

需要注意的问题:

l  打开文件最好用二进制模式;

搜集效率

l  多道程序搜集;

l  局域网和因特网的带宽不一定相同;

l  CPU的使用率不应该超过50%,磁盘的使用率不应该不超过80%,否则机器会很慢,影响正常的程序;

如何避免网页的重复搜索

l  由于网页链接是以图的形式链接,因此建立两张表,一张存放已经搜索过的URL,一种存放未搜索过的URL

域名与IP的对应问题(一对一,一对多,多对一,多对多):

l  多对一:虚拟主机技术,多个域名对应同一个IP,每个站点内容不重复;

l  一对多:可能是DNS乱转,一个域名对应多个IP,由于商业网站访问量大,这样是为了达到负载平衡;

l  多对多:一个站点,多个域名;

由于域名与IP对应问题造成的重复搜索,可以通过对比首页,如果首页相同,则归为一组,以后只选择其中一个搜索就行了。

首先搜索重要的网页

重要网页的特征:

l  被引用的次数多;

l  父网页被引用的次数多;

l  网页镜像度高;

l  网页的目录深度小,易于被用户浏览

预处理

中文分词:

l  基于词的匹配;

l  基于统计的匹配:缺点是可能会遇到“我的”,“之一”等不是词的干扰;

一般的使用,都有一部基本的词典,然后再配上统计方法。

信息查询服务

倒排索引放在内存里面,可以提高效率。

阅读(1773) | 评论(0) | 转发(0) |
0

上一篇:搜索引擎 概述

下一篇:搜索引擎 天网

给主人留下些什么吧!~~