分类: 系统运维
2010-10-18 14:33:27
DNS缓存功能:
l 避免过度频繁的DNS解析;
l 占用内存小,而且有实效性
IP范围控制:
l 避免搜索非允许的资源(如大学里面的论文);
l 针对特定信息的搜索;
l 网络资费,网络提供商会对不同的ip收取不同的费用;
发送请求和接收数据:
l 需要处理网页重定向功能;
l 要设置定时器;
要处理的问题:
l 考虑的介质坏掉时的数据可恢复性,如果只有部分数据损坏,那么剩下的数据能用则用,将损失降低到最低;
需要注意的问题:
l 打开文件最好用二进制模式;
l 多道程序搜集;
l 局域网和因特网的带宽不一定相同;
l CPU的使用率不应该超过50%,磁盘的使用率不应该不超过80%,否则机器会很慢,影响正常的程序;
l 由于网页链接是以图的形式链接,因此建立两张表,一张存放已经搜索过的URL,一种存放未搜索过的URL;
域名与IP的对应问题(一对一,一对多,多对一,多对多):
l 多对一:虚拟主机技术,多个域名对应同一个IP,每个站点内容不重复;
l 一对多:可能是DNS乱转,一个域名对应多个IP,由于商业网站访问量大,这样是为了达到负载平衡;
l 多对多:一个站点,多个域名;
由于域名与IP对应问题造成的重复搜索,可以通过对比首页,如果首页相同,则归为一组,以后只选择其中一个搜索就行了。
重要网页的特征:
l 被引用的次数多;
l 父网页被引用的次数多;
l 网页镜像度高;
l 网页的目录深度小,易于被用户浏览
中文分词:
l 基于词的匹配;
l 基于统计的匹配:缺点是可能会遇到“我的”,“之一”等不是词的干扰;
一般的使用,都有一部基本的词典,然后再配上统计方法。
倒排索引放在内存里面,可以提高效率。