分类: 系统运维
2010-10-18 14:26:50
1. 定期收集
2. 增量搜集
a) 搜集新出现的网页
b) 搜集自上次搜集完之后有改变的网页
c) 删除已不存在的网页
具体搜集过程可以采用深度搜索或者广度搜索。
搜索方式:
1. 主动搜索:通过url搜索
2. 被动搜索:网站主动向搜索引擎提交网页
1. 关键字的提取
l 通过去掉“的”,“在”等无用词,获取有用词
2. 重复和转载网页的消除
3. 链接的分析
4. 网页重要程度的计算
l 核心思想:被引用多的就是重要的
1.查询方式和匹配
2.结果排序
a) 基于词汇出现的频度
b) 网页重要程度的计算
3.文档摘要的形成
a) 静态方式:事先形成
b) 动态方式:提起出关键字周围的文字
网页搜集的效率:
l 采用并发方式,充分利用好网络带宽(因为搜索引擎的处理和服务器的响应需要时间,这部分时间可以充分利用起来)
l 当使用并发的时候,网络带宽有可能成为瓶颈
l 服务方的响应,也是影响搜集效率的因素
网页搜集的“礼貌”:
l 限制单位时间抓取网页
网页质量
l 较靠近主页的网页,较为重要
其他问题:
l 注意URL的循环链接,可以利用visited_table和unvisited_table两张表解决