Chinaunix首页 | 论坛 | 博客
  • 博客访问: 850153
  • 博文数量: 180
  • 博客积分: 10029
  • 博客等级: 上将
  • 技术积分: 2185
  • 用 户 组: 普通用户
  • 注册时间: 2009-11-06 09:15
文章存档

2010年(133)

2009年(47)

我的朋友

分类: 项目管理

2009-11-21 16:45:12

   当网页采集模块将采集到的网页信息返回时,我们需要进行预处理,之后才能够建立索引,存入搜索引擎的数据库!
  
0.   预处理的功能
 
   关键词的提取-分词       :  文档转换与分析;     分词;
   重复或者转载网页的消除   :  网页重复率大约为 4
   链接分析               :  分析标签,确定关键词的重要程度 ;
                             分析网页的链接关系(出度和入度);
   网页重要程度的计算-排序  
  
   预处理的模块:
  
  
阅读(1452) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~