Chinaunix首页 | 论坛 | 博客
  • 博客访问: 779354
  • 博文数量: 231
  • 博客积分: 3217
  • 博客等级: 中校
  • 技术积分: 2053
  • 用 户 组: 普通用户
  • 注册时间: 2011-07-04 12:01
文章分类

全部博文(231)

文章存档

2015年(1)

2013年(10)

2012年(92)

2011年(128)

分类: WINDOWS

2012-12-10 13:27:39

搜索引擎室一个计算机应用软件系统或者说是一个网络应用软件系统。从网络用户的角度看,它根据用户提交的类自然语言查询词或短语,返回一系列可能与该查询相关的网页信息,供用户进一步判断和选取。大致分为三个模块:网页搜集、预处理和查询服务。
 
基本要素:在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表记录为L

现代大规模高质量搜索引擎一般采用三段式工作流程:网页搜集、预处理和查询服务

大规模搜索引擎服务的急促应该是一批预先搜集好的网页。如定期搜集,每次搜集替换上一次的内容,称为批量搜集。

增量搜集,开始搜集一批,往后只是a、搜集新出现的网页。b、搜集有些在上次搜集后有过改变的网。c、发现自从上次搜集后已经不存在的网页,并从库中删除。

爬取:将web上的网页集合看成是一个邮箱图,搜索过程从给定起始URL集合S(或者说种子)开始,沿着网页中的链接,按照先深、先宽或者某种策略遍历,不停的从S中移除URL,下载相应的链接,解析出S。

按照先宽搜索方式得到的网页集合要比先深搜索得到的集合重要,但是这种方式的一个困难是要从每一篇网页中提取出所含的URL。

例外一个种可能的方式在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接给予这个集合。

还有一种方法就是让网站拥有者主动向搜索引擎提交他们的网址,系统在一定时间内定向向那些网站派出蜘蛛程序。扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。

预处理现行最有效的数据结构式倒排文件,倒排文件时用文档中所含有关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中索引是关键词,书的页面是索引目标)。预处理主要包含四个方面,关键词的提取,镜像网页(网页的内容完全相同,未加任何修改或者转载网页)的消除,链接分析和网页重要度程度的计算。

阅读(1022) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~