分类: WINDOWS
2012-12-10 13:27:39
现代大规模高质量搜索引擎一般采用三段式工作流程:网页搜集、预处理和查询服务
大规模搜索引擎服务的急促应该是一批预先搜集好的网页。如定期搜集,每次搜集替换上一次的内容,称为批量搜集。
增量搜集,开始搜集一批,往后只是a、搜集新出现的网页。b、搜集有些在上次搜集后有过改变的网。c、发现自从上次搜集后已经不存在的网页,并从库中删除。
爬取:将web上的网页集合看成是一个邮箱图,搜索过程从给定起始URL集合S(或者说种子)开始,沿着网页中的链接,按照先深、先宽或者某种策略遍历,不停的从S中移除URL,下载相应的链接,解析出S。
按照先宽搜索方式得到的网页集合要比先深搜索得到的集合重要,但是这种方式的一个困难是要从每一篇网页中提取出所含的URL。
例外一个种可能的方式在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接给予这个集合。
还有一种方法就是让网站拥有者主动向搜索引擎提交他们的网址,系统在一定时间内定向向那些网站派出蜘蛛程序。扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。
预处理现行最有效的数据结构式倒排文件,倒排文件时用文档中所含有关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中索引是关键词,书的页面是索引目标)。预处理主要包含四个方面,关键词的提取,镜像网页(网页的内容完全相同,未加任何修改或者转载网页)的消除,链接分析和网页重要度程度的计算。