Chinaunix首页 | 论坛 | 博客
  • 博客访问: 850129
  • 博文数量: 180
  • 博客积分: 10029
  • 博客等级: 上将
  • 技术积分: 2185
  • 用 户 组: 普通用户
  • 注册时间: 2009-11-06 09:15
文章存档

2010年(133)

2009年(47)

我的朋友

分类: 项目管理

2009-11-20 19:52:20

   参考文献: 《信息检索技术》 孙建军 成颖   科学出版社
             百度百科 
             计算机学院 于老师的授课PPT
 
    随着Web信息资源的迅速增加,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,是Web应用的一个难题!  1995年开始出现的信息检索工具-----搜索引擎很好地提供了一个解决的方法。 搜索引擎提供的导航服务已成为Internet中最重要的网络服务之一。
 
0. 搜索引擎的核心价值
   让人们最便捷地获取信息,找到所求!!
 
   搜索引擎发展的思路变迁
   网址搜寻 ---->  网页检索 -----> 信息检索 ----> 需求检索  ----> 统一检索
 
   搜索引擎的未来
   垂直搜索 ; 分类搜索 ;  比较搜索 ;  个性搜索 ; ......  无线搜索 ;  人肉搜索(?)
 
   (本人开发的引擎的形式应该是 个性搜索式的; 做成分布式之后可能完成人肉搜索的功能!!)
 
A. 搜索引擎的概念  search engine (百度百科)
   搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理之后,并将处理结果后的信息显示给用户,是为用户提供检索服务的系统。
   
   从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。
  发展早期,以为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
 
B. 搜索引擎的分类 (百度百科)
 
   1、全文搜索引擎 (Baidu、 Google)
 
  全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
  根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
 
  2、目录式搜索引擎  (Yahoo、 Sohu)
 
  目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

 
  3、元搜索引擎  
  元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
  其他非主流搜索引擎形式:
  1、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
  2、门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
  3、免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
 
C. 搜索引擎的工作原理
 
    1、抓取网页
  每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
  2、处理网页
  搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。
  3、提供检索服务
  用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和外,还会提供一段来自网页的摘要以及其他信息。
 
D. 全文搜索引擎的概念
 
   在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
  当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
  这种引擎它的特点是搜全率比较高。
 
E. 搜索引擎的作用
   搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的
  一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,
  而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。
  1、从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用
  2、从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销
  3、就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环节
 
F. 搜索引擎的影响
 
   一、搜索引擎给网吧行业带来的影响
  走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有google或百度的标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。现在我们常用的搜索引擎无非就是百度和google两种。从百度方面来看,百度联盟可以算是目前唯一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而google方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷歌的新型合作伙伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。谷歌对网吧市场的关注,表明谷歌注意到网吧作为中国互联网市场的特色之一。由于我国PC拥有量远落后于美国等西方国家,网吧作为网民主要上网地点的比例逐年在上升,我国网民在网吧上网的比例偏高。据CNNIC 第20次中国互联网络发展状况统计报告显示,超过1/3(37.2%)的网民表示经常去网吧上网,比2006年12月的32.3%高了5个百分点,第一次超过网民在工作单位上网的比例而成为第二大上网场所。
  二、搜索引擎对网站的影响
  一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。如果搜索引擎能够能多能有效的抓取网站内容,那么对于网站的好处是不言而喻的。所以,SEO也应运而生了。
  在两大搜索引擎的工作中,百度的工作周期相对来说比google短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。
 
 
  
 
阅读(1693) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~