Chinaunix首页 | 论坛 | 博客
  • 博客访问: 59582
  • 博文数量: 38
  • 博客积分: 946
  • 博客等级: 准尉
  • 技术积分: 370
  • 用 户 组: 普通用户
  • 注册时间: 2011-09-20 14:57
文章分类
文章存档

2012年(2)

2011年(36)

我的朋友
最近访客

分类: IT业界

2011-10-29 13:29:05

    搜索引擎蜘蛛通常就是指搜索引擎用于访问各个网站及页面,然后并进行读取、抓取索引,最后收录的机器人程序。简单来说,搜索引擎通过蜘蛛程序访问并选择性的搜索你网站及页面。再换一种说法,搜索引擎蜘蛛就是搜索引擎认识各个网站的“访问者”。
    最早的时候,“机器人”这个词才是在编程人员中流行的词。“电脑机器人”就是指某个以人类无法到达的速度不间断的执行某项任务的软件程序。然而,用于专门检索信息的“电脑机器人”程序就像蜘蛛一样在浩瀚的互联网内爬来爬去。因此,搜索引擎的“机器人”程序也就被泛称为“搜索引擎蜘蛛”程序了。

    各大搜索引擎蜘蛛名字
    谷歌机器人:googlebot
    百度蜘蛛:baiduspider(也可能是因为百度在中文搜索领域的“准垄断”地位,加上百度蜘蛛的名字,使得绝大部分国内SEOer都习惯性的将“搜索引擎机器人程序”称为“蜘蛛”。)
    雅虎蜘蛛:slurp
    搜狗蜘蛛:sougou spider
    搜搜蜘蛛:sosospider
    必应机器人:msnbot
    有道机器人:yodaobot/OutfoxBot
    alexa蜘蛛:ia_archiver

    主流搜索引擎蜘蛛习性
    谷歌机器人:不太喜欢爬行,但非常喜欢收录,比较守规矩。
    百度蜘蛛:谨慎爬行,更谨慎收录,反应较慢。
    搜搜蜘蛛:钟爱图片,但经常在动态url中迷路。
    雅虎蜘蛛:恪守规则。

    各大蜘蛛对robots.txt支持程度
    以robots.txt中的指令“Disallow: /*?*”分析,此规则意为禁止动态页面抓取。
    谷歌机器人:在robots.txt写了禁止抓取就不再爬行相关url,在谷歌站长工具中体现相关url已被禁止。但之前已收录内容需要一段时间剔除。
    百度蜘蛛:编写指令后,相关url爬行次数逐日减少。
    搜狗蜘蛛:似乎视robots.txt为无物,依旧卖力的爬行。
    搜搜蜘蛛:还算是比较遵守规则,禁止后就不再爬行相关url。
    雅虎蜘蛛:同搜搜蜘蛛。

    特别申明:此文由笔者从新组织语言,原文由 铭睿 撰写。笔者由 中国电子商务研究中心网 发现此文。



除非特殊注明,本博客文章均为于申原创,版权归于申blog©所有。
转载请务必注明出处,谢谢。
本文链接地址: http://www.yushenblog.com/seo/520.html
阅读(805) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~