搜索引擎蜘蛛与robot.txt的那些事儿-于申-ChinaUnix博客

文章分类

文章存档

2011年（36）

我的朋友

最近访客

推荐博文

搜索引擎蜘蛛与robot.txt的那些事儿

分类： IT业界

2011-10-29 13:29:05

搜索引擎蜘蛛通常就是指搜索引擎用于访问各个网站及页面，然后并进行读取、抓取索引，最后收录的机器人程序。简单来说，搜索引擎通过蜘蛛程序访问并选择性的搜索你网站及页面。再换一种说法，搜索引擎蜘蛛就是搜索引擎认识各个网站的“访问者”。

最早的时候，“机器人”这个词才是在编程人员中流行的词。“电脑机器人”就是指某个以人类无法到达的速度不间断的执行某项任务的软件程序。然而，用于专门检索信息的“电脑机器人”程序就像蜘蛛一样在浩瀚的互联网内爬来爬去。因此，搜索引擎的“机器人”程序也就被泛称为“搜索引擎蜘蛛”程序了。

各大搜索引擎蜘蛛名字

谷歌机器人：googlebot

百度蜘蛛：baiduspider（也可能是因为百度在中文搜索领域的“准垄断”地位，加上百度蜘蛛的名字，使得绝大部分国内SEOer都习惯性的将“搜索引擎机器人程序”称为“蜘蛛”。）

雅虎蜘蛛：slurp

搜狗蜘蛛：sougou spider

搜搜蜘蛛：sosospider

必应机器人：msnbot

有道机器人：yodaobot/OutfoxBot

alexa蜘蛛：ia_archiver

主流搜索引擎蜘蛛习性

谷歌机器人：不太喜欢爬行，但非常喜欢收录，比较守规矩。

百度蜘蛛：谨慎爬行，更谨慎收录，反应较慢。

搜搜蜘蛛：钟爱图片，但经常在动态url中迷路。

雅虎蜘蛛：恪守规则。

各大蜘蛛对robots.txt支持程度

以robots.txt中的指令“Disallow: /*?*”分析，此规则意为禁止动态页面抓取。

谷歌机器人：在robots.txt写了禁止抓取就不再爬行相关url，在谷歌站长工具中体现相关url已被禁止。但之前已收录内容需要一段时间剔除。

百度蜘蛛：编写指令后，相关url爬行次数逐日减少。

搜狗蜘蛛：似乎视robots.txt为无物，依旧卖力的爬行。

搜搜蜘蛛：还算是比较遵守规则，禁止后就不再爬行相关url。

雅虎蜘蛛：同搜搜蜘蛛。

特别申明：此文由笔者从新组织语言，原文由铭睿撰写。笔者由中国电子商务研究中心网发现此文。

转载请务必注明出处，谢谢。

本文链接地址: http://www.yushenblog.com/seo/520.html

阅读(831) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们