全部博文(31)
分类: 系统运维
2009-05-23 20:23:28
robots.txt是一种存放于网站根目录下的编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘 蛛),此网站中的哪些 内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠“/”这两种表示是不同的URL,也不能用”Disallow: *.gif”这样的通配符。
robots.txt 文件必须位于域名的根目录中并命名为”robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。
最简单的 robots.txt 文件使用两条规则:
这两行会视为文件中的一个条目。 您可根据需要包含任意多个条目。 您可在一个条目中包含多个 Disallow 行和多个 User-agent。
User-agent用来指定你要控制的搜索引擎漫游器。例如Google的漫游器叫做Googlebot,百度的漫游器叫做baiduspider,等等。
User-agent: * 则可以指定所有的搜索引擎漫游器都受本条目的控制。
Disallow 行列出的是您要拦截的网页。 您可以列出某一具体网址或网址模式。 条目应以正斜杠 (/) 开头。
Disallow: /
Disallow: /junk-directory/
Disallow: /private_file.html
User-agent: Googlebot-Image
Disallow: /images/狗.jpg
User-agent: Googlebot-Image
Disallow: /
User-agent: Googlebot
Disallow: /*.gif$
User-agent: *
Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
一般来说,存放图片、私密文档、上传文件的目录最好设置Disallow以阻挡搜索引擎。
Google的工具提供了robots.txt生成工具。
原文地址: