阻止搜索引擎的网络爬虫-szszszsz-ChinaUnix博客

szszszsz

首页　| 　博文目录　| 　关于我

szszszsz

博客访问： 160675
博文数量： 25
博客积分： 2045
博客等级：大尉
技术积分： 290
用户组：普通用户
注册时间： 2007-03-08 18:12

文章分类

全部博文（25）

系统管理（5）
shell（5）
数据库（5）
web（10）
未分配的博文（0）

文章存档

2012年（1）

2009年（8）

2008年（16）

我的朋友

benmiu

相关博文

阻止搜索引擎的网络爬虫

分类：系统运维

2008-09-19 20:32:36

    现在的搜索引擎的所谓网络爬虫，好像又叫蜘蛛太厉害了，有些搜索引擎的算法较差，爬服务器的严重耗资源，还有可能造成内存溢出。可以设置robots.txt来禁止爬虫来爬服务器。网上查了下资料，默认网站根目录下没有放置robots.txt文件，为允许所有网络爬虫搜索所有文件。汗！！

   在根目录放一个文件robots.txt，但好像不会立刻生效。
   如要禁止sogou的爬虫，可以在robots.txt这样设置
     User-agent:Sogou web spider
     Disallow: /

有个笨方法，查看日志，观察浏览器特征，如sogou的特征为“Sogou web spider”，可以在apache里面设置
    setenvif User-Agent "Sogou web spider*" den
    Order deny,allow
    deny from env=den
再看apache日志信息，都是报403

最实用的方法查看apache日志，看来源IP，确认后，封，最管用

以上操作都是治标不治本，只不过现在搜索引擎太多了，有时会影响到服务器的正常运行，所以有必要的话，可以对他们做一些限制操作了

阅读(2419) | 评论(0) | 转发(0) |

上一篇：lighttpd的安装与配置

下一篇：touch命令使用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6