Chinaunix首页 | 论坛 | 博客
  • 博客访问: 158191
  • 博文数量: 25
  • 博客积分: 2045
  • 博客等级: 大尉
  • 技术积分: 290
  • 用 户 组: 普通用户
  • 注册时间: 2007-03-08 18:12
文章分类

全部博文(25)

文章存档

2012年(1)

2009年(8)

2008年(16)

我的朋友

分类: 系统运维

2008-09-19 20:32:36

    现在的搜索引擎的所谓网络爬虫,好像又叫蜘蛛太厉害了,有些搜索引擎的算法较差,爬服务器的严重耗资源,还有可能造成内存溢出。可以设置robots.txt来禁止爬虫来爬服务器。网上查了下资料,默认网站根目录下没有放置robots.txt文件,为允许所有网络爬虫搜索所有文件。汗!!
 
   在根目录放一个文件robots.txt,但好像不会立刻生效。
   如要禁止sogou的爬虫,可以在robots.txt这样设置
     User-agent:Sogou web spider
     Disallow: /

 有个笨方法,查看日志,观察浏览器特征,如sogou的特征为“Sogou web spider”,可以在apache里面设置
    setenvif User-Agent "Sogou web spider*" den
    Order deny,allow
    deny from env=den
再看apache日志信息,都是报403

最实用的方法 查看apache日志,看来源IP,确认后,封,最管用

以上操作都是治标不治本,只不过现在搜索引擎太多了,有时会影响到服务器的正常运行,所以有必要的话,可以对他们做一些限制操作了
阅读(2361) | 评论(0) | 转发(0) |
0

上一篇:lighttpd的安装与配置

下一篇:touch命令使用

给主人留下些什么吧!~~