现在的搜索引擎的所谓网络爬虫,好像又叫蜘蛛太厉害了,有些搜索引擎的算法较差,爬服务器的严重耗资源,还有可能造成内存溢出。可以设置robots.txt来禁止爬虫来爬服务器。网上查了下资料,默认网站根目录下没有放置robots.txt文件,为允许所有网络爬虫搜索所有文件。汗!!
在根目录放一个文件robots.txt,但好像不会立刻生效。
如要禁止sogou的爬虫,可以在robots.txt这样设置
User-agent:Sogou web spider
Disallow: /
有个笨方法,查看日志,观察浏览器特征,如sogou的特征为“Sogou web spider”,可以在apache里面设置
setenvif User-Agent "Sogou web spider*" den
Order deny,allow
deny from env=den
再看apache日志信息,都是报403
最实用的方法 查看apache日志,看来源IP,确认后,封,最管用
以上操作都是治标不治本,只不过现在搜索引擎太多了,有时会影响到服务器的正常运行,所以有必要的话,可以对他们做一些限制操作了
阅读(2419) | 评论(0) | 转发(0) |