Nginx之禁止网络爬虫 -ygl23-ChinaUnix博客

强龙ygl23.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ygl23

博客访问： 1777306
博文数量： 391
博客积分： 8464
博客等级：中将
技术积分： 4589
用户组：普通用户
注册时间： 2008-12-13 15:12

个人简介

狮子的雄心，骆驼的耐力，孩子的执著！

文章分类

全部博文（391）

Python（1）
ProjectManagemen（1）
PHP（2）
Financial（0）
Solaris（4）
Virtualization（6）
Java（42）
Android（5）
Shell（32）
Security（30）
C/C++（9）
Database（47）

Mysql（27）

Oracle（18）
Windows（14）
General（85）
Essay（11）
Linux（102）

Ubuntu（1）

RHEL/CENTOS（4）
未分配的博文（0）

文章存档

2023年（4）

2018年（9）

2017年（13）

2016年（18）

2014年（7）

2013年（29）

2012年（61）

2011年（49）

2010年（84）

2009年（95）

2008年（22）

我的朋友

相关博文

Nginx之禁止网络爬虫

分类：系统运维

2013-06-21 13:52:12

“网络爬虫” “网路爬虫”在日常维护服务的过程中，是一个常见的问题。它说：“我要一步一步往上爬，爬呀爬呀爬到服务Game Over”！呵呵，因为遇到了，所以分享一下，处理网络爬虫的方法（这里主要是在Nginx上，做禁止爬虫）.
常见问题：
1.网络堵塞丢包严重（上下行数据异常，排除DDOS攻击，服务器中毒。异常下载，数据更新）
2.服务器负载过高，CPU几乎跑满（针对相应的服务配置而定）；
3.服务基本瘫痪，路由瘫痪；
4.查看日志发现大量的异常访问日志

思路:先查看日志--分析日志--针对相关信息来源做限制（防火墙，Nginx本身都可以）；

具体步骤：
一.先查看日志
cat logs/ |grep spider -c (看有爬虫标志的访问次数)
cat logs/ |wc (合计总页面的访问次数)

cat logs/ |grep spider|awk '{print $1}'|sort -n|uniq -c|sort -nr （查看爬虫的IP地址来源）
cat logs/ |awk '{print $1 " " substr($4,14,5)}'|sort -n|uniq -c|sort -nr|head -20(_列出1分钟内的前20位IP地址)
cat logs/ |grep ip （列出出现较多的IP地址，这个可以结合上面的命令使用。）

二.分析日志
晓得爬虫爬过那些内容，是什么爬虫爬的。什么时候爬的
常见的爬虫有Google,Baidu,Yahoo这些（在下面的Nginx的http_user_agent配置处，有一些常见的爬虫）

三.修改防火墙策略，毙掉这个好奇的爬虫IP
vim /etc/sysconfig/iptables

-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -s 61.33.22.1/24 -j REJECT
-A RH-Firewall-1-INPUT -m state –state NEW -m tcp -p tcp –dport 80 -s 61.22.1.1/24 -j REJECT
重新启动iptables生效。

四.关于Nginx上的http_user_agent 的设置也可以很好的防范

具体的配置信息如下：

server {
listen 80;
server_name ;
if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")
{
return 403;
}
location ~ ^/(.*)$ {
proxy_pass
proxy_redirect off;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
client_max_body_size 10m;
client_body_buffer_size 128k;
proxy_connect_timeout 90;
proxy_send_timeout 90;
proxy_read_timeout 90;
proxy_buffer_size 4k;
proxy_buffers 4 32k;
proxy_busy_buffers_size 64k; proxy_temp_file_write_size 64k;
}
error_page 500 502 503 504 /50x.html;
location = /50x.html { root html;
}

}

阅读(1200) | 评论(0) | 转发(0) |

上一篇：linux 自动ping ip的shell脚本

下一篇：RHEL/CentOS 6.x linux 系统服务用途详解

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6