apachelog分析脚本-night85-ChinaUnix博客

运维成长历程night85.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

night85

博客访问： 522819
博文数量： 173
博客积分： 4112
博客等级：上校
技术积分： 1577
用户组：普通用户
注册时间： 2010-02-26 10:12

文章分类

全部博文（173）

操作系统（51）

WMI（2）

Windows（0）

Linux故障（2）

Linux系统（4）

Linux（0）

Linux字段详解（3）

Linux技巧汇总（14）

Linux服务详解（4）

Linux命令详解（22）
程序设计（30）

Perl（0）

Python（10）

Shell（1）

sed-awk-grep汇总（1）

shell技巧汇总（11）

Shell脚本实例（7）
运维工作思考（1）
数据库（6）

RRD数据库（1）

Mysql（2）

Mysql技巧汇总（3）
云技术（0）
邮箱技术（7）

退信处理（2）
网络技术（13）

网络优化（1）

TCP（1）

Snmp（5）

CDN（0）

Netscreen（0）

Cisco（2）

SMTP（1）

ICMP（2）

协议详解（0）
心情分享（6）
硬件（3）

CPU（1）
开源软件使用（52）

weathermap（1）

zenoss（7）

Dns（1）

Tuxedo（5）

Lvs（1）

Apache（5）

Cacti（15）

memcached（2）

Squid（2）

Nagios监控脚本（4）

Nagios技巧汇总（7）

Nagios配置文件（1）

Nagios（0）
未分配的博文（4）

文章存档

2012年（1）

2010年（172）

我的朋友

相关博文

apachelog分析脚本

分类：系统运维

2010-04-01 15:32:45

假设apache日志格式为：
118.78.199.98 - - [09/Jan/2010:00:59:59 +0800] "GET /Public/Css/index.css HTTP/1.1" 304 - "" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; GTB6.3)"

在 apache日志中找出访问次数最多（负载最重）的几分钟内，哪几个IP访问的最多？
我写了两个脚本，但内容上大同小异
脚本1：

#!/bin/bash
# analysis apache access log
# histroy
# caoyameng version0.1 2010/01/24

if (test -z $1) ;then
read -p "Specify logfile:" LOG
else
LOG=$1
fi

if [ ! -e $LOG ];then
echo "I cann't find apache log file."
exit 0
fi

awk '{print $4}' $LOG |cut -c 14-18|sort|uniq -c|sort -nr|head >timelog
for i in `awk '{print $2}' timelog`
do

all=`grep $i timelog|awk '{print $1}'`
echo " $i $all"
IP=`grep $i $LOG| awk '{print $1}' |sort |uniq -c|sort -nr|head`
echo "$IP"

done
rm -f timelog

version 2

#!/bin/bash
# analysis apache access log
# histroy
# caoyameng version0.2 2010/01/24

if (test -z $1) ;then
read -p "Specify logfile:" LOG
else
LOG=$1
fi

if [ ! -e $LOG ];then
echo "I cann't find apache log file."
exit 0
fi

awk '{print $4}' $LOG |cut -c 14-18|sort|uniq -c|sort -nr|head >timelog
for (( i=1; i<=10; i=i+1 ))
do
num=`sed -n "${i}p" timelog|awk '{print $1}'`
time=`sed -n "${i}p" timelog|awk '{print $2}'`
echo "####The No.$i "
echo " "
echo " $time $num"
echo " "
full=`grep $time $LOG| awk '{print $1}' |sort |uniq -c|sort -nr|head`
echo "$full"
echo " "
done
rm -f timelog

补充上三个小命令：
问题1：在apachelog中找出访问次数最多的10个IP。

awk '{print $1}' apache_log |sort |uniq -c|sort -nr|head

awk 首先将每条日志中的IP抓出来，如日志格式被自定义过，可以 -F 定义分隔符和 print指定列；
sort进行初次排序，为的使相同的记录排列到一起；
upiq -c 合并重复的行，并记录重复次数。
head进行前十名筛选；
sort -nr按照数字进行倒叙排序。
我参考的命令是：
显示10条最常用的命令

问题2：在apache日志中找出访问次数最多的几个分钟。

awk '{print $4}' apache.log |cut -c 14-18|sort|uniq -c|sort -nr|head

awk 用空格分出来的第四列是[09/Jan/2010:00:59:59；
cut -c 提取14到18个字符
剩下的内容和问题1类似。
问题3：在apache日志中找到访问最多的页面：

awk '{print $11}' apache_log |sed 's/^.*cn$.*$\"/\1/g'|sort |uniq -c|sort -rn|head

类似问题1和2，唯一特殊是用sed的替换功能将"" 替换成括号内的内容："（/common /index.php）

阅读(513) | 评论(0) | 转发(0) |

上一篇：Linux命令 paste文本按列合并

下一篇：shell数值计算

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6