进行WEB日志分类的N种方法-yangzhigang-ChinaUnix博客

杨志刚的博客yangzhigang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yangzhigang

博客访问： 1245181
博文数量： 135
博客积分： 10576
博客等级：上将
技术积分： 1670
用户组：普通用户
注册时间： 2008-06-11 20:49

个人简介

不疯魔，不成活！ --疯魔老杨(Crazy.LaoYang) http://www.inotes.cn/

文章分类

全部博文（135）

语言学习（8）

HTMLx/CSSx（0）

C/C++（0）

JavaScript（0）

PHP（8）
数据库/Database（7）

SQLServer（1）

Oracle（1）

Mysql（5）
运维之路（21）

ChartDirector（0）

Cacti（15）
杨言无忌（4）
Windows（9）
Apache（5）
Linux/Unix（26）
Shell（12）
草稿（0）
以知会友（2）
身边英语（7）
专题研究（7）

HTTP相关（7）
网络技术（9）
随心随笔（18）
未分配的博文（0）

文章存档

2014年（4）

2012年（13）

2011年（5）

2010年（30）

2009年（56）

2008年（27）

我的朋友

相关博文

进行WEB日志分类的N种方法

分类： LINUX

2010-09-07 11:46:00

进行WEB日志分类的N种方法
(源自：杨志刚博客 http://yangzhigang.cublog.cn)

前言：
网站有一类日志是通过反向代理设备生成的，生成日志时，各个域名的所有访问日志是混在一起的，日志格式是一致的，如下：
121.11.151.36 "[05/Aug/2010:12:59:36]" "GET / HTTP/1.0" 200 3427 - -
211.14.161.36 "[05/Aug/2010:13:11:37]" "GET / HTTP/1.0" 200 3327 - -
222.11.151.36 "[05/Aug/2010:13:12:16]" "GET / HTTP/1.0" 200 3127 - -
202.11.151.36 "[05/Aug/2010:14:50:26]" "GET / HTTP/1.0" 200 5527 - -
121.11.151.36 "[05/Aug/2010:15:34:46]" "GET / HTTP/1.0" 200 7427 - -
…………………………………….

在传给日志系统分析前，要按域名分类到不同的日志文件中，以下通过几种分类方法，来对比说明一下。

方法1：（awk直接分类）
awk ‘{print $0>$1”.txt”}’ log.txt //分离后存到本目录
awk '{print $0>"./dirx/"$1".txt"}' log.txt //分离后存到其它本目录

方法：2（shell脚本while循环）
#!/bin/sh
cat log1.txt | while read line;
do
newlog=`echo $line|awk '{print $1}' `
echo $line >>$newlog.txt
done

方法：3（shell脚本循环grep过滤）
#cat name.ini //建一个所有域名的文件

………

#!/bin/sh
ServerName=./name.ini
for hostname in `cat ${name}`
do
grep ^${hostname} log.file>>$hostname.txt
done

方法：4（shell脚本循环grep过滤）
(在方法3的基础上，逐步减小源文件)
#!/bin/sh
name=./name.ini
for hostname in `cat ${name}`
do
grep ^${hostname} log.file>>$hostname.txt
grep -v ^${hostname} log.file >> log.file.tmp
mv log.file.tmp log.file
done

执行效率测试
测试条件日志大小：14M；域名数量：39；文件行数：100000
方法1: 2.361s
方法2: 7m32.607s
方法3: 4m54.135s
方法4： 9m44.615s

总结：
同样是对日志按域名分类，各种方法的效率相差很大，建议采用方法一。

阅读(4186) | 评论(0) | 转发(0) |

上一篇：对于大日志包进行分割的N种方法

下一篇：NFS简单配置方法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6