awk统计，数组-greendays-ChinaUnix博客

greendays

首页　| 　博文目录　| 　关于我

greendays

博客访问： 2093068
博文数量： 470
博客积分： 10206
博客等级：上将
技术积分： 5620
用户组：普通用户
注册时间： 2008-07-03 12:50

文章分类

全部博文（470）

Yum更新（1）
虚拟化（4）
传输工具（2）
telnet（2）
SSH2（1）
终端Terminal（0）
Expect（2）
Nagios+Cacti 监（1）
技术交流（1）
分隔求和问题（1）
perl（1）
I/O重定向（1）
awk中函数的用法（1）
awk中单双引号（1）
替换问题（2）
sed标签（1）
非交互脚本（1）
cut用法（1）
循环语句（2）
字符集（1）
vim（2）
JAVA开发（1）
VMware（1）
Windows（1）
FreeBSD（1）
正则表达式（2）
压缩和解压缩（1）
Linux 系统管理（30）
trap（1）
xargs（1）
sort（5）
grep（11）
awk（89）
sed（34）
find 命令（17）
网络技术（6）

Iptables（1）
面试题（5）
优化技术（0）
bonding绑定技术（0）
整合与架构（1）
MYSQL（6）
生活履历（32）
UNIX SHELL（135）
未分配的博文（61）

文章存档

2012年（1）

2011年（18）

2010年（47）

2009年（404）

我的朋友

最近访客

推荐博文

awk统计，数组

分类：

2009-06-04 08:53:46

| | windows嵌入式有奖征文|

侠客

CU编号： 630992
注册：2007-10-20
最后登录： 2009-06-03
帖子：
精华：0

状态：...离线...

[] [] [博客]

[]

发表于 2009-6-1 17:19

求助，想实现如下统计功能。
有个log，内容类似如下：
xxxxxxxx,resp,1001,xxxxxx,56:201,xxxx
xxxxxxxx,resp,1001,xxxxxx,56:202,xxxx
xxxxxxxx,resp,1001,xxxxxx,56:203,xxxx
......
......
xxxxxxxx,resp,1002,xxxxxx,56:201,xxxx
xxxxxxxx,resp,1002,xxxxxx,56:203,xxxx
xxxxxxxx,resp,1002,xxxxxx,56:206,xxxx
......
......
xxxxxxxx,resp,1007,xxxxxx,56:-13,xxxx
xxxxxxxx,resp,1008,xxxxxx,56:9001,xxxx
xxxxxxxx,resp,1009,xxxxxx,56:209,xxxx
......
......

xxxx,resp,[返回码1],xxxxxxx,56:[返回码2],xxxx
返回码1是全数字，返回码2会包含“-”号
返回码1和返回码2不固定，需要从日志中取，有多少种取多少种

想得到的结果是：
【1001】共计条
【1001，201】共计条
【1001，202】共计条
......
......
【2001】共计条
【2001，201】共计条
【2001，-13】共计条

......
......
可能几千个类似日志，共计百万条数据，所以还要考虑效率！
一向对awk数组比较恐惧，无解中，求高人相助。
感激不尽！

实际的一条log，log中还有大量其他不是这样格式的行
2009/05/31 21:34:59,InMsg,resp,1008,0,9990384585601,346156950,2343590548,0,999,0,0014,200,A Portal,212.230.144.69;QUsrPfRp,56:0,14:12923332326,16:00140055675190,22:1,15:2,121:20615;

[ 本帖最后由 zjdick 于 2009-6-1 18:08 编辑 ]

您对本贴的看法：

| | |

大天使

CU编号： 347943
注册：2005-12-11
最后登录： 2009-06-04
帖子：
精华：0

状态：...在线...

[] [] [博客]

[]

发表于 2009-6-1 17:29

CODE:

awk -F '[:,]' '{a[$3]++;b[$3"#"$6]++}END{for (i in a) {print i":"a[i];for (j in b) {split(j,M,"#");if (M[1]==i) print j":"b[j]}}}' file

改一下输出

CODE:

awk -F '[:,]' '{a[$3]++;b[$3","$6]++}END{for (i in a) {print "【"i"】共计"a[i];for (j in b) {split(j,M,",");if (M[1]==i) print "【"j"】共计"b[j]}}}' file

[ 本帖最后由 ywlscpl 于 2009-6-1 17:33 编辑 ]

您对本贴的看法：

__________________________________

shell新手&&awk新手
http://blog.chinaunix.net/u3/91453/

| | |

侠客

CU编号： 1650889
注册：2009-5-16
最后登录： 2009-06-04
帖子：
精华：0

状态：...在线...

[] [] [博客]

[]

发表于 2009-6-1 17:49

你的xxxxx里面包含:,数字字母么？

您对本贴的看法：

| | |

侠客

CU编号： 1650889
注册：2009-5-16
最后登录： 2009-06-04
帖子：
精华：0

状态：...在线...

[] [] [博客]

[]

发表于 2009-6-1 18:03

CODE:

time sed 's/^.*resp,$[0-9]*$.*56:$[0-9\-]*$.*$/[\1\t\2]/g' file |awk '{++S[$1];++M[$1","$2]}END{for (i in S) print i"]",S[i];for(j in M) print j,M[j]}'

[1007] 16074
[1008] 16074
[1009] 15510
[1001] 45402
[1002] 51042
[1002,203] 14946
[1001,201] 15510
[1001,202] 14946
[1001,203] 14946
[1002,206] 21432
[1009,209] 15510
[1007,-13] 16074
[1008,9001] 16074
[1002,201] 14664

real 0m5.573s
user 0m5.779s
sys 0m0.027s

14万条数据

您对本贴的看法：

| | |

(黑哥)

精灵使

CU编号： 631768
注册：2007-10-22
最后登录： 2009-06-04
帖子：
精华：0

状态：...离线...

[] [] [博客]

[]

发表于 2009-6-1 18:07

awk:

CODE:

awk -F '[,:]' '{a[$3","$6]++}END{for(i in a) print "["i"]:"a[i]}' urfile

您对本贴的看法：

__________________________________

LIVE FREE OR DIE! K.I.S.S.

| | |

(狼烟)

光明使者
八十万色狼总教头

CU编号： 547805
注册：2007-4-5
最后登录： 2009-06-03
帖子：
精华：0

来自：北京
状态：...离线...

[] [] [博客]

[]

发表于 2009-6-1 18:30

把你后来添加的和前面的一起处理的。测试数据100W条。

CODE:

[root]# time awk -v RS="resp,|,56:" -F, 'BEGIN{getline} NR%2==0{s=$1;a[s]++} NR%2{a[s","$1]++} END{for(i in a) print "["i"] 共计 "a[i]" 条"}' b | sort | column -t
[1001,201] 共计  100001  条
[1001,202] 共计  100001  条
[1001,203] 共计  100001  条
[1001]    共计  300003  条
[1002,201] 共计  100001  条
[1002,203] 共计  100001  条
[1002,206] 共计  100001  条
[1002]    共计  300003  条
[1007,-13] 共计  100001  条
[1007]    共计  100001  条
[1008,0]    共计  100001  条
[1008,9001]  共计  100001  条
[1008]    共计  200002  条
[1009,209] 共计  100001  条
[1009]    共计  100001  条

real 0m10.996s
user 0m10.947s
sys    0m0.051s

您对本贴的看法：

| | |

侠客

CU编号： 630992
注册：2007-10-20
最后登录： 2009-06-03
帖子：
精华：0

状态：...离线...

[] [] [博客]

[]

发表于 2009-6-1 22:27

回复 #6 kwokcn 的帖子

没看懂，NR%2啥意思？

您对本贴的看法：

| | |

(狼烟)

光明使者
八十万色狼总教头

CU编号： 547805
注册：2007-4-5
最后登录： 2009-06-03
帖子：
精华：0

来自：北京
状态：...离线...

[] [] [博客]

[]

发表于 2009-6-1 22:47

回复 #7 zjdick 的帖子

以"resp,"或",56:"作为换行符，半角逗号为分隔符，第一行无意义，其他的行，偶数行的第一个域是"resp,xxx"这里要获取的字符串，奇数行的第一个域是"56:xx"这里要获取的字符串。

您对本贴的看法：

| | |

(春之风)

大天使

CU编号： 110253
注册：2003-11-7
最后登录： 2009-06-04
帖子：
精华：

状态：...离线...

[] [] [博客]

[]

发表于 2009-6-2 08:56

用perl效率如何

CODE:

perl -ne '
/^.*?resp,(\d+).*?56:(-?\d+)/;
$a{$1}++;$b{$1}{$2}++;
END{
foreach $key (sort keys (%a)){
printf "【%s】共计 %d 条\n",$key,$a{$key};
foreach $skey (sort keys (%{$b{$key}})){
printf "【%s，%s】共计 %d 条\n",$key,$skey,$b{$key}{$skey};
}
}
}' 数据文件

您对本贴的看法：

__________________________________

Debian(lenny)
GNU bash, version 3.1.17(1)-release (i486-pc-linux-gnu)
GNU Awk 3.1.5
GNU sed version 4.1.5
GNU grep 2.5.3

| | |

(春之风)

大天使

CU编号： 110253
注册：2003-11-7
最后登录： 2009-06-04
帖子：
精华：

状态：...离线...

[] [] [博客]

[]

发表于 2009-6-2 09:09

CODE:

time perl -ne '
/^.*?resp,(\d+).*?56:(-?\d+)/;
$a{$1}++;$b{$1}{$2}++;
END{
foreach $key (sort keys (%a)){
printf "【%s】共计 %d 条\n",$key,$a{$key};
foreach $skey (sort keys (%{$b{$key}})){
printf "【%s，%s】共计 %d 条\n",$key,$skey,$b{$key}{$skey};
}
}
}' 5
【1001】共计 450000 条
【1001，201】共计 150000 条
【1001，202】共计 150000 条
【1001，203】共计 150000 条
【1002】共计 450000 条
【1002，201】共计 150000 条
【1002，203】共计 150000 条
【1002，206】共计 150000 条
【1007】共计 150000 条
【1007，-13】共计 150000 条
【1008】共计 150000 条
【1008，9001】共计 150000 条
【1009】共计 150000 条
【1009，209】共计 150000 条

real 0m6.120s
user 0m6.000s
sys    0m0.108s

wc -l 5
1350000 5

因为数据是复制的，有重复，不知道实际情况会如何

您对本贴的看法：

__________________________________

Debian(lenny)
GNU bash, version 3.1.17(1)-release (i486-pc-linux-gnu)
GNU Awk 3.1.5
GNU sed version 4.1.5
GNU grep 2.5.3

(黑哥)

精灵使

CU编号： 631768
注册：2007-10-22
最后登录： 2009-06-04
帖子：
精华：0

状态：...离线...

[] [] [博客]

[]

发表于 2009-6-2 09:33

回复 #10 springwind426 的帖子

Good! 向springwind426学习!

您对本贴的看法：

__________________________________

LIVE FREE OR DIE! K.I.S.S.

| | |