awk技巧-awk去重也可以这么简单-huaxiatianwei-ChinaUnix博客

F1阿江的运维之路

首页　| 　博文目录　| 　关于我

huaxiatianwei

博客访问： 483162
博文数量： 145
博客积分： 0
博客等级：民兵
技术积分： 1139
用户组：普通用户
注册时间： 2014-01-14 16:47

个人简介

路漫漫其修远兮，吾将上下而求索

文章分类

全部博文（145）

mysql（26）
linux（62）
shell（7）
sed&awk&grep（4）
windows（7）
bat（2）
k8s（0）
ceph分布式存储（2）
虚拟化（2）
python（8）
redis（1）
iptables（1）
简单服务搭建（12）
rsync（1）
cacti&nagios（3）
puppet（1）
负载均衡（3）
网络（2）
生活（1）
未分配的博文（0）

文章存档

2016年（10）

2015年（15）

2014年（120）

我的朋友

非常欠揍

相关博文

awk技巧-awk去重也可以这么简单

分类： LINUX

2014-01-15 15:20:02

解释下
awk '!a[$0]++' file
一看之下，首先是想到又用到awk的hash，又是缺省的pattern，一下子来了兴趣，做了以下的分析
这个要从awk的执行模式开始说，最后结合++运算符，和hash特色
有三个基本知识点是要了解的
1：a++的作用是先附值，再累加a，与++a正好相反。
2：hash的初始是undef,通过直接附值或声明进行定义，如a[1]=1,或直接声明a[1]。
3：awk的基本模式是,pattern { action statements }，action部分是可以省略的，缺省情况下是输出，即{print $0}，至于pattern可以理解成是表达式，通过pattern表达式的值的真假，来确定是否要进行action。比如1,最简单的awk用来实现cat的功能就是 awk '1',这边1就是pattern,当然,1也可以是2,3,4,5等其他数字，但如果用字母的话，就不行，因为字母会解释成变量，变量初始值未定义，初始值为假，或者可以加个!反义
结合上边三点来分析awk '!a[$0]++' file
"!a[$0]++"
0:整个模式，没有用到action,所以采用的是默认的{print $0}，即在patten为真条件来，输出行
patten分析：
1:使用了一个hash数组,a,数组的键值采用$0,即每行值
2:当a[$0]未声明时，a[$0]为假，在未声明的情况下，进行一次a[$0]++后，a[$0]即为真
3：!取反
结论：当相同的行第一次读入时，pattern为真，行输出，再次读入后，patten为假，行乎略
基本理论知道了，要用得出来还得多锻炼应用
上周帮别人写个awk,也是这种情况
我写的
awk '{if($2 in a);else{a[$2]=$0}}END{for(b in a)print a[b]}' urrfile
后来别人给出更简单的答案
awk ' !($2 in i){ i[$2]; print } ' urrfile
现在看来，还可以更简单些
awk '!a[$2]++' urrfile

阅读(1336) | 评论(0) | 转发(0) |

上一篇：TCP和UDP之间的区别

下一篇：反垃圾邮件自动判断黑名单提交申诉

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6