sed之找出重复的行-kk5234-ChinaUnix博客

kk5234的ChinaUnix博客netlyz.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

kk5234

博客访问： 217641
博文数量： 87
博客积分： 192
博客等级：入伍新兵
技术积分： 455
用户组：普通用户
注册时间： 2011-04-14 07:44

文章分类

全部博文（87）

自动化运维（2）
故障解决（2）
命令（1）
性能调优（1）
负载均衡（3）
web（5）
mysql（2）
awk（16）
sed（25）
shell（12）
未分配的博文（18）

文章存档

2013年（1）

2012年（86）

我的朋友

最近访客

推荐博文

sed之找出重复的行

分类：

2012-04-14 15:36:49

原文地址：sed之找出重复的行作者：zooyo

首先保证重复行必须是相邻的，否则先排序。

cat file

找出重复的行：

sed -rn 'N;/(.*)\n\1$/{P;:a;s/\n.*//;N;/(.*)\n\1$/ba};D' file

[解析]

匹配到重复的行，就打印，然后把重复的内容替换成一行，再读取下一行，如果还是重复就再替换成一行，直到和下一行不重复，然后 D 删除不重复的内容。这样就保证第一次读取到重复的行，被打印出来。

sed '$!N;/$.*$\n\1$/!{x;//P;x};h;D' file

[解析]

这才是文本的精华。首先读取下一行的内容到 pattern space 里，如果匹配到两行是一样的内容，那么就把该内容拷贝到 hold space 里，然后删除第一行，又继续读取下一行，这样反复操作，就把重复的行处理成最后两个重复的，都放到 holde space 里保存，直到读去下一行内容不一样时，就交换出 hold space 里的内容，再检测一次是否两行是一样，然后打印出第一行，再次交换，然后拷贝到 hold space 里。这里并没有利用到替换，而是用 h 拷贝覆盖 hold space 里的内容来达到去处多余的重复的行。sed的上乘佳作啊，感谢Tim大师的指点。

awk 'a[$1]++==1' file
awk '++a[$1]==2' file

[解析]

这是最简单的，用数组计数统计。

阅读(985) | 评论(0) | 转发(0) |

上一篇：sed之利用 t label 实现条件替换

下一篇：sed之MAC地址替换

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6