用 uniq 除去重复行-lc0060305-ChinaUnix博客

李庚睿（lgr）的博客 -- 蔚蓝天空garry.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

lc0060305

博客访问： 3584420
博文数量： 1450
博客积分： 11163
博客等级：上将
技术积分： 11101
用户组：普通用户
注册时间： 2005-07-25 14:40

文章分类

全部博文（1450）

音视频直播（2）
linux各种服务器（3）
ARM学习（8）

ARM汇编指令（7）
手机开发（230）

android（2）

iphone（4）

symbian（224）
nginx 分析（6）
vi常用方法（13）
linux 常用命令（65）

linux shell 脚本（38）
window批处理资料（15）
黑客技术（20）

linux 系统安全（12）
搜索引擎与网络爬（32）
数据库技术（143）
网络技术（25）

网络测试方法（2）
操作系统研究（192）

android源码分析（1）

linux驱动（20）
程序设计（513）

调试技术（3）

测试方法（7）

性能调优（2）

debian（1）

JNI（5）

configure.ac（1）

Makefile.am（3）

设计模式（19）

算法与数据结构（4）

java程序开发（103）

web程序开发（41）
随笔（129）

地图集（14）

英语（4）

笑话（56）

我喜爱的诗（6）

我的小诗（4）
未分配的博文（54）

文章存档

2017年（5）

2014年（2）

2013年（3）

2012年（35）

2011年（39）

2010年（88）

2009年（395）

2008年（382）

2007年（241）

2006年（246）

2005年（14）

我的朋友

相关博文

用 uniq 除去重复行

分类： LINUX

2008-10-07 13:05:34

重复行通常不会造成问题，但是有时候它们的确会引起问题。此时，不必花上一个下午的时间来为它们编制过滤器，uniq 命令便是唾手可得的好工具。了解一下它是如何节省您的时间和精力的。

进行排序之后，您会发现有些行是重复的。有时候该重复信息是不需要的，可以将它除去以节省磁盘空间。不必对文本行进行排序，但是您应当记住 uniq 在读取行时会对它们进行比较并将只除去两个或更多的连续行。下面的示例说明了它实际上是如何工作的：

				
        $ cat happybirthday.txt
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday Dear Tux!
Happy Birthday to You!
        $ sort happybirthday.txt 
Happy Birthday Dear Tux!
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday to You!
        $ sort happybirthday.txt | uniq
Happy Birthday Dear Tux!
Happy Birthday to You!

警告：请不要使用 uniq 或任何其它工具从包含财务或其它重要数据的文件中除去重复行。在这种情况下，重复行几乎总是表示同一金额的另一个交易，将它除去会给会计部造成许多困难。千万别这么干！

本系列文章介绍了文本实用程序，它对在手册页和信息页找到的信息作了补充。如果您打开新的终端窗口并输入 man uniq 或 info uniq ，或者打开新的浏览器窗口并查看，那么就可以了解更多的相关信息。

如果您希望您的工作轻松点，比如只显示唯一的或重复的行，那么该怎么办呢？您可以用 -u （唯一）和 -d （重复）选项来做到这一点，例如：

				
        $ sort happybirthday.txt | uniq -u
Happy Birthday Dear Tux!
        $ sort happybirthday.txt | uniq -d
Happy Birthday to You!

您还可以用 -c 选项从 uniq 中获取一些统计信息：

				
        $ sort happybirthday.txt | uniq -uc
      1 Happy Birthday Dear Tux!
        $ sort happybirthday.txt | uniq -dc
      3 Happy Birthday to You!

就算 uniq 对完整的行进行比较，它仍然会很有用，但是那并非该命令的全部功能。特别方便的是：使用 -f 选项，后面跟着要跳过的字段数，它能够跳过给定数目的字段。当您查看系统日志时这非常有用。通常，某些项要被复制许多次，这使得查看日志很难。使用简单的 uniq 无法完成任务，因为每一项都以不同的时间戳记开头。但是如果您告诉它跳过所有的时间字段，您的日志一下子就会变得更加便于管理。试一试 uniq -f 3 /var/log/messages ，亲眼看看。

还有另一个选项 -s ，它的功能就像 -f 一样，但是跳过给定数目的字符。您可以一起使用 -f 和 -s 。 uniq 先跳过字段，再跳过字符。如果您只想使用一些预先设置的字符进行比较，那么该怎么办呢？试试看 -w 选项。

阅读(442) | 评论(0) | 转发(0) |

上一篇：笑话

下一篇：各个年代的无奈

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6