Linux Shell删除两个文件相同部分-Dahuanxihuopusa-ChinaUnix博客

大欢喜活菩萨

首页　| 　博文目录　| 　关于我

Dahuanxihuopusa

博客访问： 406452
博文数量： 138
博客积分： 0
博客等级：民兵
技术积分： 1620
用户组：普通用户
注册时间： 2013-03-10 16:55

个人简介

当你比别人优秀一点点，别人会嫉妒你。当你比别人优秀很多，别人会羡慕你。

文章分类

全部博文（138）

devEnv（3）
Android（1）
object-oiented（12）

java（3）

Corba_TAO（2）

C++（1）

qt（1）

thinking in（5）
胡乱（4）
L3（3）
进程（1）
中断系统（4）
内存管理（1）
Network（6）
page&buffer （2）
开发板移植（9）
shell（13）
uboot（0）
tools（2）
linux（23）
嵌入式（14）
文件系统块设备相（0）
未分配的博文（40）

文章存档

2016年（2）

2015年（2）

2014年（15）

2013年（119）

我的朋友

Techexce

相关博文

Linux Shell删除两个文件相同部分

分类： LINUX

2013-04-19 09:22:11

因为在面试中遇到一个这样的问题，当时模模糊糊的，没有很确定的回答出来，后来上网查了一下结果，这里总结一下。

首先描述一下这个问题：比如两个文件file1和file2，删除两个文件中共同的部分，留下两个文件中独自有的部分。在网上找到一篇解决的答案，地址在这里http://hi.baidu.com/robertoyuan/blog/item/559483c4946ed5a78226acac.html。这里提到三种方法，但是没有给具体的解释。

方法一：使用grep

	grep -v -f file1 file2 && grep -v -f file2 file1 

grep命令的详细使用方法，可以参考man，这里有一个简单实用的介绍：。在方法一中，用到了两个参数。参数-v，表示invert match，即反向匹配，输出没有匹配上的项。参数-f，表示从文件中读取匹配模板(pattern)。方法一中的前一部分，在文件file1中匹配模板，来反向匹配文件file2中的内容，即输出文件file2中，在file1中没有的内容。后面的一部分同理可得，输出文件file1中，在file2中没有的内容。

方法二：实用comm

	comm -3 file1 file2

这个方法看起来最简单。命令comm的功能就是，逐行比较两个排好序的文件，默认输出有三列：只在file1中有的行、只在file2中有的行、在file1和file2中共有的行。有参数-1 -2 -3，分别来抑制输出对应的列。例如在我们的方法二中，实用-3参数，不输出file1和file2中共有的部分。即能达到我们本文的目的。
但是注意到，comm比较排好序的两个文件，comm在处理文件的时候，首先要查看文件是否有序，例如file1和file2的内容如下：

		
		$cat file1

line1

line2

line3 

$cat file2

line0

line1

line3

line2

调用前面方法二的命令的时候，就会提示file2文件时无序的，输出的结果如下：

	$ comm -3 file1 file2

        line0

line2

comm: file 2 is not in sorted order

        line2

如果使用--nocheck-order参数，不进行有序性检测，结果如下：

		$ comm -3 --nocheck-order file1 file2
	
		        line0

line2

		        line2

从这个结果中我们可以看到，这还是不是我们真正想要的结果。这里可体现comm的另一个特征，就是逐行比较。它是对file1和file2进行逐行往下的比较，检测是否相同。所以，在用comm的时候，要根据具体的情况进行分析了。

方法三：使用awk

	awk '{print NR, $0}' file1 file2 |sort -k2|uniq -u -f 1|sort -k1|awk '{print $2}'

或者：

awk '{print $0}' file1 file2 |sort|uniq -u

awk命令的使用，听牛人说可谓博大精深，我也没有太搞清楚。这里只是使用了一些简单的功能。下面以我自己的理解来解释一下上面的shell代码。awk就是文本的解释器和过滤器。awk把每一行看成是一个记录(record)，每个记录使用分隔符(默认是空格)把每条记录分成若干域。awk内置参数$0表示整行，$1、$2...分别表示各域，内置参数NR，表示记录的计数，awk '{print NR, $0}' file1 file2表示依次读取file1 file2，打印出每行，并且在前面添加行号。

命令sort，就是对行进行排序，参数-k表示根据各行的第几个参数关键字开进行排序，这里的-k2表示根据第二个关键字开始进行排序。

命令uniq，进行报告或者忽略重复的行，参数-u，表示只是打印出唯一的行(unique lines)，-f表示忽略的每行的前n个域的比较。

参考网址：

http://hi.baidu.com/robertoyuan/blog/item/559483c4946ed5a78226acac.html

阅读(403) | 评论(0) | 转发(0) |

上一篇：ARM汇编中关于“.word”伪指令的概念（转）

下一篇：sed 手册

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6