显示文件A, B中共有的行, A有B无或A无B有的行-slimzhao-ChinaUnix博客

一笑

首页　| 　博文目录　| 　关于我

slimzhao

博客访问： 2381549
博文数量： 527
博客积分： 10343
博客等级：上将
技术积分： 5565
用户组：普通用户
注册时间： 2005-07-26 23:05

文章分类

全部博文（527）

static-analyze（2）
test（1）
GNU make（5）
linux（15）
debug（17）
杂想（2）
其它（170）
Perl 脚本（5）
.NET/C#（103）
源代码/读书（7）
windows编程（24）
c/c++编程（101）
vim（20）
bash 脚本（39）
未分配的博文（16）

文章存档

2014年（4）

2012年（13）

2011年（19）

2010年（91）

2009年（136）

2008年（142）

2007年（80）

2006年（29）

2005年（13）

我的朋友

jiangjia

相关博文

显示文件A, B中共有的行, A有B无或A无B有的行

分类： LINUX

2007-03-28 18:21:41

假设文件A的内容为

a
b
c

文件B的内容为

a
b
d
x

1. 显示A和B共有的行

1.1 以文件A的内容为pattern, 搜索文件A和B中哪些行匹配

grep -x -f A B A

结果为
B:a
B:b
A:a
A:b
A:c

1.2 按行的内容排序, 使得内容相同的行显示在一起:

grep -x -f A B A | sort -t: -k2

结果为
A:a
B:a
A:b
B:b
A:c

1.3 显示连续两行行的内容相同的结果, 这些结果将是A, B文件共有的内容:

grep -x -f A B A | sort -t: -k2 | grep -P '([^:]*)\n.*:\1$'

结果为
A:a
B:a
A:b
B:b

1.4 把文件信息过滤掉, 只显示行的内容:

grep -x -f A B A | sort -t: -k2 | grep -P '([^:]*)\n.*:\1$'| sed 's#.*:##g' | uniq

结果为
a
b

2. 显示A有B无的行

以1中的结果为出发点. 只需显示A文件中那些与1中的结果都不匹配的行.

grep -vx -f <(cmd_1) a

结果将是
c

3. 显示A无B有的行

与2中类似,

grep -vx -f <(cmd_1) b

结果将是
d
x

grep的-f 所能处理的正则表达式有多大? 文件中的内容可以是无限制的吗?
从实际操作上看, 不是! 当A的内容有11014行时, 我的测试表明:
在grep能输出第一行内容之前, 它要花大量的时间构造内部的正则表达式.
开始输出匹配行之后, 每输出一个匹配行, 也要花费不少时间, 至少是1秒.

所以, 这并不是一个对大量数据处理仍然友好的方案, 但, 对于小量数据. -f 文件小于1000行的情形, 仍然能工作得相当不错.

阅读(1147) | 评论(0) | 转发(0) |

上一篇：sed/grep关于DOS换行符CR LF的bug

下一篇：unicode, character, character set, encoding, utf-8

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6