方法一(直接用文件名):取两个文本文件的并集、交集、差集
并:
sort -m <(sort file1 | uniq) <(sort file2 | uniq) | uniq
交:
sort -m <(sort file1 | uniq) <(sort file2 | uniq) | uniq -d
差 file1 - file2:
sort -m <(sort file1 | uniq) <(sort file2 | uniq) <(sort file2 | uniq) | uniq -u
方法二(用变量参数):取两个文本文件的并集、交集、差集
file1=XXXX
file2=YYYY
# 并:
sort -m <(sort $file1 | uniq) <(sort $file2 | uniq) | uniq
# 交:
sort -m <(sort $file1 | uniq) <(sort $file2 | uniq) | uniq -d
# 差 file1 - file2:
sort -m <(sort $file1 | uniq) <(sort $file2 | uniq) <(sort $file2 | uniq) | uniq -u
方法三:
file1=XXXX
file2=YYYY
# 并:
cat $file1 $file2 | sort | uniq
# 交:
cat $file1 $file2 | sort | uniq -d
备注:
uniq -d 会输出重复行
uniq -u 只显示唯一的行
grep命令
grep命令是常用来搜索文本内容的,根据输入的pattern,输出命中的内容。可以利用它的文件输入pattern特性,来求两个文件的交集。
$
c
d
e
那差集可以利用-v这个参数,例如:
$ grep -F -v -f a.file b.file
f
g
$ grep -F -v -f b.file a.file
a
b
其中第一个命令求B-A,第二个命令求A-B
注意:
1)grep求交集不要求输入文件是排序的,但最好是唯一的
2)差集时注意输入文件的顺序
阅读(2287) | 评论(0) | 转发(0) |