利用awk自身变量NR和FNR来处理多个文件-coolcole-ChinaUnix博客

coolber

首页　| 　博文目录　| 　关于我

coolcole

博客访问： 1044942
博文数量： 361
博客积分： 25
博客等级：民兵
技术积分： 1759
用户组：普通用户
注册时间： 2012-09-22 23:18

个人简介

学海无涯个人blog lnmps.com 新站

文章分类

全部博文（361）

DNS（2）
cache（1）
测试（4）
架构（2）
python（3）
security（6）
Kernel（35）
Route（1）
Monitor（42）
Bsd（2）
Linux（79）
SHELL（64）
中间件（45）
SQL（33）
未分配的博文（42）

文章存档

2017年（1）

2015年（2）

2014年（55）

2013年（303）

我的朋友

相关博文

利用awk自身变量NR和FNR来处理多个文件

分类： LINUX

2013-04-07 17:20:42

原文地址：利用awk自身变量NR和FNR来处理多个文件作者：icucstone

利用awk自身变量NR和FNR来处理多个文件

本文转载自：http://521cto.blog.51cto.com/950229/945683

利用awk自身变量NR和FNR来处理多个文件
2012年 07月 27日星期五 22:31:10 CST
这里不再介绍awk的基本用法，如果连基本用法都不知道的同学先提前学习下基本用法，再看下面的介绍,本文简单介绍了如何使用数组，以及对awk自身变量NR和FNR的意义和区别进行介绍，并以实例的方式展示。
数组也是变量，但是数组可以保存一组值或者一组元素，每个元素可以通过下标访问。awk的数组跟其他程序设计语言的数组有所不同：
1、不需要正式定义，一个数组在使用时被定义；
2、数组元素的初始值为0或空字符串，除非他们被显示的指定初始化；
3、数组可以自动扩展；
4、下标可以使字符串。

NR：表示awk开始执行程序后所读取的数据行数。
FNR：awk当前读取的记录数，其变量值小于等于NR（比如当读取第二个文件时，FNR是从0开始重新计数，而NR不会）。

NR==FNR：用于在读取两个或两个以上的文件时，判断是不是在读取第一个文件。

awk处理多个文件的基本语法是:
awk -F分隔符 'BEGIN { 初始化 } { 循环执行部分 } END { 结束处理 }' file_list1 file_list2
其中BEGIN和END可以省略，-F也可以使用默认，循环执行部分，是按行对文件进行处理的。

下面通过两个实例来理解NR和FNR：

1, 对于单个文件NR 和FNR 的输出结果一样的：
文件内容如下：
[root@tech tmp]# cat a
a b c d
a b d c
a c b d
[root@tech tmp]# cat b
aa bb cc dd
aa bb dd cc
aa cc bb dd

对单个文件处理：
[root@tech tmp]# awk '{ print NR,$0 }' a
1 a b c d
2 a b d c
3 a c b d
[root@tech tmp]# awk '{ print FNR,$0 }' a
1 a b c d
2 a b d c
3 a c b d

2, 但是对于多个文件，NR和FNR代表的含义和区别：
[root@tech tmp]# awk '{ print NR,$0 }' a b
1 a b c d
2 a b d c
3 a c b d
4 aa bb cc dd
5 aa bb dd cc
6 aa cc bb dd
[root@tech tmp]# awk '{ print FNR,$0 }' a b
1 a b c d
2 a b d c
3 a c b d
1 aa bb cc dd
2 aa bb dd cc
3 aa cc bb dd

再看一个例子关于NR和FNR的典型应用:

现在有两个文件格式如下：

[root@tech tmp]# cat account
李四|000002
张三|000001
王五|000003
赵六|000004
[root@tech tmp]# cat cdr
000001|10
000001|20
000002|30
000002|15
000002|45
000003|40
000003|25
000004|60

想要得到的结果是将用户名，帐号和金额在同一行打印出来,如下:

张三|000001|10
张三|000001|20
李四|000002|30
李四|000002|15
李四|000002|45
王五|000003|40
王五|000003|25
赵六|000004|60

执行如下代码

[root@tech tmp]# awk -F \| 'NR==FNR { a[$2]=$0; next } { print a[$1]"|"$2 }' account cdr
张三|000001|10
张三|000001|20
李四|000002|30
李四|000002|15
李四|000002|45
王五|000003|40
王五|000003|25
赵六|000004|60

注释:

当NR=FNR为真时,判断当前读入的是第一个文件account,然后使用{ a[$2]=$0; next }循环将account文件的每行记录都存入数组a,并使用$2第2个字段作为下标引用.

当NR=FNR为假时,判断当前读入了第二个文件cdr,然后跳过{a[$2]=$0;next},对第二个文件cdr的每一行都无条件执行{ print a[$1]"|"$2 },此时变量$1为第二个文件的第一个字段,与读入第一个文件时,采用第一个文件第二个字段$2为数组下标相同.因此可以在此使用a[$1]引用数组。

再比如：
file1
1 billchen    mp
2 allenquan   zhanghu
3 collenswang   jieru

file2
1 shenzhen    guangdong
2 jinan             shandong
3 nanchang     jiangxi

我们用awk来处理文件:

1、先看下面两个例子：
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp

当NR==FNR时，执行a[$2]=$3，以$2为下标，以$3为值，循环执行。

注意区别：将上面例子$2改为NR
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
1 mp
2 zhanghu
3 jieru

当NR==FNR时，执行a[NR]=$3，以NR为下标，以$3为值，循环执行。

2、再看下面两个例子：
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
nanchang jiangxi
shenzhen guangdong
jinan shandong

当NR!=FNR时，执行a[$2]=$3，以$2为下标，以$3为值，循环执行。

注意区别：将上面例子$2改为NR
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
4 guangdong
5 shandong
6 jiangxi
当NR!=FNR时，执行a[NR]=$3，以NR为下标，以$3为值，循环执行。

3、再将它们组合起来进行多文件处理：
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp
*--------*
nanchang jiangxi
shenzhen guangdong
jinan shandong

当NR==FNR时，执行a[$2]=$3，以$2为下标，以$3为值，当NR!=FNR时，执行b[$2]=$3，循环执行。

注意区别：将上面例子$2改为NR
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
1 mp
2 zhanghu
3 jieru
*--------*
4 guangdong
5 shandong
6 jiangxi
当NR==FNR时，执行a[NR]=$3，以NR为下标，以$3为值，当NR!=FNR时，执行b[NR]=$3，循环执行。

下面是我将命令单独摘出供大家对比：
awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2

注：awk把一串连续的空格符合制表符(即空白串)当做一个默认分隔符
可以去掉: -F' ' ,上述命令可以简写如下：
awk 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
awk 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
上面简写命令读者可以运行测试，结果跟原来的是一样的。

以下是我的详细运行结果，仔细对比即可找到规律：
[root@tech tmp]# more file1 file2
::::::::::::::
file1
::::::::::::::
1 billchen    mp
2 allenquan   zhanghu
3 collenswang   jieru
::::::::::::::
file2
::::::::::::::
1 shenzhen    guangdong
2 jinan             shandong
3 nanchang     jiangxi
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
1 mp
2 zhanghu
3 jieru
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
nanchang jiangxi
shenzhen guangdong
jinan shandong
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
4 guangdong
5 shandong
6 jiangxi
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp
*--------*
nanchang jiangxi
shenzhen guangdong
jinan shandong
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
1 mp
2 zhanghu
3 jieru
*--------*
4 guangdong
5 shandong
6 jiangxi
感谢各位前辈的指点，以及对awk相关知识的贡献，同时谢谢以下参考页面的原作者。
本地同名文件以附件的形式上传了，读者可以下载参考。

参考页面：
1、http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201222771550599/
2、

本文出自 “开源一员” 博客，请务必保留此出处http://521cto.blog.51cto.com/950229/945683

阅读(472) | 评论(0) | 转发(0) |

上一篇：怎样查看哪些程序占用了swap空间

下一篇：转来的，我每次看都有收获

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6