利用awk自身变量NR和FNR来处理多个文件-joepayne-ChinaUnix博客

快乐的小牛joepayne.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

joepayne

博客访问： 650060
博文数量： 108
博客积分： 46
博客等级：民兵
技术积分： 1279
用户组：普通用户
注册时间： 2012-08-16 11:36

个人简介

坐井以观天

文章分类

全部博文（108）

oracle（10）
algorithm（8）
data analys（15）

mongo（1）

theory（1）

hadoop（2）

python（4）

mysql（5）

R Series（0）
career（0）
protobuf（1）
glibc（3）
工作小笔记（4）
UNIX（43）

shell（13）

IO（7）

tcp/ip（6）
C/C++（11）
configuration（3）
未分配的博文（10）

文章存档

2014年（13）

2013年（90）

2012年（6）

我的朋友

相关博文

利用awk自身变量NR和FNR来处理多个文件

分类： LINUX

2013-04-02 10:26:28

原文地址：利用awk自身变量NR和FNR来处理多个文件作者：icucstone

利用awk自身变量NR和FNR来处理多个文件

本文转载自：http://521cto.blog.51cto.com/950229/945683

利用awk自身变量NR和FNR来处理多个文件
2012年 07月 27日星期五 22:31:10 CST
这里不再介绍awk的基本用法，如果连基本用法都不知道的同学先提前学习下基本用法，再看下面的介绍,本文简单介绍了如何使用数组，以及对awk自身变量NR和FNR的意义和区别进行介绍，并以实例的方式展示。
数组也是变量，但是数组可以保存一组值或者一组元素，每个元素可以通过下标访问。awk的数组跟其他程序设计语言的数组有所不同：
1、不需要正式定义，一个数组在使用时被定义；
2、数组元素的初始值为0或空字符串，除非他们被显示的指定初始化；
3、数组可以自动扩展；
4、下标可以使字符串。

NR：表示awk开始执行程序后所读取的数据行数。
FNR：awk当前读取的记录数，其变量值小于等于NR（比如当读取第二个文件时，FNR是从0开始重新计数，而NR不会）。

NR==FNR：用于在读取两个或两个以上的文件时，判断是不是在读取第一个文件。

awk处理多个文件的基本语法是:
awk -F分隔符 'BEGIN { 初始化 } { 循环执行部分 } END { 结束处理 }' file_list1 file_list2
其中BEGIN和END可以省略，-F也可以使用默认，循环执行部分，是按行对文件进行处理的。

下面通过两个实例来理解NR和FNR：

1, 对于单个文件NR 和FNR 的输出结果一样的：
文件内容如下：
[root@tech tmp]# cat a
a b c d
a b d c
a c b d
[root@tech tmp]# cat b
aa bb cc dd
aa bb dd cc
aa cc bb dd

对单个文件处理：
[root@tech tmp]# awk '{ print NR,$0 }' a
1 a b c d
2 a b d c
3 a c b d
[root@tech tmp]# awk '{ print FNR,$0 }' a
1 a b c d
2 a b d c
3 a c b d

2, 但是对于多个文件，NR和FNR代表的含义和区别：
[root@tech tmp]# awk '{ print NR,$0 }' a b
1 a b c d
2 a b d c
3 a c b d
4 aa bb cc dd
5 aa bb dd cc
6 aa cc bb dd
[root@tech tmp]# awk '{ print FNR,$0 }' a b
1 a b c d
2 a b d c
3 a c b d
1 aa bb cc dd
2 aa bb dd cc
3 aa cc bb dd

再看一个例子关于NR和FNR的典型应用:

现在有两个文件格式如下：

[root@tech tmp]# cat account
李四|000002
张三|000001
王五|000003
赵六|000004
[root@tech tmp]# cat cdr
000001|10
000001|20
000002|30
000002|15
000002|45
000003|40
000003|25
000004|60

想要得到的结果是将用户名，帐号和金额在同一行打印出来,如下:

张三|000001|10
张三|000001|20
李四|000002|30
李四|000002|15
李四|000002|45
王五|000003|40
王五|000003|25
赵六|000004|60

执行如下代码

[root@tech tmp]# awk -F \| 'NR==FNR { a[$2]=$0; next } { print a[$1]"|"$2 }' account cdr
张三|000001|10
张三|000001|20
李四|000002|30
李四|000002|15
李四|000002|45
王五|000003|40
王五|000003|25
赵六|000004|60

注释:

当NR=FNR为真时,判断当前读入的是第一个文件account,然后使用{ a[$2]=$0; next }循环将account文件的每行记录都存入数组a,并使用$2第2个字段作为下标引用.

当NR=FNR为假时,判断当前读入了第二个文件cdr,然后跳过{a[$2]=$0;next},对第二个文件cdr的每一行都无条件执行{ print a[$1]"|"$2 },此时变量$1为第二个文件的第一个字段,与读入第一个文件时,采用第一个文件第二个字段$2为数组下标相同.因此可以在此使用a[$1]引用数组。

再比如：
file1
1 billchen    mp
2 allenquan   zhanghu
3 collenswang   jieru

file2
1 shenzhen    guangdong
2 jinan             shandong
3 nanchang     jiangxi

我们用awk来处理文件:

1、先看下面两个例子：
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp

当NR==FNR时，执行a[$2]=$3，以$2为下标，以$3为值，循环执行。

注意区别：将上面例子$2改为NR
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
1 mp
2 zhanghu
3 jieru

当NR==FNR时，执行a[NR]=$3，以NR为下标，以$3为值，循环执行。

2、再看下面两个例子：
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
nanchang jiangxi
shenzhen guangdong
jinan shandong

当NR!=FNR时，执行a[$2]=$3，以$2为下标，以$3为值，循环执行。

注意区别：将上面例子$2改为NR
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
4 guangdong
5 shandong
6 jiangxi
当NR!=FNR时，执行a[NR]=$3，以NR为下标，以$3为值，循环执行。

3、再将它们组合起来进行多文件处理：
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp
*--------*
nanchang jiangxi
shenzhen guangdong
jinan shandong

当NR==FNR时，执行a[$2]=$3，以$2为下标，以$3为值，当NR!=FNR时，执行b[$2]=$3，循环执行。

注意区别：将上面例子$2改为NR
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
1 mp
2 zhanghu
3 jieru
*--------*
4 guangdong
5 shandong
6 jiangxi
当NR==FNR时，执行a[NR]=$3，以NR为下标，以$3为值，当NR!=FNR时，执行b[NR]=$3，循环执行。

下面是我将命令单独摘出供大家对比：
awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2

注：awk把一串连续的空格符合制表符(即空白串)当做一个默认分隔符
可以去掉: -F' ' ,上述命令可以简写如下：
awk 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
awk 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
awk 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
上面简写命令读者可以运行测试，结果跟原来的是一样的。

以下是我的详细运行结果，仔细对比即可找到规律：
[root@tech tmp]# more file1 file2
::::::::::::::
file1
::::::::::::::
1 billchen    mp
2 allenquan   zhanghu
3 collenswang   jieru
::::::::::::::
file2
::::::::::::::
1 shenzhen    guangdong
2 jinan             shandong
3 nanchang     jiangxi
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
1 mp
2 zhanghu
3 jieru
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
nanchang jiangxi
shenzhen guangdong
jinan shandong
[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2
4 guangdong
5 shandong
6 jiangxi
[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
collenswang jieru
allenquan zhanghu
billchen mp
*--------*
nanchang jiangxi
shenzhen guangdong
jinan shandong
[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "*--------*"; for(j in b) { print j,b[j] } }' file1 file2
1 mp
2 zhanghu
3 jieru
*--------*
4 guangdong
5 shandong
6 jiangxi
感谢各位前辈的指点，以及对awk相关知识的贡献，同时谢谢以下参考页面的原作者。
本地同名文件以附件的形式上传了，读者可以下载参考。

参考页面：
1、http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201222771550599/
2、

本文出自 “开源一员” 博客，请务必保留此出处http://521cto.blog.51cto.com/950229/945683

阅读(885) | 评论(0) | 转发(0) |

上一篇：awk过滤数据并写到不同文件

下一篇：判断一个整形变量是无符号数还是有符号数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6