awk教程与示例总结-leolzbing521-ChinaUnix博客

leolzbing521lzoz.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

leolzbing521

博客访问： 642538
博文数量： 140
博客积分： 2635
博客等级：少校
技术积分： 1353
用户组：普通用户
注册时间： 2010-06-04 15:46

文章分类

全部博文（140）

应用系统平台搭建（1）
loongson（2）
web高级开发（5）
cgroup容器管理（3）
LDD3学习（1）
Android（2）
unix环境高级编程（2）
UEFI-研究（3）
工具使用（1）
ubuntu（5）
文件写作格式（1）
shell脚本（0）
SRPM（0）
pygtk（2）
内核裁剪信息（7）
翻译（1）
人生座右铭（3）
软件移植（3）
shell积累（11）
linux 系统设计（12）
嵌入式ing（4）
linux rush（19）
未分配的博文（52）

文章存档

2015年（2）

2014年（12）

2013年（10）

2012年（10）

2011年（85）

2010年（21）

我的朋友

相关博文

awk教程与示例总结

分类： LINUX

2011-03-24 13:58:39

14.2. BEGIN模块
BEGIN模块后紧跟着动作块，这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值，如OFS,RS和FS等，以及打印标题。如：

$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test

上式表示，在处理输入文件以前，域分隔符(FS)被设为冒号，输出文件分隔符(OFS)被设置为制表符，输出记录分隔符(ORS)被设置为两个换行符。

$ awk 'BEGIN{print "TITLE TEST"}

只打印标题。

14.3. END模块
END不匹配任何的输入文件，但是执行动作块中的所有动作，它在整个输入文件处理完成后被执行。如

$ awk 'END{print "The number of records is" NR}' test

上式将打印所有被处理的记录数。

14.4. 重定向和管道
awk可使用shell的重定向符进行重定向输出，如：

$ awk '$1 = 100 {print $1 > "output_file" }' test

上式表示如果第一个域的值等于100，则把它输出到output_file中。也可以用>>来重定向输出，但不清空文件，只做追加操作。
输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。它负责从输入获得下一行的内容，并给NF,NR和FNR等内建变量赋值。如果得到一条记录，getline函数返回1，如果到达文件的末尾就返回0，如果出现错误，例如打开文件失败，就返回-1。如：

$ awk 'BEGIN{ "date" | getline d; print d}' test

执行linux的date命令，并通过管道输出给getline，然后再把输出赋值给自定义变量d，并打印它。

$ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}' test

执行shell的date命令，并通过管道输出给getline，然后getline从管道中读取并将输入赋值给d，split函数把变量d转化成数组mon，然后打印数组mon的第二个元素。

$ awk 'BEGIN{while( "ls" | getline) print}'

命令ls的输出传递给geline作为输入，循环使getline从ls的输出中读取一行，并把它打印到屏幕。这里没有输入文件，因为BEGIN块在打开输入文件前执行，所以可以忽略输入文件。

$ awk 'BEGIN{printf "What is your name?"; getline name < "/dev/tty" } $1 ~name {print "Found" name on line ", NR "."} END{print "See you," name "."} test

在屏幕上打印”What is your name?",并等待用户应答。当一行输入完毕后，getline函数从终端接收该行输入，并把它储存在自定义变量name中。如果第一个域匹配变量 name的值，print函数就被执行，END块打印See you和name的值。

$ awk 'BEGIN{while (getline < "/etc/passwd" > 0) lc++; print lc}'

awk将逐行读取文件/etc/passwd的内容，在到达文件末尾前，计数器lc一直增加，当到末尾时，打印lc 的值。注意，如果文件不存在，getline返回-1，如果到达文件的末尾就返回0，如果读到一行，就返回1，所以命令 while (getline < "/etc/passwd")在文件不存在的情况下将陷入无限循环，因为返回-1表示逻辑真。
可以在awk中打开一个管道，且同一时刻只能有一个管道存在。通过close()可关闭管道。如：

$ awk '{print $1, $2 | "sort" }' test END {close("sort")}

awd把print语句的输出通过管道作为linux命令sort的输入,END块执行关闭管道操作。
system函数可以在awk中执行linux的命令。如：

$ awk 'BEGIN{system("clear")'

fflush函数用以刷新输出缓冲区，如果没有参数，就刷新标准输出的缓冲区，如果以空字符串为参数，如fflush(""),则刷新所有文件和管道的输出缓冲区。
14.5. 条件语句
awk中的条件语句是从C语言中借鉴过来的，可控制程序的流程。
14.5.1. if语句
格式：

        {if (expression){
                   statement; statement; ...
                     }
        }

如果第一个域小于第二个域则打印

$ awk '{if ($1 <$2) print $2 "too high"}' test

如果第一个域小于第二个域，则count加一，并打印ok

$ awk '{if ($1 < $2) {count++; print "ok"}}' test

14.5.2. if/else语句，用于双重判断。
格式：

        {if (expression){
                   statement; statement; ...
                       }
        else{
                   statement; statement; ...
                       }
        }

如果$1大于100则打印$1 bad,否则打印ok

$ awk '{if ($1 > 100) print $1 "bad" ; else print "ok"}' test

如果$1大于100，则count加一，并打印$1，否则count减一，并打印$1

$ awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}' test

14.5.3. if/else else if语句，用于多重判断。
格式：

        {if (expression){
                    statement; statement; ...
                   }
        else if (expression){
                    statement; statement; ...
                   }
        else if (expression){
                    statement; statement; ...
                   }
        else {
                   statement; statement; ...
             }
        }

14.6. 循环
awk有三种循环:while循环；for循环；special for循环。
变量的初始值为1，若i小于可等于NF(记录中域的个数),则执行打印语句，且i增加1。直到i的值大于NF.

$ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}' test

作用同上

$ awk '{for (i = 1; i

breadkcontinue语句。break用于在满足条件的情况下跳出循环；continue用于在满足条件的情况下忽略后面的语句，直接返回循环的顶端。如：

{for ( x=3; x<=NF; x++)
            if ($x<0){print "Bottomed out!"; break}}
{for ( x=3; x<=NF; x++)
            if ($x==0){print "Get next item"; continue}}

next语句从输入文件中读取一行，然后从头开始执行awk脚本。如：

{if ($1 ~/test/){next}
else {print}
}

exit语句用于结束awk程序，但不会略过END块。退出状态为0代表成功，非零值表示出错。

14.7. 数组
awk中的数组的下标可以是数字和字母，称为关联数组。
14.7.1. 下标与关联数组
用变量作为数组下标。如：

$ awk {name[x++]=$2};END{for(i=0;i

数组name中的下标是一个自定义变量x，awk初始化x的值为0，在每次使用后增加1。第二个域的值被赋给name数组的各个元素。在END模块中， for循环被用于循环整个数组，从下标为0的元素开始，打印那些存储在数组中的值。因为下标是关健字，所以它不一定从0开始，可以从任何值开始。
special for循环用于读取关联数组中的元素。格式如下：

{for (item in arrayname){
print arrayname[item]
}
}

打印有值的数组元素。打印的顺序是随机的

$ awk '/^tom/{name[NR]=$1}; END{for(i in name){print name[i]}}' test

用字符串作为下标。如：count["test"]
用域值作为数组的下标。一种新的for循环方式，for (index_value in array) statement。如:

$ awk '{count[$1]++} END{for(name in count) print name,count[name]}' test

该语句将打印$1中字符串出现的次数。它首先以第一个域作数组count的下标，第一个域变化，索引就变化。
delete函数用于删除数组元素。如：

$ awk '{line[x++]=$1} END{for(x in line) delete(line[x])}' test

分配给数组line的是第一个域的值，所有记录处理完成后，special for循环将删除每一个元素。

14.8. awk的内建函数
14.8.1. 字符串函数
sub函数匹配记录中最大、最靠左边的子字符串的正则表达式，并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的时候。格式如下：

sub (regular expression, substitution string):
sub (regular expression, substitution string, target string)

实例：

$ awk '{ sub(/test/, "mytest"); print }' testfile
$ awk '{ sub(/test/, "mytest"); $1}; print }' testfile

第一个例子在整个记录中匹配，替换只发生在第一次匹配发生的时候。如要在整个文件中进行匹配需要用到gsub
第二个例子在整个记录的第一个域中进行匹配，替换只发生在第一次匹配发生的时候。
gsub函数作用如sub，但它在整个文档中进行匹配。格式如下：

gsub (regular expression, substitution string)
gsub (regular expression, substitution string, target string)

实例：

$ awk '{ gsub(/test/, "mytest"); print }' testfile
$ awk '{ gsub(/test/, "mytest"), $1 }; print }' testfile

第一个例子在整个文档中匹配test，匹配的都被替换成mytest。
第二个例子在整个文档的第一个域中匹配，所有匹配的都被替换成mytest。
index函数返回子字符串第一次被匹配的位置，偏移量从位置1开始。格式如下：

index(string, substring)

实例：

$ awk '{ print index("test", "mytest") }' testfile

实例返回test在mytest的位置，结果应该是3。
length函数返回记录的字符数。格式如下：

length( string )
length

实例：

$ awk '{ print length( "test" ) }'
$ awk '{ print length }' testfile

第一个实例返回test字符串的长度。
第二个实例返回testfile文件中第条记录的字符数。
substr函数返回从位置1开始的子字符串，如果指定长度超过实际长度，就返回整个字符串。格式如下：

substr( string, starting position )
substr( string, starting position, length of string )

实例：

$ awk '{ print substr( "hello world", 7,11 ) }'

上例截取了world子字符串。
match函数返回在字符串中正则表达式位置的索引，如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位置，RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串。函数格式如下：

match( string, regular expression )

实例：

$ awk '{start=match("this is a test",/[a-z]+$/); print start}'
$ awk '{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'

第一个实例打印以连续小写字符结尾的开始位置，这里是11。
第二个实例还打印RSTART和RLENGTH变量，这里是11(start)，11(RSTART)，4(RLENGTH)。
toupper和tolower函数可用于字符串大小间的转换，该功能只在gawk中有效。格式如下：

toupper( string )
tolower( string )

实例:

$ awk '{ print toupper("test"), tolower("TEST") }'

split函数可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供，则按当前FS值进行分割。格式如下：

split( string, array, field separator )
split( string, array )

实例：

$ awk '{ split( "20:18:00", time, ":" ); print time[2] }'

上例把时间按冒号分割到time数组内，并显示第二个数组元素18。

14.8.2. 时间函数
systime函数返回从1970年1月1日开始到当前时间(不计闰年)的整秒数。格式如下：

systime()

实例：

$ awk '{ now = systime(); print now }'

strftime函数使用C库中的strftime函数格式化时间。格式如下:

systime( [format specification][,timestamp] )

Table 3. 日期和时间格式说明符

格式	描述
%a	星期几的缩写(Sun)
%A	星期几的完整写法(Sunday)
%b	月名的缩写(Oct)
%B	月名的完整写法(October)
%c	本地日期和时间
%d	十进制日期
%D	日期 08/20/99
%e	日期，如果只有一位会补上一个空格
%H	用十进制表示24小时格式的小时
%I	用十进制表示12小时格式的小时
%j	从1月1日起一年中的第几天
%m	十进制表示的月份
%M	十进制表示的分钟
%p	12小时表示法(AM/PM)
%S	十进制表示的秒
%U	十进制表示的一年中的第几个星期(星期天作为一个星期的开始)
%w	十进制表示的星期几(星期天是0)
%W	十进制表示的一年中的第几个星期(星期一作为一个星期的开始)
%x	重新设置本地日期(08/20/99)
%X	重新设置本地时间(12：00：00)
%y	两位数字表示的年(99)
%Y	当前月份
%Z	时区(PDT)
%%	百分号(%)

实例：

$ awk '{ now=strftime( "%D", systime() ); print now }'
$ awk '{ now=strftime("%m/%d/%y"); print now }'

14.8.3. 内建数学函数
Table 4.

函数名称	返回值
atan2(x,y)	y,x范围内的余切
cos(x)	余弦函数
exp(x)	求幂
int(x)	取整
log(x)	自然对数
rand()	随机数
sin(x)	正弦
sqrt(x)	平方根
srand(x)	x是rand()函数的种子
int(x)	取整，过程没有舍入
rand()	产生一个大于等于0而小于1的随机数

14.8.4. 自定义函数
在awk中还可自定义函数，格式如下：

function name ( parameter, parameter, parameter, ... ) {
statements
return expression # the return statement and expression are optional
}

15. How-to如何把一行竖排的数据转换成横排？

awk '{printf("%s,",$1)}' filename

阅读(1060) | 评论(0) | 转发(0) |

上一篇：内核积累ing......《linux内核修炼之道》

下一篇：内核的几个必要文件kernel-PAE什么意思

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6