全部博文(298)
分类: Python/Ruby
2012-02-22 10:44:37
部分转自:http://www.cnblogs.com/chengmo/archive/2010/10/06/1844818.html
awk是个优秀文本处理工具,可以说是一门程序设计语言。下面是awk内置变量。
一、内置变量表
属性 |
说明 |
$0 |
当前记录(作为单个变量) |
$1~$n |
当前记录的第n个字段,字段间由FS分隔 |
FS |
输入字段分隔符 默认是空白字符(允许字符串作为分隔符,注意元字符转义,FS只有在它超过一个字符的时候 ,才会被视为正则表达式) |
NF |
当前记录中的字段个数,就是有多少列 |
NR |
已经读出的记录数,就是行号,从1开始,如果多个文件的时候会比FNR大 |
RS |
输入的记录他隔符默 认为换行符 |
OFS |
输出字段分隔符 默认也是空格 |
ORS |
输出的记录分隔符,默认为换行符,如果要改变必须字段上有操作$1=$1 |
ARGC |
命令行参数个数,输入文件的个数+1 |
ARGV |
命令行参数数组,ARGV[0]程序名,ARGV[1...]输入文件名 |
FILENAME |
当前输入文件的名字 |
IGNORECASE |
如果为真,则进行忽略大小写的匹配 |
ARGIND |
当前被处理文件的ARGV标志符,即文件序号,某些awk没有该内置变量,gawk的扩展 |
CONVFMT |
数字转换格式 %.6g |
ENVIRON |
UNIX环境变量 |
ERRNO |
UNIX系统错误消息 |
FIELDWIDTHS |
输入字段宽度的空白分隔字符串 |
FNR |
当前文件的记录数 |
OFMT |
数字的输出格式 %.6g |
RSTART |
被匹配函数匹配的字符串首 |
RLENGTH |
被匹配函数匹配的字符串长度 |
SUBSEP |
\034 |
注意:
FILENAME,$0-$N,NF 不能使用在BEGIN中,BEGIN中不能获得任何与文件记录操作的变量。但是当在BEGIN中读取了另外一个文件的时候可以使用$0-$N,NF,但是FILENAME和NR依旧不能使用,详细见:
http://blog.chinaunix.net/uid-25324849-id-3076850.html
awk 'BEGIN{
OFMT="%.3f";
devf="/proc/net/dev";
while(("cat "devf) | getline)
{
print $0,FILENAME,NR,NF
#$0 ~ /:/ 匹配到“:”的行 !~为不匹配
#$10为发送的字节数 ($10+0)转换为整数
if($0 ~ /:/ && ($10+0) > 0)
{
#以“:”为分割符,存储到tarr数组里面
#$1 lo:
#split($1,tarr,":");
#tarr[1]为lo ;tarr[1...]为空
#print tarr[1],tarr[2],tarr[3]
#net[“lo”]=$10+tarr[2]; 发送的数据+0
net[$1]=$10+$2;
print $1,$10+$2;
}
}
}
这里只测试了print $0,FILENAME,NR,NF,如果要使用其他的awk内置变量请自己测试。
2、实例
1、常用操作
[chengmo@localhost ~]$ awk '/^root/{print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
/^root/ 为选择表达式,$0代表是逐行
2、设置字段分隔符号(FS使用方法)
[chengmo@localhost ~]$ awk 'BEGIN{FS=":"}/^root/{print $1,$NF}' /etc/passwd
root /bin/bash
FS为字段分隔符,可以自己设置,默认是空格,因为passwd里面是”:”分隔,所以需要修改默认分隔符。NF是字段总数,$0代表当前行记录,$1-$n是当前行,各个字段对应值。
3、记录条数(NR,FNR使用方法)
[chengmo@localhost ~]$ awk 'BEGIN{FS=":"}{print NR,$1,$NF}' /etc/passwd
1 root /bin/bash
2 bin /sbin/nologin
3 daemon /sbin/nologin
4 adm /sbin/nologin
5 lp /sbin/nologin
6 sync /bin/sync
7 shutdown /sbin/shutdown
……
NR得到当前记录所在行
4、设置输出字段分隔符(OFS使用方法)
[chengmo@localhost ~]$ awk 'BEGIN{FS=":";OFS="^^"}/^root/{print FNR,$1,$NF}' /etc/passwd
1^^root^^/bin/bash
OFS设置默认字段分隔符
5、设置输出行记录分隔符(ORS使用方法)
[chengmo@localhost ~]$ awk 'BEGIN{FS=":";ORS="^^"}{print FNR,$1,$NF}' /etc/passwd
1 root /bin/bash^^2 bin /sbin/nologin^^3 daemon /sbin/nologin^^4 adm /sbin/nologin^^5 lp /sbin/nologin
从上面看,ORS默认是换行符,这里修改为:”^^”,所有行之间用”^^”分隔了。
6、输入参数获取(ARGC ,ARGV使用)
[chengmo@localhost ~]$ awk 'BEGIN{FS=":";print "ARGC="ARGC;for(k in ARGV) {print k"="ARGV[k]; }}' /etc/passwd
ARGC=2
0=awk
1=/etc/passwd
ARGC得到所有输入参数个数,ARGV获得输入参数内容,是一个数组。
7、获得传入的文件名(FILENAME使用)
[chengmo@localhost ~]$ awk 'BEGIN{FS=":";print FILENAME}{print FILENAME}' /etc/passwd
/etc/passwd
FILENAME,$0-$N,NF 不能使用在BEGIN中,BEGIN中不能获得任何与文件记录操作的变量,例外情况见内置变量表后的注意。
8、获得linux环境变量(ENVIRON使用)
[chengmo@localhost ~]$ awk 'BEGIN{print ENVIRON["PATH"];}' /etc/passwd
/usr/lib/qt-3.3/bin:/usr/kerberos/bin:/usr/lib/ccache:/usr/lib/icecc/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/usr/java/jdk1.5.0_17/bin:/usr/java/jdk1.5.0_17/jre/bin:/usr/local/mysql/bin:/home/web97/bin
ENVIRON是子典型数组,可以通过对应键值获得它的值。
9、输出数据格式设置:(OFMT使用)
[chengmo@localhost ~]$ awk 'BEGIN{OFMT="%.3f";print 2/3,123.11111111;}' /etc/passwd
0.667 123.111
OFMT默认输出格式是:%.6g 保留六位小数,这里修改OFMT会修改默认数据输出格式。
10、按宽度指定分隔符(FIELDWIDTHS使用)
[chengmo@localhost ~]$ echo 20100117054932 | awk 'BEGIN{FIELDWIDTHS="4 2 2 2 2 3"}{print $1"-"$2"-"$3,$4":"$5":"$6}'
2010-01-17 05:49:32
FIELDWIDTHS其格式为空格分隔的一串数字,用以对记录进行域的分隔,FIELDWIDTHS="4 2 2 2 2 2"就表示$1宽度是4,$2是2,$3是2 .... 。这个时候会忽略:FS分隔符。
11、RSTART RLENGTH使用
[chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'
11 11 4
[chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/^[a-z]+$/); print start, RSTART, RLENGTH }'
0 0 –1
RSTART 被匹配正则表达式首位置,RLENGTH 匹配字符长度,没有找到为-1.
以上是:awk的一些内置变量使用,希望有什么问题可以与我交流。
if ($ != jQuery) { $ = jQuery.noConflict(); } var isLogined = false; var cb_blogId = 71819; var cb_entryId = 1844818; var cb_blogApp = "chengmo"; var cb_blogUserGuid = "eee985f0-5b74-df11-ba8f-001cf0cd104b"; var cb_entryCreatedDate = '2010/10/6 21:46:00';