awk的学习笔记(1)-itlanger-ChinaUnix博客

itlanger's blogitlanger.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

itlanger

博客访问： 659136
博文数量： 227
博客积分： 8017
博客等级：中将
技术积分： 2069
用户组：普通用户
注册时间： 2007-12-08 22:50

文章分类

全部博文（227）

Taiji（4）
C/C++（14）
Storage（11）
Misc（6）
Algorithm（6）
Embeded（30）
System（30）
Kernel（32）
Network（19）
Coding（36）
Emacs（6）
Mood（24）
Scripts（9）
未分配的博文（0）

文章存档

2011年（10）

2010年（55）

2009年（28）

2008年（134）

我的朋友

相关博文

awk的学习笔记(1)

分类： LINUX

2008-06-15 23:01:27

一. writing scripts with awk

1. awk的hello,world
   方式一: $ echo 'this line of data is ignored' > test
        $ awk '{ print "Hello, world" }' test
   方式二: $ cat test2
        Hello, world
          $ awk '{ print }' test2
        Hello, world
   方式三: $ awk 'BEGIN { print "Hello, world" }'
        Hello, world

2. awk模式匹配
实例:
$cat test

mytest
234

$cat awkscr.awk
#awkscr.awk test for integer, string or empty line.
/^$/ {print "blank line!"}
/[0-9]+/ {print "Number!"}
/[A-Za-z]+/ {print "string!"}

$ awk -f awkscr.awk test
blank line!
string!
Number!
blank line!

注意： a. 写好注释, 由#开头的都是注释
      b. awk脚步中最好不要用单引号。否则在通过命令行来执行该脚步的时候会被shell解释。

3. 记录和域
awk将输入的每一行看作一条记录(record)，而每个单词(word)看作一个域(field), 这些field由空格或者TAB分离。当然可以指定其他的delimiter.
3.1 引用和分割域
实例1:
$cat names
John Robinson    666-555-1111
$awk '{print $2, $1, $3}' names
Robinson John 666-555-1111
解释:$0 引用整行，$1,$2...分别代表第一个，第二个域

实例2:
$ echo a b c d | awk 'BEGIN { one = 1; two = 2 }
> { print $(one + two) }'
c
在命令行中可以通过-F选项更改域分隔符:
$ awk -F"\t" '{ print $2 }' names
666-555-1111

实例3:
$cat names
John Robinson,Koren Inc.,978 4th Ave.,Boston,MA 01760,696-0987
Phyllis Chapman,GVE Corp.,34 Sea Drive,Amesbury,MA 01881,879-0900
$cat blocklist.awk
# blocklist.awk -- print name and address in block form.
# input file -- name, company, street, city, state and zip, phone
{     print ""    # output blank line
    print $1    # name
    print $2    # company
    print $3    # street
    print $4, $5    # city, state zip
}
$awk -F, -f blocklist.awk names

John Robinson
Koren Inc.
978 4th Ave.
Boston MA 01760

Phyllis Chapman
GVE Corp.
34 Sea Drive
Amesbury MA 01881

不过有时候直接在脚本中指定分割符比较好, 可用通过: BEGIN { FS = "," } 指定域分割符为,

实例4:
$cat phonelist.awk
# phonelist.awk -- print name and phone number.
# input file -- name, company, street, city, state and zip, phone

BEGIN { FS = "," } # comma-delimited fields
{ print $1 ", " $6 }

$awk -f phonelist.awk names
John Robinson, 696-0987
Phyllis Chapman, 879-0900

不过模式匹配都是对整行的所有记录进行匹配。如果只希望配置某个特定的域，则可以通过~来实现：
$5 ~ /MA/   { print $1 ", " $6 }
匹配第五个域中含有MA的行，在匹配到后，打印第一和第六个域的值。后者通过!~来实现相反的意思:
$5 !~ /MA/   { print $1 ", " $6 }
用于匹配所有的行中第五个域不含MA的行.

3.2 域分割:
可用通过三种方式设置域的分割:
    a. 设置FS为单个空格: 这是默认的方式，这样awk会通过空格或者TAB或者两者的组合来分割域。
    b. 设置FS为单个字符: 例如在出来/etc/passwd文件的时候，可以将:设置为分割符
    c. 设置FS为多个字符: 这时awk会将起解释为正则表达式。
实例：
    FS="\t"
    awk将会将TAB作为分割符，这时候: abc\t\tdef 将有3个域
    FS="\t+"
    awk将会将TAB或者联系的几个TAB作为分割符, 这是 abc\t\tdef就只有两个域了。
    通过正则表达式还可以指定多个分割符：
    FS="[':\t]"
    这样就指定了三个可用的分割符：分号，冒号，和TAB

4. 表达式
awk中的表达式跟C语言差不多。
1). 转义字符：
\a 鸣叫 \t 制表符 \n 换行等等...
2) 变量: awk中的变量不需要声明，直接使用就行了。不过大小写敏感。跟C语言一样，可用用字母，数字，下划线组成变量名，但是不能以数字开头。同时awk变量也不需要指定类型。 awk变量只有string 和 numeric两种，awk会根据根据表达式的环境自动决定变量的类型。
   变量赋值: x = 1
               z = "hello"
            y = "Hello" "World" ##空格用于连接字符串, 所以这里z="HelloWorld"
   一定要记得 $ 符号是用来引用域的。
               w = $1 ##将第一个域的值赋给w
3) 数字运算符
+, -, *, \, %, ^(乘方) ...
++, --, +=, -=, *=, \=, ^= ...

实例：
#count blank lines
/^$/ { print x += 1} ##这里x自动初始化为0

实例: 计算成绩平均值
$cat grades
john 85 92 78 94 88
andrea 89 90 75 90 86
jasper 84 88 80 92 84

$cat grades.awk
##grades.awk: average five grades
{
        total = $2 + $3 + $4 + $5 + $6
        avg = total / 5
        print $1, avg
}

$awk -f grades.awk grades
john 87.4
andrea 86
jasper 85.6

5. 系统变量
Awk有两种类型的系统(内建)变量:
    a. 可改变的系统变量，例如域分割符，记录分割符等等。。。
    b. 第二种是处理过程中可以使用的变量，例如域的个数，当前处理的记录数等。。。
一些常用的系统变量：
FS        输入域分割符
OFS        输出域分割符
NF        当前正在处理的记录所含有的域的个数
RS        输入行分割符
ORS        输出行分割符
FILENAME 当前的输入文件的名字
FNR     相对于当前文件的当前正在处理的记录序号，从1开始
NR         当前正在处理的记录序号，从1开始
OFMT     数字的输出格式(默认值是%.6g)
ARGC     命令行参数的数目
ARGV     包含命令行参数的数组

实例：
我们更改一下上一节中的打印平均成绩的脚本：
    print NR ".", $1, avg
运行结果如下：
    1. john 87.4
    2. andrea 86
    3. jasper 85.6

在最后读入最后一个记录后，NR变量记录了当前文件的记录的总个数。这可以用来report以些东西。更改以前的phonelist.awk脚本:
# phonelist.awk -- print name and phone number.
# input file -- name, company, street, city, state and zip, phone
BEGIN { FS = "," } # comma-delimited fields
{ print $1 ", " $6 }
END {     print ""
        print NR, "records processed."
    }
运行结果如下:
John Robinson, 696-0987
Phyllis Chapman, 879-0900

2 records processed.

实例二:
当在print语句中用逗号分割各个要打印的表达式时，输出分割符(OFS)就起了作用：
print NR ".", $1, avg
这时如果设置了OFS为TAB，则输出如下:
1.      john    87.4
2.      andrea 86
3.      jasper 85.6

6. 关系和布尔运算
1) 关系运算
>, <, ==, !=, >=, <=, ~(匹配), !~(不匹配)

关系运算符还可以用来控制action, 例如：
NF==6 { print $1, $6}    ##仅当遇到有6个域的行时才会执行后面的动作

2)Bool运算符
||, && ,!
运用实例如下: NR==6||NR>1
            (NR > 1 && NF >= 2) || $1 ~ /\t/
            ! (NR > 1 && NF > 3)
3)获得文件信息:
ls -l $* | awk '{ print $5, "\t", $8 }' ##$*在shell中代表所有的命令行参数，如果没有参数，则其数字为空.
一个长一点的脚本:
ls -l $* | awk '
# filesum: list files and total size in bytes
# input: long listing produced by "ls -l"

#1 output column headers
BEGIN { print "BYTES", "\t", "FILE" }

#2 test for 8 fields; files begin with "-"
NF == 8 && /^-/ {
        sum += $5       # accumulate size of file
        ++filenum       # count number of files
        print $5, "\t", $8       # print size and filename
}

#3 test for 8 fields; directory begins with "d"
NF == 8 && /^d/ {
        print "", "\t", $8 # print and name
}

#4 test for ls -lR line ./dir:
$1 ~ /^\..*:$/ {
        print "\t" $0 # print that line preceded by tab
}'

7. 格式化打印
print 不能进行多样的格式化，仅仅能打印出表达式的值，在末尾增加一个换行符
而从C语言中借鉴过来的printf可以做到格式化输出。
printf的格式跟C语言的一样, 这里就不多说了。
eg: awk 'BEGIN { printf ("Hello, world\n") }'
    printf("%d\t%s\n", $5, $9)
    printf("%*.*g\n", 5, 3, myvar);
    printf("%-15s\t%10d\n", $8, $5) ##print filename and size

8. 给脚本传递参数
1) awk script.awk var=value inputfile
注意：这时var和value与等号之间无空格。
eg: awk -f scriptfile high=100 low=60 datafile

2) 通过环境变量或者命令输出传递参数
eg: awk '{ ... }' directory=$cwd file1 ...
    awk '{ ... }' directory=`pwd` file1 ...

    $ awk '{ print NR, $0 }' OFS='. ' names
    1. Tom 656-5789
    2. Dale 653-2133
    3. Mary 543-1122
    4. Joe 543-2211
3) 将shell的参数传给awk
eg: awk -f scriptfile "high=$1" "low=$2" datafile ##这里将shell脚本的第一，第二个参数传送high和low.

4)注意：通过命令行传递的参数值无法在BEGIN{...}中使用。这是因为Awk将命令行参数当作文件名来处理，所以只有开始处理输入时才会给参数赋值。不过POSIX awk通过-v参数可以在读入文件之前给参数赋值。
例如:
awk 'BEGIN { print n } ##这里的n是空值
{
if (n == 1) print "Reading the first file"
if (n == 2) print "Reading the second file"
}' n=1 test n=2 test2
解释：在处理test的时候，n=1. 在处理test2的时候，n变为2

阅读(1135) | 评论(0) | 转发(0) |

上一篇：制作deb包的三种方法

下一篇：awk的学习笔记(2)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6