Chinaunix首页 | 论坛 | 博客
  • 博客访问: 15531452
  • 博文数量: 2005
  • 博客积分: 11986
  • 博客等级: 上将
  • 技术积分: 22535
  • 用 户 组: 普通用户
  • 注册时间: 2007-05-17 13:56
文章分类

全部博文(2005)

文章存档

2014年(2)

2013年(2)

2012年(16)

2011年(66)

2010年(368)

2009年(743)

2008年(491)

2007年(317)

分类:

2009-01-09 12:35:43

awk可以用来对文本数据进行复杂的分析和处理
sed用于字符替换比较方便

sed

awk

  • Double/triple-space a file
  • 转化DOS/UNIX 的新行(newline)
  • 删除前后的空格
  • 在所有/全部行上进行取代操作
  • 删除连续的空行
  • 删除文件开头和结尾的空行
  • 管理小的、个人的数据库
  • 产生报告
  • 验证数据
  • 生成下标、执行其它文档预备任务
  • 试验算法,这些算法稍后可以由其它语言实现
  • 处理UNIX命令的结果
  • 更合理地处理命令行的参数
           Sed和awk的常见用法
sed主要用来改变数据;awk用来重新排列数据。通过sed和awk的高级编程可以采集到大量的信息。


将文本文件中的一行视为一个记录,而将一行中的某一部分作为记录中的一个字段。为了操作这些不同的字段,awk借用shell的方法,用$1,$2,$3...这样的方式来顺序地表示行(记录)中的不同字段。

ARGC 命令行变元个数
ARGV 命令行变元数组
FILENAME 当前输入文件名
FNR 当前文件中的记录号
FS 输入域分隔符,默认为一个空格
RS 输入记录分隔符
NF 当前记录里域个数
NR 到目前为止记录数
OFS 输出域分隔符
ORS 输出记录分隔符

NF (Number of Fields)       为一整数, 其值表$0上所存在的字段数目.
NR (Number of Records)      为一整数, 其值表awk已读入的数据行数目.
FILENAMEawk                 正在处理的数据文件文件名.
NR 表从 awk 开始执行该程序后所读取的数据行数
FNR 与 NR 功用类似. 不同的是awk每打开一个新的文件,FNR 便从 0 重新累计
NF表目前的数据行所被切分的栏位数.
awk 每读入一笔资料后, 在程序中可以 NF 来得知该行数据包含的栏位个数.在下一笔资料被读入之前, NF 并不会改变. 但使用者若自行使用$0来记录数据,例如: 使用 getline , 此时 NF 将代表新的 $0 上所记载的资料的栏位个数.
OFS输出时的栏位分隔字符. 预设值 " "(一个空白), 详见下面说明.
ORS输出时数据行的分隔字符. 预设值 "\n"(跳行), 见下面说明.
OFMT数值资料的输出格式. 预设值 "%.6g"(若须要时最多印出6位小数)
例如 : print $1, $2
输出时, awk会自动在 $1 与 $2 之间补上一个 OFS 之值
每次使用 print 输出后, awk会自动补上 ORS 之值.
使用 print 输出数值数据时, awk将采用 OFMT 之值为输出格式.

RS( Record Separator) : awk从文件上读取资料时, 将根据 RS 的定义把资料切割成许多Records,而awk一次仅读入一个Record,以进行处理.
RS 的预设值是 "\n". 所以一般 awk一次仅读入一行资料.
有时一个Record含括了几行资料(Multi-line Record). 这情況下不能再以"\n"
来分隔相邻的Records, 可改用 空白行 来分隔.
在awk程式中,令 RS = "" 表示以 空白行 来分隔相邻的Records.


SUBSEP(Subscript Separator) 数组下标的分隔字符,
预设值为"\034"实际上, awk中的 数组 只接受 字串 当它的下标,如: Arr["John"].
但使用者在 awk 中仍可使用 数字 当阵列的下标, 甚至可使用多维的数组(Multi-dimenisional Array) 如: Arr[2,79]
事实上, awk在接受 Arr[2,79] 之前, 就已先把其下标转换成字串"2\03479", 之后便以Arr["2\03479"] 代替 Arr[2,79].
========================================================================


打印/etc/passwd文件内容,等效于cat
awk '{print}' /etc/passwd
每行后面加入空行,默认print打印输入的整行
awk '{print;print ""}' /etc/passwd
如果本行不是空行那么添加一个空行在该行后面
NF表示当前记录中的字段个数,如果为空行,那么字段个数会等于1
awk '{print ; if (NF != 0) print ""}'
打印该文件总行数
awk 'END {print NR}' infile
luther@gliethttp:~$ awk 'BEGIN {a=1;b=1; while(++x<=10){print a; t=a;a+=b;b=t}; exit}'
1
2
3
5
8
13
21
34
55
89
awk读取文件前跳过指定的行数
awk 'NR > n {print $0}' test.txt #n为要跳过的行数
========================================================================
在awk中执行shell命令行----嵌入函数system()
system()是一个不适合字符或数字类型的嵌入函数,该函数的功能是处理作为参数传递给它的字符串。system对这个参数的处理就是将其作为命令处理,也就是说将其当作命令行一样加以执行。这使得用户在自己的awk程序需要时可以灵活地执行命令或脚本。

输出到一个文件:
awk中允许用如下方式将结果输出到一个文件:
printf("hello word!\n")>"datafile"

printf("hello word!\n")>>"datafile"

输出到一个命令
awk中允许用如下方式将结果输出到一个命令:
printf("hello word!\n")|"sort-t','"

在 awk的 while、do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出。break 中断当前正在执行的循环并跳到循环外执行下一条语句。continue从当前位置跳到循环开始处执行。对于exit的执行有两种情况:当exit语句不在 END中时,任何操作中的exit命令表现得如同到了文件尾,所有模式或操作执行将停止,END模式中的操作被执行。而出现在END中的exit将导致程序终止。

读取下一条记录:
awk的next语句导致awk读取下一个记录并完成模式匹配,然后立即执行相应的操作。通常它用匹配的模式执行操作中的代码。next导致这个记录的任何额外匹配模式被忽略。

awk 提供两种变量,一种是awk内置的变量,这前面我们已经讲过,需要着重指出的是,与后面提到的其它变量不同的是,在awk程序中引用内置变量不需要使用标志符"$"(回忆一下前面讲过的NR的使用)。awk提供的另一种变量是自定义变量。awk允许用户在awk程序语句中定义并调用自已的变量。当然这种变量不能与内置变量及其它awk保留字相同,在awk中引用自定义变量必须在它前面加上标志符"$"。与C语言不同的是,awk中不需要对变量进行初始化,awk根据其在awk中第一次出现的形式和上下文确定其具体的数据类型。当变量类型不确定时,awk默认其为字符串类型。

-F就是FS
FS:记忆指定的分割符
RS:记录之间分割符变量
NR:当前工作的记录数,比如行号

========================================================================
awk支持对记录和字段的处理,其中对字段的处理是grep和sed不能实现的,这也是awk优于二者的原因之一。在awk中,缺省的情况下总是将文本文件中的一行视为一个记录,而将一行中的某一部分作为记录中的一个字段。为了操作这些不同的字段,awk借用shell的方法,用$1,$2,$3...这样的方式来顺序地表示行(记录)中的不同字段。特殊地,awk用$0表示整个行(记录)。不同的字段之间是用称作分隔符的字符分隔开的。系统默认的分隔符是空格。awk允许在命令行中用-F re的形式来改变这个分隔符。事实上,awk用一个内置的变量FS来记忆这个分隔符。awk中有好几个这样的内置变量,例如,记录分隔符变量RS、当前工作的记录数NR等等,本文后面的附表列出了全部的内置变量。这些内置的变量可以在awk程序中引用或修改,例如,你可以利用NR变量在模式匹配中指定工作范围,也可以通过修改记录分隔符RS让一个特殊字符而不是换行符作为记录的分隔符。
例:显示文本文件myfile中第七行到第十五行中以字符%分隔的第一字段,第三字段和第七字段:
awk -F % 'NR==7,NR==15 {printf $1 $3 $7}'
这里','逗号表示和的意思,等同于或操作||


awk的内置函数 awk 之所以成为一种优秀的程序设计语言的原因之一是它吸收了某些优秀的程序设计语言(例如C)语言的许多优点。这些优点之一就是内置函数的使用,awk定义并支持了一系列的内置函数,由于这些函数的使用,使得awk提供的功能更为完善和强大,
例:显示文件myfile中的行号和第3字段:
$awk '{printf"%03d%s\n",NR,$1}' myfile
例:显示文本文件mydoc匹配(含有)字符串"sun"的所有行。
$awk '/sun/{print}' mydoc
由于显示整个记录(全行)是awk的缺省动作,因此可以省略action项。
$awk '/sun/' mydoc
例:下面是一个较为复杂的匹配的示例:
$awk '/[Ss]un/,/[Mm]oon/ {print}' myfile
将含有Sun或sun的行或者Moon或moon的行,打印到stdout上
例:下面的示例显示了内置变量和内置函数length()的使用:
$awk 'length($0)>80 {print NR}' myfile
该命令行将显示文本myfile中所有超过80个字符的行号,在这里,用$0表示整个记录(行),同时,内置变量NR不使用标志符'$'。
awk -F: '$2=="" {printf("%s no password!\n",$1)}' /etc/passwd
如果没有设置密码,那么打印提示



作为一种程序设计语言所应具有的特点之一,awk支持多种运算,这些运算与C语言提供的几本相同:如+、-、*、/、%等等,同时,awk 也支持C语言中类似++、--、+=、-=、=+、=-之类的功能,这给熟悉C语言的使用者编写awk程序带来了极大的方便。作为对运算功能的一种扩展,awk还提供了一系列内置的运算函数(如log、sqr、cos、sin等等)和一些用于对字符串进行操作(运算)的函数(如length、 substr等等)。这些函数的引用大大的提高了awk的运算功能。
作为对条件转移指令的一部分,关系判断是每种程序设计语言都具备的功能,awk也不例外。awk中允许进行多种测试,如常用的==(等于)、!=(不等于)、>(大于)、<(小于)、>=(大于等于)、>=(小于等于)等等,同时,作为样式匹配,还提供了~(匹配于)和!~(不匹配于)判断。
作为对测试的一种扩充,awk也支持用逻辑运算符:!(非)、&&(与)、||(或)和括号()进行多重判断,这大大增强了awk的功能。本文的附录中列出了awk所允许的运算、判断以及操作符的优先级。

awk的流程控制 流程控制语句是任何程序设计语言都不能缺少的部分。任何好的语言都有一些执行流程控制的语句。awk提供的完备的流程控制语句类似于C语言,这给我们编程带来了极大的方便。

BEGIN 和END在 awk中两个特别的表达式,BEGIN和END,这两者都可用于pattern中(参考前面的awk语法),提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。任何在BEGIN之后列出的操作(在{}内)将在awk开始扫描输入之前执行,而END之后列出的操作将在扫描完全部的输入之后执行。因此,通常使用BEGIN来显示变量和预置(初始化)变量,使用END来输出最终结果。
例:累计销售文件xs中的销售金额(假设销售金额在记录的第三字段):
$awk
>'BEGIN { FS=":";print "统计销售金额";total=0}
>{print $3;total=total+$3;}
>END {printf "销售金额总计:%.2f",total}' sx
(注:>是shell提供的第二提示符,如要在shell程序awk语句和awk语言中换行,则需在行尾加反斜杠\)
在这里,BEGIN预置了内部变量FS(字段分隔符)和自定义变量total,同时在扫描之前显示出输出行头。而END则在扫描完成后打印出总合计。

流程控制语句awk提供了完备的流程控制语句,其用法与C语言类似。下面我们一一加以说明:

if...else语句格式:
if(表达式)
语句1
else
语句2
格式中"语句1"可以是多个语句,如果你为了方便awk判断也方便你自已阅读,你最好将多个语句用{}括起来。awk分枝结构允许嵌套,其格式为:
if(表达式1)
{if(表达式2)
语句1
else
语句2
}
语句3
else {if(表达式3)
语句4
else
语句5
}
语句6
当然实际操作过程中你可能不会用到如此复杂的分枝结构,这里只是为了给出其样式罢了。

while语句格式为:
while(表达式)
语句

[编辑] do-while语句 格式为:
do
{
语句
}while(条件判断语句)

for语句 格式为:
for(初始表达式;终止条件;步长表达式)
{语句}
在 awk的 while、do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出。break 中断当前正在执行的循环并跳到循环外执行下一条语句。continue从当前位置跳到循环开始处执行。对于exit的执行有两种情况:当exit语句不在 END中时,任何操作中的exit命令表现得如同到了文件尾,所有模式或操作执行将停止,END模式中的操作被执行。而出现在END中的exit将导致程序终止。

awk中的自定义函数定义和调用用户自己的函数是几乎每个高级语言都具有的功能,awk也不例外,但原始的awk并不提供函数功能,只有在nawk或较新的awk版本中才可以增加函数。
函数的使用包含两部分:函数的定义与函数调用。其中函数定义又包括要执行的代码(函数本身)和从主程序代码传递到该函数的临时调用。
awk函数的定义方法如下:
function 函数名(参数表){
函数体
}
在 gawk中允许将function省略为func,但其它版本的awk不允许。函数名必须是一个合法的标志符,参数表中可以不提供参数(但在调用函数时函数名后的一对括号仍然是不可缺少的),也可以提供一个或多个参数。与C语言相似,awk的参数也是通过值来传递的。
在 awk中调用函数比较简单,其方法与C语言相似,但awk比C语言更为灵活,它不执行参数有效性检查。换句话说,在你调用函数时,可以列出比函数预计(函数定义中规定)的多或少的参数,多余的参数会被awk所忽略,而不足的参数,awk将它们置为缺省值0或空字符串,具体置为何值,将取决于参数的使用方式。
awk函数有两种返回方式:隐式返回和显式返回。当awk执行到函数的结尾时,它自动地返回到调用程序,这是函数是隐式返回的。如果需要在结束之前退出函数,可以明确地使用返回语句提前退出。方法是在函数中使用形如:return 返回值 格式的语句。
例:下面的例子演示了函数的使用。在这个示例中,定义了一个名为print_header的函数,该函数调用了两个参数FileName和 PageNum,FileName参数传给函数当前使用的文件名,PageNum参数是当前页的页号。这个函数的功能是打印(显示)出当前文件的文件名,和当前页的页号。完成这个功能后,这个函数将返回下一页的页号。
nawk
>'BEGIN{pageno=1;file=FILENAME
>pageno=print_header(file,pageno);#调用函数print_header
>printf("当前页页号是:%d\n",pageno);
>}  
>#定义函数print_header
>function print_header(FileName,PageNum){
>printf("%s %d\n",FileName,PageNum); >PageNum++;return PageNUm;
>}
>}' myfile
执行这个程序将显示如下内容:
myfile 1
当前页页号是:2

awk高级输入输出1.读取下一条记录:
awk的next语句导致awk读取下一个记录并完成模式匹配,然后立即执行相应的操作。通常它用匹配的模式执行操作中的代码。next导致这个记录的任何额外匹配模式被忽略。
2.简单地读取一条记录

awk 的 getline语句用于简单地读取一条记录。如果用户有一个数据记录类似两个物理记录,那么getline将尤其有用。它完成一般字段的分离(设置字段变量$0 FNR NF NR)。如果成功则返回1,失败则返回0(到达文件尾)。如果需简单地读取一个文件,则可以编写以下代码:
例:示例getline的使用
{while(getline==1)
{
#process the inputted fields
}
}
也可以使getline保存输入数据在一个字段中,而不是通过使用getline variable的形式处理一般字段。当使用这种方式时,NF被置成0,FNR和NR被增值。
用户也可以使用getline<"filename"方式从一个给定的文件中输入数据,而不是从命令行所列内容输入数据。此时,getline将完成一般字段分离(设置字段变量$0和NF)。如果文件不存在,返回-1,成功,返回1,返回0表示失败。用户可以从给定文件中读取数据到一个变量中,也可以用stdin(标准输入设备)或一个包含这个文件名的变量代替filename。值得注意的是当使用这种方式时不修改FNR和 NR。
另一种使用getline语句的方法是从UNIX命令接受输入,例如下面的例子:
例:示例从UNIX命令接受输入
{while("who -u"|getline)
{
#process each line from the who command
}
}
当然,也可以使用如下形式:
"command" | getline variable




===================================================================
附录1.awk的常规表达式元字符

\ 换码序列

^ 在字符串的开头开始匹配

$ 在字符串的结尾开始匹配

. 与任何单个字符串匹配

[ABC] 与[]内的任一字符匹配

[A-Ca-c] 与A-C及a-c范围内的字符匹配(按字母表顺序)

[^ABC] 与除[]内的所有字符以外的任一字符匹配

Desk|Chair 与Desk和Chair中的任一个匹配

[ABC][DEF] 关联。与A、B、C中的任一字符匹配,且其后要跟D、E、F中的任一个字符。

* 与A、B或C中任一个出现0次或多次的字符相匹配

+ 与A、B或C中任何一个出现1次或多次的字符相匹配

? 与一个空串或A、B或C在任何一个字符相匹配

(Blue|Black)berry 合并常规表达式,与Blueberry或Blackberry相匹配

2.awk算术运算符

运算符 用途
x^y x的y次幂

x**y 同上

x%y 计算x/y的余数(求模)

x+y x加y

x-y x减y

x*y x乘y

x/y x除y

-y 负y(y的开关符号);也称一目减

++y y加1后使用y(前置加)

y++ 使用y值后加1(后缀加)

--y y减1后使用y(前置减)

y-- 使用后y减1(后缀减)

x=y 将y的值赋给x

x+=y 将x+y的值赋给x

x-=y 将x-y的值赋给x

x*=y 将x*y的值赋给x

x/=y 将x/y的值赋给x x%=y 将x%y的值赋给x

x^=y 将x^y的值赋给x

x**=y 将x**y的值赋给x

3.awk允许的测试:

操作符 含义

x==y x等于y

x!=y x不等于y

x>y x大于y

x>=y x大于或等于y

x
x<=y x小于或等于y?

x~re x匹配正则表达式re?

x!~re x不匹配正则表达式re?

4.awk的操作符(按优先级升序排列)

= 、+=、 -=、 *= 、/= 、 %=

||

&&

> >= < <= == != ~ !~

xy (字符串连结,'x''y'变成"xy")

+ -

* / %

++ --

5.awk内置变量(预定义变量)

说明:表中v项表示第一个支持变量的工具(下同):A=awk,N=nawk,P=POSIX awk,G=gawk

V 变量 含义 缺省值
N ARGC 命令行参数个数

G ARGIND 当前被处理文件的ARGV标志符

N ARGV 命令行参数数组

G CONVFMT 数字转换格式 %.6g

P ENVIRON UNIX环境变量

N ERRNO UNIX系统错误消息

G FIELDWIDTHS 输入字段宽度的空白分隔字符串

A FILENAME 当前输入文件的名字

P FNR 当前记录数

A FS 输入字段分隔符 空格

G IGNORECASE 控制大小写敏感0(大小写敏感)

A NF 当前记录中的字段个数

A NR 已经读出的记录数

A OFMT 数字的输出格式 %.6g

A OFS 输出字段分隔符 空格

A ORS 输出的记录分隔符 新行

A RS 输入的记录他隔符 新行

N RSTART 被匹配函数匹配的字符串首

N RLENGTH 被匹配函数匹配的字符串长度

N SUBSEP 下标分隔符 "\034"

6.awk的内置函数

V 函数 用途或返回值
N gsub(reg,string,target) 每次常规表达式reg匹配时替换target中的string

N index(search,string) 返回string中search串的位置

A length(string) 求串string中的字符个数

N match(string,reg) 返回常规表达式reg匹配的string中的位置

N printf(format,variable) 格式化输出,按format提供的格式输出变量variable。

N split(string,store,delim) 根据分界符delim,分解string为store的数组元素

N sprintf(format,variable) 返回一个包含基于format的格式化数据,variables是要放到串中的数据

G strftime(format,timestamp) 返回一个基于format的日期或者时间串,timestmp是systime()函数返回的时间

N sub(reg,string,target) 第一次当常规表达式reg匹配,替换target串中的字符串

A substr(string,position,len) 返回一个以position开始len个字符的子串

P totower(string) 返回string中对应的小写字符

P toupper(string) 返回string中对应的大写字符

A atan(x,y) x的余切(弧度)

N cos(x) x的余弦(弧度)

A exp(x) e的x幂

A int(x) x的整数部分

A log(x) x的自然对数值

N rand() 0-1之间的随机数

N sin(x) x的正弦(弧度)

A sqrt(x) x的平方根

A srand(x) 初始化随机数发生器。如果忽略x,则使用system()

G system() 返回自1970年1月1日以来经过的时间(按秒计算)

阅读(1570) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~