Chinaunix首页 | 论坛 | 博客
  • 博客访问: 83076
  • 博文数量: 21
  • 博客积分: 1410
  • 博客等级: 上尉
  • 技术积分: 185
  • 用 户 组: 普通用户
  • 注册时间: 2008-05-30 17:02
文章分类

全部博文(21)

文章存档

2008年(21)

我的朋友

分类: LINUX

2008-09-01 12:49:20

Unix/Linux 平台任务的自动化(一)

本章要点: 
   
  本章介绍用来替代shell脚本的工具,如TCL和perl。 
   
  本章具体包括以下内容。 
   
    TCL/expect的使用 
   
    awk语言的基本知识 
   
    perl语言的基本知识 
   
  11.1 TCL和expect 
   
  TCL是一种类似shell脚本的语言,你可以使用它来完成许多操作。不过,我介绍它的要原因是expect是从它发展出来的。如果你想要写一个能够自动处理输入输出的脚本(如向用户提问并且验证密码)又不想面对C或者Perl,那么expect是你的唯一选择。 
   
  11.1.1 TCL语言 
   
  要使用TCL,你必须先安装这个程序: 
   
  % rpm -q tcl 
   
  tcl-8.0.5-30 
   
  TCL语言可以用交互式或者脚本的方式执行,要使用交互式的TCL环境,只要输入 
   
  $ tclsh 
   
  % 
   
  出现的"%"符号是TCL的提示符,然后就可以使用TCL命令的。 
   
  如果你要使用脚本方式的TCL,首先把你的脚本写成一个文本文件,例如test.tcl,然后执行 
   
  $ tclsh test.tcl 
   
  在tcl脚本中,每一行或者是一个命令行,或者是一个注释。注释行必须以#符号开头,而命令行最好以分号结束,虽然不一定要这样做,但是这样做可以免去不少麻烦。 
   
  变量 
   
  在tcl中,有两种基本类型的变量,即标量和数组。标量就是一般的数字或者字符串变量,可以用set语句定义同时赋值: 
   
  % set i 1 
   
  1 
   
  字符串应该用引号括起来: 
   
  % set str "test" 
   
  'test' 
   
  要输出一个标量的内容,使用put语句: 
   
  % puts $str 
   
  test 
   
  $用来说明str是一个变量。puts函数在标准输出显示变量的内容。 
   
  数组也可以用set语句定义,实际上,tcl中建立数组只是单个建立数组的元素。例如 , 
   
  % set arr(1) 0 
   
  0 
   
  % set arr(2) 1 
   
  1 
   
  这样就建立了一个两个元素的数组arr。在TCL中,不存在相当于数组边界这样的东西,例如 
   
  % set arr(100) to 
   
  to 
   
  这时数组中实际只存在arr(1),arr(2)和arr(100),这是和C语言不同的地方。用array size命令可以返回数组的大小: 
   
  % array size arr 
   
  3 
   
  访问数组的方法和访问标两实际是一样的,例如: 
   
  % puts $arr(100) 
   
  to 
   
  可以用同样的方法创建多维数组。 
   
  要使用数组中的所有元素,需要使用一种特殊的便利方式。首先要启动startsearsh: 
   
  % array startsearch arr 
   
  s-1-arr 
   
  这里返回了一个搜索id,你可以把它传递给某个变量,因为以后还要使用它进行进一步的搜索: 
   
  % set my_id [array startsearch arr] 
   
  s-1-arr 
   
  现在my_id的内容是s-1-arr,然后,就可以搜索arr的内容了: 
   
  % array nextelement arr $my_id 
   
  whi 
   
  这里的array nextelement返回的是什么?可能有点出乎你的意料,是arr数组的下标,再执行一次array nextelement命令又会找出另外一个下标: 
   
  % array nextelement arr $my_id 
   
  4 
   
  这样遍历下去,可以找出arr数组的所有下标,而知道下标之后,就可以用$arr(4)之类的方式访问arr的内容了。当遍历完成之后,array nextelement命令将简单地返回: 
   
  % array nextelement arr $my_id 
   
  % 
   
  这时就可以停止遍历过程了,如果你想确认遍历是否完成,可以使用array anymore命令: 
   
  % array anymore arr $my_id 
   
  0 
   
  返回0说明遍历已经完成。 
   
  串处理 
   
  TCL中可以进行一般的串处理过程,这可以使用string命令和append命令,append命令将某个字符串加到另外一个字符串的后面: 
   
  %  set str1 "test " 
   
  test 
   
  % set str2 "cook it" 
   
  cook it 
   
  % append str1 $str2 " and other" 
   
  test cook it and other 
   
  string命令可以执行字符串的比较,删除和查询,其格式是 string [参数] string1 [string2] 
   
  参数可以是下面的命令之一: 
   
  compare  按照字典顺序对字符串进行比较,根据相对关系返回-1,0或者+1。 
   
  first 返回string2中第一次出现string1的位置,如果失败,返回-1。 
   
  last  返回string2中最后一次出现string1的位置,如果失败,返回-1 
   
  trim  从string1中删除开头和结尾的出现在string2中的字符 
   
  trimleft 从string1中删除开头的出现在string2中的字符。 
   
  trimright 从string1中删除结尾的出现在string2中的字符 
   
  下面几个用在string中的参数不需要string2变量: 
   
  length 返回tring1的长度 
   
  tolower 返回将string1全部小写化的串 
   
  toupper 返回将string1全部大写化的串 
   
  运算 
   
  TCL的运算方式比较别扭,它使用expr命令作为计算符号,其用法类似C语言的+=和/= ,例如, 
   
  % set j [expr $i/5] 
   
  1 
   
  注意TCL会自动选择整数或者浮点计算: 
   
  % set l [ expr $i /4.0] 
   
  1.25 
   
  % set l [ expr $i /4] 
   
  1 
   
  在TCL里面可以使用+ - * /和%作为基本运算符,另外通常还包括一些数学函数,如abs,sin,cos,exp和power(乘方)等等。 
   
  另外,还有一个起运算符作用的命令incr,它用来对变量加一: 
   
  % set i 1 
   
  1 
   
  % incr i 
   
  2 
   
  流程控制 
   
  tcl支持分支和循环。分支语句可以使用if和switch实现。if语句的和C语言类似,如 
   
  if { $ x < 0 } { 
   
   set y 10; 
   
  } 
   
  注意判断子句也需要使用花括号。 
   
  与C语言一样,tcl的if语句也可以使用else和elseif。 
   
  switch语句的用法有点类似这样: 
   
  switch  $x { 
   
  0 { set y 10;} 
   
  10 { set y 100;} 
   
  20 { set y 400;} 
   
  } 
   
  与C的switch语句不同,每次只有符合分支值的子句才被执行。 
   
  循环命令主要由for,foreach和while构成,而且每一个都可以使用break和continue子句。 
   
  for语句的格式有点类似这样: 
   
  for { set i 0} {$i < 10} { incr i} {puts $i} 
   
  将会输出从1到9的整数。 
   
  如果用while循环,这个句子可以写成 
   
  while {$i < 10 } { 
   
  puts $i; 
   
  incr i; 
   
  } 
   
  foreach是对于集合中的每一个元素执行一次命令,大致的命令格式是 
   
  foreach [变量] { 集合 } { 
   
  语句; 
   
  } 
   
  例如 
   
  % foreach j { 1 3 5} { 
   
  put $j; 
   
  } 
   
  1 
   
  3 
   
  5 
   
  函数 
   
  如同在一般的编程语言里面一样,在tcl里面也可以定义函数,这是通过proc命令实现的: 
   
   proc my_proc {i}{ 
   
  puts $i; 
   
  } 
   
  这样就定义了一个名字叫proc的函数,它只是在终端显示输入变元的内容。 
   
  要使用这个函数,简单地输入它的名字: 
   
  % my_proc { 5 } 
   
  5 
   
  如果变元的数目是0,只要使用空的变元列表,例如 proc my_proc {} {语句;} 
 
   
  尽管tcl还可以处理更复杂的过程,但是我们不再介绍了,例如文件的读写以及tk图形语言,因为我们处理tcl的主要目标就是理解expect,对于更复杂的编程工作,我们建议你使用perl。 
   
  11.1.2 expect 
   
  expect是建立在tcl基础上的一个工具,它用来让一些需要交互的任务自动化地完成。我们首先从一个简单的例子开始,如同在这一节一开始就提到的,我们想设置一个自动的文件下载程序。 
   
  我们看一看这样的一个例子脚本: 
   
  #! /usr/bin/expect 
   
  spawn ftp 202.199.248.11 
   
  expect "Name" 
   
  send "ftp\r" 
   
  expect "Password:" 
   
  send "nothing\r" 
   
  expect "apply" 
   
  send "cd /pub/UNIX/Linux/remoteX\r" 
   
  expect "successful." 
   
  send "bin\r" 
   
  expect "set to I" 
   
  send "get exceed5.zip\r" 
   
  expect "complete." 
   
  send "quit\r" 
   
  这个是什么意思?呵呵,就是个自动下载程序。第一行说明这个程序应该调用/usr/bin/expect去执行,然后的就是expect命令。 
   
  察 看expect的手册页面(man expect)可以得到一个很长的expect说明,可惜其中关于expect的语法仍然介绍的不够。一般来 说,expect主要用在需要自动执行人机交互的过程中,例如fsck程序,这个程序会不断地提问"yes/no",像这样的命令就可以用 expect 来完成。 
   
  spawn语句在expect脚本中用于启动一个新的进程,在我们的程序中,spawn ftp 202.199.248.11就是去执行ftp程序,接下来,就是expect和send的指令对了。 
   
  每一对expect和send指令代表一个信息/回应。如果这样说不好理解的话,那么可以看一看ftp的具体执行过程: 
   
  ftp 202.199.248.11 
   
  Connected to 202.199.248.11. 
   
  220 mail.asnc.edu.cn FTP server (BeroFTPD 1.3.3(3) Sun Feb 20 15:52:49 CST 2000. 
   
  Name (202.199.248.11:wanghy): 
   
  显 然,一旦连接成功,服务器会返回一个Name(202.199.248.11:wanghy):的字符串来要求客户给出用户名。expect语句简单地在 返回信息中查询你给出的字符串,一旦成功就执行下面的命令,现在,expect " Name"已经成功地找到了Name字符串,接下来可以执行send 命令了。 
   
  send命令比expect命令更简单,它简单地向标准输入提交你设定的字符串,现在设置为send  "ftp\r"表示等到登录信息之后就给出一个输入ftp回车,也就是标准的登录过程。 
   
  下面的行与这些行完全一样,只是机械地等待服务器的回应,并且提交自己的输入。 
   
  要使用这个expect脚本,你只需要将它设置为可执行的属性,然后执行它,expect就会执行你需要的服务。 
   
  由于expect是tcl的扩展,所以你在expect文件中可以象tcl脚本一样设置变量和程序流程。 
   
  现 在我们看一看我们还能够如何改进我们的expect脚本。ftp命令可能会失败,比如远端的机器可能会无法提供服务,或者在启动ftp命令时本地机器发生 问题。为了处理这一类的问题,我们可以使用expect的timeout选项来设置超时的话expect脚本自动退出: 
   
  #! /usr/bin/expect 
   
  spawn ftp 202.199.248.11 
   
  expect { 
   
  timeout exit 
   
  Connect 
   
  } 
   
  ……………… 
   
  注意这里面使用的花括号。它的含义是使用一组并列表达式。使用并列表达式的主要原因是这样:如果使用下面的指令对: 
   
  expect timeout 
   
  exit 
   
  那 么由于expect脚本是顺序执行的,那么当程序执行到这个expect的时候就会阻塞,所以程序会一直等待到timeout然后退出。并列表达式则是相 当于switch的行为,只要列出的几项内容有一项得到满足,expect命令就得到满足,于是程序可以正常执行。上面的脚本表示,如果连接ftp的时候 发生了超时,那么就退出,否则,一旦发现Connect应答,说明服务器已经正常了,那么就可以继续运行了。 
   
  我们可以看看用tcl能够对我们的expect脚本提供什么帮助。我们可以设置让expect脚本不断地连接远端服务器的服务,直到正常建立连接开始,为此,我们可以把建立连接的命令放在一个循环里面,并且根据回应的不同自动选择重新输入命令还是继续执行: 
   
  spawn ftp 
   
  while {1} { 
   
  expect "ftp>" 
   
  send "o 202.199.248.11\r" 
   
  expect { 
   
    "Connected" break 
   
     "refused" { sleep 10}  ; 
   
    } 
   
  } 
   
  这 里使用了我们在tcl语言中讲到的while和break命令,熟悉C的读者应该很容易看出它的行为:不断地等待ftp>提示符,在提示符下面发送 连接远端服务器的命令,如果服务器回应是refused(连接失败),就等待10秒钟,然后开始下一次循环;如果是Connected,那么就跳出循环执 行下面的命令。sleep是expect的一个标准命令,表示暂停若干秒钟。 
   
  expect还支持许多更复杂的进程控制方式,如fork,disconnect等等,你可以从手册页面中得到详细的信息。另外,各种tcl运算符和流程控制命令,包括tcl函数也可以使用。 
   
  有 些读者可能会问,如果expect执行的话是否控制台输入不能使用了,答案是否定的。expect命令运行时,如果某个等待的信息没有得到,那么程序会阻 塞在相应的expect语句处,这时,你在键盘上输入的东西仍然可以正常地传递到程序中去,其实对于那些expect处理的信息,原则上你输入的内容仍然 有效,只是expect的反映太快,总是抢在你的前面“输入”就是了。知道了这一点之后,你就可能写一个expect脚本,让expect自动处理来自 fscki的那些恶心的yes/no选项(我们介绍过,这些yes/no其实完全是多余的,正常情况下你除了选择yes之外什么也干不了)。 
   
  缺省下,expect在标准输出(你的终端上)输出所有来自应用程序的回应信息,你可以用下面的两个命令重定向这些信息: 
   
  log_file [文件名] 
   
  这个命令让expect在你设置的文件中记录输出信息。必须注意,这个选项并不影响控制台输出信息,不过如果你通过crond设置expect脚本在半夜运行的话,你就确实可能需要这个命令来记录各种信息了。例如: 
   
  log_file expect.log 
   
  log_user 0/1 
   
  这个选项设置是否显示输出信息,设置为1时是缺省值,为0 的话,expect将不产生任何输出信息,或者说简单地过滤掉控制台输出。必须记住,如果你用log_user 0关闭了控制台输出,那么你同时也就关闭了对记录文件的输出。 
   
  这一点很让人困扰,如果你确实想要记录expect的输出却不想让它在控制台上制造垃圾的话,你可以简单地把expect的输出重定向到/dev/null: 
   
  ./test.exp > /dev/null 
   
  你可以象下面这样使用一对fork和disconnect命令。expect的disconnect命令将使得相应的进程到后台执行,输入和输出被重定向到/dev/null: 
   
  if [fork]!=0 exit 
   
  disconnect 
   
  fork命令会产生出一个子进程,而且它产生返回值,如果返回的是0,说明这是一个子进程,如果不为0,那么是父进程。因此,执行了fork命令之后,父进程死亡而子进程被disconnect命令放到后台执行。注意disconnect命令只能对子进程使用。 
   
  11.2 awk和文件的处理 
   
  UNIX里面充斥着各种记录文件和类似的东西。对文本文件的处理是系统管理员每天重要的工作,例如从系统记录中查找重要的内容,或者对某种程序的输出进行统计等等。我们将介绍常用的一个处理程序,即gawk。 
   
  11.2.1 grep和正则表达式 
   
  让我们首先从grep命令开始。这个命令大家应该很熟悉了,它用来在文件中查找一个字符串。不过,实际上,grep的处理功能要强大和复杂的多。 
   
  grep 命令的语法是 
   
   grep [模式] [文件名] 
   
  如果没有给出文件名,就缺省使用标准输入。grep每次读取一行,并且和给出的模式进行匹配,如果成功就把这一行会显,例如:(粗体的是我们输入的内容) 
   
  $ grep test 
   
  close 
   
  test my hand 
   
  test my hand 
   
  grep的“模式”也称为正则表达式,可以由各种基本的正则表达式元素构成。正则表达式元素主要包括下面几种: 
   
  字符串      匹配任何字符串,例如grep test表示在标准输入中1 
   
   [...]          封闭集中匹配一个字符,如:[abcde]可以匹配a,b,c,d,e 
   
  [^...]         求补集中匹配一个字符,例如[^ABC]匹配 
   
  .              匹配任意字符 
   
  \s             空白符 
   
  \S             非空白符 
   
  \d             数字 
   
  \D             非数字 
   
  \w             字母或数字 
   
  \W             非字母和数字 
   
  *        匹配任何字符 
   
  上面的形式是grep中使用的基本正则表达式,另外,还可以使用egrep,egrep是grep的一个扩展版本,支持下面这些扩展的正则字符串: 
   
  ^              匹配一行的开始 
   
  $              匹配一行的结尾 
   
  ( )            确定正则表达式求值顺序,和正常演算中的括号意思差不多。 
   
  (...|...|...)  或,可选项之一进行匹配,例如:(abc|dev|ghi)可以匹配abc,dev,ghi,而(ww|gg)do可以匹配wwdo或者ggdo。 
   
  +              一次或多次模式 
   
  如:aba+匹配aba,abaa...不匹配ab 
   
  通常,我们有两种方法使用grep和egrep,一种是使用管道,例如我们应该熟悉的ps ax |grep sendmail,另一种是直接在文件中搜索对应的字符串。 
   
  grep/egrep还可以在命令行使用开关,常用的开关包括: 
   
  -b 在行前加上块号 
   
  -c 统计匹配行的个数 
   
  -n 在行前加上行号 
   
  -w 将模式解释为字符串,所有正则表达式的控制命令失效 
   
  -x 精确匹配 
   
  -r 查询文件时包含子目录 
   
  举个例子来说,我们想在/var/log/httpd/access_log中查询所有不是来自本地(192.168.0.1)的请求记录,可以执行: 
   
  grep –v "^192.168.0.1" /var/log/httpd/access_log 
   
  ^用来让grep 只在行首匹配。 
   
  在grep查询的时候可以使用通配符代表多个文件,例如,grep start * -r将在当前目录以及所有子目录的所有文件中查询start字符串。 
   
  11.2.2 gawk的使用方法 
   
  gawk是awk的一个实现,awk是一种用来处理报告等文本文件的脚本语言。不过,我们介绍这个产品的主要目标是用它来处理各种程序的记账文件。对于复杂的脚本,还是用Perl比较合适。 
   
  gawk 的 主要功能是针对档案的每一行搜寻指定的 模式。,每当找到一个匹配的模式,gawk就会去执行你设定的动作。按照这个方式, gawk 依此方式处理输入 档案的每一行直到输入档案结束。如果对于某个模式没有设置对应的动作,gawk将直接将这个行显示出来。 
   
  为了使用gawk,你通常必须先写一个awk脚本,除非模式/动作非常简单,可以在一行上完成。我们用一个例子来解释gawk的基本用法,首先产生一个目录列表文件: 
   
  ls –l /etc > list 
   
  现在list的内容有点像这样: 
   
  total 2164 
   
  drwxr-xr-x   3 root     root         4096 Feb 15 22:55 CORBA 
   
  -rw-r--r--   1 root     root         2045 Sep 24  1999 DIR_COLORS 
   
  -rw-r--r--   1 root     root           17 Mar 25 19:59 HOSTNAME 
   
  ………… 
   
  现在我们选择一个最简单的例子,简单地查找所有属性是drwxr-xr-x的目录文件: 
   
  gawk '/drwxr-xr-x/ {print $0}' list 
   
  将输出所有这样的目录。 
   
  这个例子看上去没有什么实际用处,因为用grep也可以做同样的动作,那么我们可以看一看下面这个功能: 
   
  $ gawk '$1=="-rwxr-xr-x"  {sum=sum+$5} END {print sum}' list 
   
  15041 
   
  这个是什么意思?对于所有属性是755的文件,让gawk对第五栏的数字求和。第五栏我们可以看到就是文件的长度,因此这个命令将显示所有属性为755的文件的总共的长度。 
   
  $n是gawk中非常重要的概念,它用来表示文本串的分栏。缺省的情况下,gawk将输入字符串(从文件中读入的每一行)按照分割的空格分成若干个字段,每个字段作为一个变量,例如有一行 
   
  my name is 3th test  
   
  那 么,在awk读入这一行之后,就产生了$1到$5变量,其中$1="my",$2="is",……… ,最后$5="test"。另外还有一个特殊的变 量$0,它表示整个输入行,也就是这个字符串"my name is test"。另外还有一个特殊的变量NF,它表示当前行的字段的个数,在现在的情况 下,NF应该等于5。 
   
  在某些特殊的情况下,你可能需要改变分割符的定义,这可以通过对FS赋值来完成,例如FS=","将分割符定义为都号而不是缺省的空格。 
   
  在 一般情况下,gawk可以从命令文件中获得模式/动作,命令文件的格式很简单,就是直接将应该写在命令行上的模式/动作对写在文件里面,每个对构成一行, 模式可以有两种,一种是模式匹配,也就是我们在前面解释的正则表达式,如果使用正则表达式,那么需要用两个/把它们夹在一起,例如/[A-Z]/表示正则 表达式[A-Z]。 
   
  另一种模式是比较指令,比较指令可以用比较操作符和逻辑运算符来构成,常用的比较操作符有: 
   
  ==  等于  <= 不大于  ~ 按照正则表达式匹配 
   
  <  小于  >= 不小于  !~ 按照正则表达式不匹配 
   
  >  大于  != 不等于 
   
  逻辑运算符有 
   
  &&  和  ||  或  ! 非  ()括号 
 
   
  设定了模式后,就可以设置对应的动作了,在gawk中,动作必须用花括号括起来。ga 
wk能完成的动作并不多,毕竟它是一种报告分析语言。一般情况下,只要熟悉print和p 
rintf命令就足够了,print命令的格式非常简单: 
   
  print item1,item2,………… 
   
  输出时,每个项目输出一栏,中间用空格分开。一个print后面不跟着任何变量会导致gawk显示当前的输入行($0)。如果要输出一个字符串,使用引号把它括起来,特别是如果要输出一个空行,使用print ""。这里是一个例子,它将list文件的头两栏输出: 
   
          gawk '{print $1,$2}' list 
   
  由于输入的文本文件内容有多行,你在命令栏中设计的模式/动作会对每一行执行一次。就是: 
   
  total 2164 
   
  drwxr-xr-x 3 
   
  -rw-r--r-- 1 
   
  -rw-r--r-- 1 
   
  -rw-r--r-1 
   
  ………………… 
   
  如果你要精确地控制输出,也可以使用printf命令,这个命令的格式是: 
   
     printf format, item1, item2, ... 
   
     format参数就是C语言里面的格式控制符,例如%c,%d,%f等等。在 % 与格式控制字母之间可加入 modifier,modifier 是用来进一步控制输出的格式。可能的 modifier 如下所示: 
   
  '-'     使用在 width 之前,指明是向左靠齐。如果'-'没有出现,则会在被指定的宽度向右靠齐。例如: 
   
  printf "%-4S", "foo"会印出'foo '。 
   
  'width' 这一个数字指示相对应的栏位印出时的宽度。例如: 
   
   printf "%4s","foo"     会印出' foo'。 
   
   width 的值是一个最小宽度而非最大宽度。如果一个 item 的值需要的宽度比 width 大,则不受 width 的影响。例如printf "%4s","foobar"将印出'foobar'。 
   
  '.prec' 此数字指定印出时的精确度。它指定小数点右边的位数。如果是要印出一个字串,它指定此字串最多会被印出多少个字符。 
   
  作为一种脚本语言,gawk允许使用变量,定义变量非常简单,就是直接用等号对它赋值。为了在gawk程序的开始处对变量赋值,gawk专门提供了BEGIN语句,这个语句将在所有行被读入之前执行,而且只执行一次,通常用它来执行初始化命令,例如 
   
  BEGIN { sum=0;count=0;average=0.0;} 
   
  对于变量可以使用数学表达式进行运算,运算符包括常见的加减乘除算符,以及^(乘方),%(取余)和著名的++,--。不过注意gawk在做除法的时候总是使用浮点除法,除了取余算符%。 
   
  函数 
   
  另外,gawk包含下列函数: 
   
  数学函数 
   
  atan2(x,y)      y/x的正切 
   
  cos(x)    余弦函数 
   
  sin(x)    正弦函数 
   
  int(x)    取整 
   
  log(x)    取自然对数 
   
  exp(x)    指数函数 
   
  rand(x)    生成一个0到1之间的随机数 
   
  srand()    初始化随机数发生器 
   
  systime()    返回从1970年1月1日0:00到当前时间的秒数 
   
  sqrt(x)    取x的平方根 
   
  字符串函数 
   
  index(string1,string2 ) 
   
      它会在string1 里面,寻找string2 第一次出现的地方,返回值是字串string2出现在字串string1 里面的位置。如果找不到,返回值为 0。 
   
      例如: 
   
          print index("peanut","an") 
   
      会印出 3。 
   
  length(string) 
   
  string字符串的长度 
   
      例如: 
   
          length("abcde") 
   
      是 5。 
   
  match(string,regexp) 
   
      match 函 数会在字串 string 里面,寻找符合 regexp 的最长、最靠左边的子字串。返回值是 regexp 在 string 的开始位置, 即 index值。这个函数会设定内部变量 RSTART 等於 index,内部变量RLENGTH 等於符合的子串个数。如果不符合,则会设 定 RSTART 为0、RLENGTH 为 -1。 
   
  sprintf(format,expression1,...) 
   
  跟C语言的sprintf差不多。 
   
      例如: 
   
          sprintf("pi = %.2f (approx.)',22/7) 
   
      传回的字串为"pi = 3.14 (approx.)" 
 
   
  sub(regexp, replacement,target) 
   
      在字串 target 里面,寻找符合 regexp 的最长、最靠左边的地方,并且以字串 replacement 代替最左边的 regexp。 
   
      例如: 
   
          str = "water, water, everywhere" 
   
          sub(/at/, "ith",str) 
   
      结果字串str会变成 
   
      "wither, water, everywhere" 
 
   
  gsub(regexp, replacement, target) 
   
      gsub 与前面的 sub 类似。在字串 target 里面,寻找符合 regexp 的所有地方,以字串 replacement 代替所有的 regexp。 
   
      例如: 
   
          str="water, water, everywhere" 
   
          gsub(/at/, "ith",str) 
   
      结果字串str会变成 
   
      'wither, wither, everywhere" 
   
  substr(string, start, length) 
   
      传回字串 string 的子字串,这个子字串的长度为 length 个字符,从第 start 个位置开始。 
   
      例如: 
   
        substr("washington",5,3) 
   
      传回值为"ing" 
   
      如果 length 没有出现,则传回的子字串是从第 start 个位置开始至结束。 
   
      例如: 
   
          substr("washington",5) 
   
      传回值为"ington" 
   
  tolower(string) 
   
      将字串string的大写字母改为小写字母。 
   
      例如: 
   
          tolower("MiXeD cAsE 123") 
   
      传回值为"mixed case 123" 
 
   
  toupper(string) 
   
      将字串string的小写字母改为大写字母。 
   
      例如: 
   
          toupper("MiXeD cAsE 123") 
   
      传回值为"MIXED CASE 123" 
   
  其他函数 
   
  system(command) 
   
      此函式允许使用者执行作业系统的指令,执行完毕後将回到 gawk 程式。 
   
      例如: 
   
          BEGIN {system("ls")} 
   
  控制流 
   
  在gawk命令脚本中可以使用控制流,主要是if,for,while等语句,用法和C语言相当类似: 
 
   
    if (condition) then-body [else else-body] 
   
  如果 condition 为真(true),则执行 then-body,否则执行 else-body。 
   
      举一个例子如下: 
   
         if (x % 2 == 0) 
   
             print "x is even" 
   
          else 
   
             print "x is odd" 
 
   
      while (condition) 
   
             body 
   
  while 语 句测试 condition表达式。假如 condition 为真则执行 body 的语句。一次执行完後,会再测试 condition,假如 condition 为真,则 body 会再度被执行。这个过程会一直被重复直到condition 不再是真。如果 condition 第一次测试 就是伪(false),则body 从没有被执行。 
   
      下面的例子会印出每个输入行的前三个栏位。 
   
          gawk '{ i=1 
   
                  while (i <= 3) { 
   
                      print $i 
   
                      i++ 
   
                  } 
   
                }' 
   
     do 
   
        body 
   
     while (condition) 
   
  这个 do loop 执行 body 一次,然後只要 condition 是真则会重复执行 body。即使开始时 condition 是伪,body 也会被执行一次。 
   
      下面的例子会印出每个输入记录十次。 
   
          gawk '{ i= 1 
   
                  do { 
   
                     print $0 
   
                     i++ 
   
                  } while (i <= 10) 
   
          }' 
   
    for (initialization; condition; increment) 
   
         body 
   
  此叙述开始时会执行initialization,然後只要 condition是真,它会重复执行body与做increment 。 
   
      下面的例子会印出每个输入记录的前三个栏位。 
   
          gawk '{ for (i=1; i<=3; i++) 
   
                     print $i 
   
          }' 
   
      break 会跳出包含它的 for、while、do-while 循环的最内层。 
   
      下面的例子会找出任何整数的最小除数,它也会判断是否为质数。 
   
          gawk '# find smallest divisor of num 
   
               { num=$1 
   
                 for (div=2; div*div <=num; div++) 
   
                    if (num % div == 0) 
   
                       break 
   
                 if (num % div == 0) 
   
                    printf "Smallest divisor of %d is %d\n", num, div 
   
                 else 
   
                    printf "%d is prime\n", num }' 
   
      continue 使用于 for、while、do-while 循环内部,它会跳过循环体的剩余部分,立刻进行下一次循环的执行。 
   
      下面的例子会印出 0 至 20 的全部数字,但是 5 并不会被印出。 
   
          gawk 'BEGIN { 
   
               for (x=0; x<=20; x++) { 
   
                  if (x==5) 
   
                     continue 
   
                  printf ("%d",x) 
   
               } 
   
               print "" 
   
          }' 
   
      next 语句强迫 gawk 立刻停止处理目前的行而继续下一个输入行。 
   
      exit 语句会使得 gawk 程式停止执行而跳出。然而,如果 END 出现,它会去执行 END 的 actions。 
 
   
  自定义函数 
   
  你可以定义自己的函数,其格式是 
   
     function name (parameter-list) { 
   
         body-of-function 
   
        } 
 
   
  name 是所定义的函数名字。 parameter-list 是函数的变量列表。变量间使用逗号分开。 
   
  函数可以在程序的任何地方定义,不过习惯上总是定义在程序的开头部分。 
   
     下面这个例子,会将每个记录的第一个栏位之值的平方与第二个栏位之值的平方加起来。 
   
  {print "sum =",SquareSum($1,$2)} 
 
   
  function SquareSum(x,y) { 
   
      sum=x*x+y*y 
   
      return sum 
   

   
  如果你熟悉任何编程语言,那么掌握awk都是很轻松的事情,如果你不喜欢它,那么你可以参考我们下面介绍的perl。 
   
 

阅读(684) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~