Chinaunix首页 | 论坛 | 博客
  • 博客访问: 54440
  • 博文数量: 28
  • 博客积分: 84
  • 博客等级: 民兵
  • 技术积分: 162
  • 用 户 组: 普通用户
  • 注册时间: 2010-05-09 17:47
个人简介

try vuuv.github.io or somewhere else.

文章分类

全部博文(28)

文章存档

2013年(1)

2012年(5)

2011年(22)

我的朋友

分类:

2011-10-07 15:01:18

原文地址:awk之RT内置变量 作者:zooyo

 

 

  1. $ cat file
  2. This is a 2 test !
  3. only test 3.
  4. 5 includes.
  5. 1 file.

 

要求以上文本中出现过的数字相加。

 

 

  1. awk -v RS='[0-9]+' '{s+=RT}END{print s}' file
  2. 11

[解析]

  把RS记录分割符设置成一个正则,匹配一个或多个数字的字符段为记录分割符。RT就是当RS为正则表达式时的匹配到的每个记录的分割符的内容即为RT变量表示。那么把RT累加给变量s,然后最后输出该值。达到了把所有文本中出现过的数字相加。这里还有一个小细节不要放过,就是 + 号,该符号在BREs正则表达式中是不支持这样写的正确的写法是 \+ ,但是awk默认是使用的EREs正则表达式,所以支持 + 号的写法,大家注意区分。

 

文本内容如下,现在想获取begin和end之间同时含有BBCC、EEFF两个字符串的段,并打印出来。
begin
AABB
AACC
end
begin
BBCC
EEFF
end
begin
ABCD
HIGJ
end
begin
ABCD
ABEF
end

打印结果应为:
begin
BBCC
EEFF
end

 

  1. $ awk 'BEGIN{RS="begin|end"}/BBCC.*EEFF/{print "begin"$0RT}' file
  2. begin
  3. BBCC
  4. EEFF
  5. end

[解析]

  为什么RT是end?阁下想明白了吗?

 

 

如何抽取匹配行下第三行不为空时,匹配行下面三行行内容:
  1. TAG 1
  2. 444


  3. TAG 2



  4. TAG 3
  5. 111
  6. 222
  7. 333

把匹配行指定的域内容提取出来添加到输出结果中:

3  111
3  222
3  333

 

 

  1. awk -vRS="TAG [0-9]+" 'NF>2{for(i=1;i<=NF;i++){print NR-1,$i}}' file

[解析]

  把每段文本的开始标记行作为RS,不难了吧。

阅读(780) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~