awk心得笔记-linux_kaige-ChinaUnix博客

一个人不是生来要给打败的yangkai.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

linux_kaige

博客访问： 1677519
博文数量： 409
博客积分： 6240
博客等级：准将
技术积分： 4908
用户组：普通用户
注册时间： 2011-06-01 00:04

文章分类

全部博文（409）

Oracle服务端应用（24）
信息安全（3）
网络（虚拟化等全（1）
代理服务器squid（2）
Hadoop 大数（1）
oracle的sql（1）
标准对照表（2）
ATM相关（2）
oracle异常处理（1）
oracle存储过程/（7）
oracle备份与恢复（12）
java（3）
db2（1）
环境搭建（4）
perl（0）
php（1）
python（0）
object（2）
HA（1）
sql（14）
mysql（3）
网卡流量监测（3）
web服务器（6）
hash（1）
我的ftp手册（7）
文档规范（1）
正则（2）
sed（2）
项目管理（28）
web压力测试（5）
linux系统管理（25）
shell（19）
linux应用（20）
随便一说（3）
其他（6）
kernel（1）
awk（17）
DB（21）
凯哥的linux私房（20）
未分配的博文（137）

文章存档

2021年（1）

2019年（1）

2017年（1）

2016年（13）

2015年（22）

2013年（4）

2012年（240）

2011年（127）

我的朋友

最近访客

推荐博文

awk心得笔记

分类：

2011-08-01 13:26:58

原文地址：awk心得笔记作者：ywlscpl

awk使用过程中一些心得的记录，持续更新

1、awk -F '[#, ]+' '{}' 用正则做FS，即以一个或以上的#或空格做FS，值得注意的是也包括两者的任意组合，如下例中d是作为$5的，不是$6，也就是说" # "、" ## "、" # #"也是FS

[root@Mylinux tmp]# echo "1 # a# b ## c # #d" | awk -F '[#, ]+' '{print "$1:"$1"$2:"$2"$3:"$3"$4:"$4"$5:"$5"$6:"$6}' $1:1$2:a$3:b$4:c$5:d$6:

awk -F '[ \t]+|,' 以任意个空格或TAB或1个,做分割符

2、awk 'var=xx' awk省略action的写法，默认action就是{print}，但稍有特殊，其执行了var=xx的赋值操作，并且用xx作为pattern。

awk 'var=xx'应该说等价于awk 'xx{print}{var=xx}'

awk 'var=xx{cmd}'等价于awk 'xx{cmd}{var=xx}'

(1)、复杂点的例子：awk '!a[$1]++&&NF' 将会打印出字段1第一次出现的行，并且空行去除，并且$1为空的行去除(因为$1为空,a[$1]为空)

即等价于awk 'a[$1]&&NF{print}{a[$1]=a[$1]+1}'

[root@Mylinux tmp]# cat file 1,1 1,2 1,3 2,2

,3 [root@Mylinux tmp]# awk -F "," '!a[$1]++&&NF' file 1,1 2,2

(2)、空行没有打印，因为NF用做了pattern，NF值为0则后面的{print}未执行。

[root@Mylinux tmp]# awk 'NF=NF' file 1,1 1,2 1,3 2,2 ,3

(3)、第6行也未打印，因为空行及第6行及的$1为空

[root@Mylinux tmp]# awk -F "," -v OFS="," '$1=$1' file 1,1 1,2 1,3 2,2

(4)、赋值操作完成，0做pattern，action未执行

[root@Mylinux tmp]# awk 'a=0;END{print a}' file 0

3、设定OFS后，需对字段数NF（较老的awk版本可能无效）或某字段$1、$2...做过修改后才能生效

[root@Mylinux tmp]# echo "1 2 3" | awk 'BEGIN{OFS=","}1' 1 2 3 [root@Mylinux tmp]# echo "1 2 3" | awk 'BEGIN{OFS=","}NF=NF' 1,2,3 [root@Mylinux tmp]# echo "1 2 3" | awk 'BEGIN{OFS=","}$1=$1' 1,2,3

4、大文件分割：分割大文件file中第n到m行为新文件

注意处理到m行时加个exit退出

awk 'NR>=n&&NR<=m{print;if(NR==m)exit}' file >newfile

5、sub gsub gensub区别

sub(a,b[,c]) 替换第一次匹配，匹配正则a，用b替换，c为指定替换目标是哪个域如$1,$2，若无c指$0，返回值为替换成功次数

gsub(a,b[,c]) 全局替换，匹配正则a，用b替换，c为指定替换目标是哪个域如$1,$2，若无c指$0，返回值为替换成功次数

gensub(a,b,c[,d])全局替换，匹配正则a，用b替换，c为指定替换目标是第几次匹配，d为指定替换目标是哪个域如$1,$2，若无d指$0，返回值为target替换后内容(未替换还是返回target原内容)，与sub、gsub不同的是，target内容替换后不改变。

gensub(/123/,"x",1,$1)替换$1中第一次匹配到的123为字符x，返回值为$1替换后的内容，且$1的内容并没有改变

[root@Mylinux tmp]# echo "a123b a456b" | awk '{print gensub(/a([0-9]*)b/,"\\1",1)}'
123 a456b
[root@Mylinux tmp]# echo "a123b a456b" | awk '{print gensub(/a([0-9]*)b/,"\\1",2)}'
a123b 456

target不会被改变:

[root@Mylinux tmp]# echo "a123b a456b" | awk '{print gensub(/a([0-9]*)b/,"\\1",1,$1);print $1}'
123
a123b

6、split(a,b[,c]) 将字符串a根据分隔符c分割后赋值给数组b，若没有指定c，FS作为分隔符，返回值为分割后域个数

[root@Mylinux ~]# echo "1 2 3" | awk '{print split($0,m)"|"m[1],m[2],m[3]}' 3|1 2 3 [root@Mylinux ~]# echo "1#2#3" | awk '{print split($0,m,"#")"|"m[1],m[2],m[3]}' 3|1 2 3

[root@Mylinux tmp]# echo "1#2#3" | awk '{print m[split($0,m,"#")]}' 3

7、split函数中用正则做分隔符

[root@Mylinux tmp]# echo "1@2##3" | awk '{split($0,m,"#+|@");print m[1],m[2],m[3]}' 1 2 3

8、当用到$0~/ /这种形式，且正则中又需要引用awk变量时，可以这样：

[root@Mylinux tmp]# echo "123 123abc" | awk '$2~"^"$1".*c$"' 123 123abc

阅读(675) | 评论(0) | 转发(0) |

上一篇：seq sed 很低级的东西，见笑各位！

下一篇：linux网络编程：用C语言实现的聊天程序（异步通信）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6