awk中FS的一点细节-Bean_lee-ChinaUnix博客

潜心修行bean.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Bean_lee

博客访问： 3915671
博文数量： 146
博客积分： 3918
博客等级：少校
技术积分： 8585
用户组：普通用户
注册时间： 2010-10-17 13:52

个人简介

个人微薄： weibo.com/manuscola

文章分类

全部博文（146）

ceph（5）
Go（6）
LISP（3）
shell（5）
UI（3）
DB（13）
PHP（0）
杂文（1）
Assembly（2）
Python（1）
Linux（23）
C（7）
algorthm（32）
Linux Kernel（29）
编译链接（14）
NETWORK（2）
未分配的博文（0）

文章存档

2016年（3）

2015年（2）

2014年（5）

2013年（42）

2012年（31）

2011年（58）

2010年（5）

我的朋友

相关博文

awk中FS的一点细节

分类： LINUX

2013-07-21 16:55:07

在学习Effective awk Program。在工作中虽然shell也算是自己的常规武器，但是shell的运用并不纯熟，把书中自己理解不深，或者没注意到的地方记录一下，毕竟每次看英文书有点重点不突出。
Effective awk Program 第三章Reading Input Files中的Using Regular Expression to Separate Fields中提到了一个很有趣的现象。

echo " a b c d " | awk '{ print $2 }'
echo " a b c d " | awk 'BEGIN {FS="[ \t\n]"} {print $2}'

这两个的输出是否一致，我学习这一章节之前，认为输出是相同的，都是b。实际上：

我们看到第一个命令和第二个命令的输出是不一样的。原因在于，默认的情况下，FS是空格，这种情况下，处理之前，首先会将strip掉头部的空格和tab，以及尾部的空格和tab，但是如果FS修改成[ \t\n]这种形式，就不会strip掉头部和尾部的空白字符，那么，如果头部有1个空格，我们看到$1是null或者empty。

另一个比较有意思的现象是，如果record重新组建，会导致头部和尾部的空白字符strip掉。

我们看到，仅仅是执行了$2=$2这个看起来毫无意义的操作，头部的空格就被strip掉了，事实上尾部的2个空格也被strip掉了。因为赋值操作引发了字符串的rebuild，而rebuild的过程要查找$1,$2...$NF,链接起来，查找$1的过程等同与FS=“ ”的时候的$1,空白字符（空格和tab）会被忽略掉，所以，concatenated string 也就没有头部和尾部的空白字符了。

参考文献：
1 effective awk program

阅读(12697) | 评论(2) | 转发(4) |

上一篇：PostgreSQL之analyze监控

下一篇：jq : Linux下json的命令行工具

给主人留下些什么吧！~~

Bean_lee2013-07-30 22:19:36

聆音听墨：以前看sed&awk，现在又忘了，幸好刚刚又温习了一遍。

我是集中学习学习，awk和sed 自己用的并不纯熟，虽说也写过一些shell脚本了，自己总是不满意自己的shell水平。

回复 | 举报

聆音听墨2013-07-30 20:24:45

以前看sed&awk，现在又忘了，幸好刚刚又温习了一遍。

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6