Linux awk命令详解-dyli2000-ChinaUnix博客

dyli2000dyli.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

dyli2000

博客访问： 13520050
博文数量： 1293
博客积分： 13501
博客等级：上将
技术积分： 17974
用户组：普通用户
注册时间： 2011-03-08 18:11

文章分类

全部博文（1293）

串口通讯技术（1）

WinCPP串口编程（0）

C#串口编程（1）

串口通讯基本原理（0）
计算机网络核心（17）

RTSP（0）

UDP（1）

TCP（7）

VSC#编程（0）

LinuxC/C++编程（0）

WinC/C++编程（2）

网络基础知识（7）
流媒体与音视频（3）

VSC++环境相关（3）

live555工程搭建（0）
单片机系列（2）

ICC和Proteus环境（2）
MVC（27）

Razor（2）

通用技术（2）

FontAwesome（3）

GMS系列（5）

LINQ（0）

Entity Fram（4）

数据库相关（3）

Controller（3）

View（3）

Model（0）
数据挖掘大数据（1）

数据挖掘案例（1）
云计算&云存储（6）

云应用（5）

云存储（1）

云计算（0）
无线通讯技术（3）

无线WIFI技术（0）

CDMA基础（3）
Android与JAVA（63）

JAVA环境（2）

调试技术（4）

安装发布（2）

智能终端应用（1）

多媒体应用（1）

关键字（1）

控制台与文件IO（1）

字串、颜色、数组（1）

常用容器类（1）

安卓网络编程（1）

异步处理线程进程（2）

常用控件操作（4）

实用界面设计（2）

J/A基础（16）

Android开发环境（24）
设计模式（34）

外观模式（0）

访问者模式（1）

解释器模式（1）

职责链模式（1）

命令模式（1）

桥接模式（1）

单例模式（2）

组合模式（0）

备忘录模式（1）

适配器模式（1）

状态模式（1）

享元模式（1）

中介者模式（1）

迭代器模式（1）

抽象工厂模式（1）

模板方法模式（2）

工厂方法模式（1）

原型模式（2）

代理模式（0）

生成器/建造者模（3）

观察者模式（2）

装饰模块（1）

软件设计原则（4）

策略模式（3）

工厂模式（2）
STM32专栏（10）

STM32最小系统（5）

基本开发软件安装（5）
微信公共API开发（9）

SAE与SVN代码管理（2）

公众号基础API开（0）

JSON相关（4）

高级群发功能（2）

账号管理（1）

常识性知识（0）

图形交互技术（0）

二维图形（0）

基本图形生成（0）
数据结构与算法（12）

正则表达式（2）

经典算法（4）

文件（1）

外部排序（0）

内部排序（2）

查找（1）

动态存储管理（0）

图（0）

树与二叉树（1）

串、数组与广义表（0）

栈与队列（0）

线性表（0）
项目管理技术（14）

IMindMap（0）

VISIO（1）

MMind与思维导图（1）

项目开发管理工具（6）

EDraw（1）

KG第一季（4）
WPF与C#开源项目（41）

http（1）

C#开源项目（2）

高级应用（3）

图片处理（3）

表格相关（3）

事件命令等（1）

WPF布局（4）

WEB相关（5）

Ribbon（3）

自定义（4）

样式与资源（5）

常用控件（4）

环境与配置（3）
C#程序设计（347）

DirectX（1）

打包发布与异常管（5）

ASP.NET（8）

图形与多媒体（3）

C#安全编码（2）

报表设计（14）

控制台DOS/文件IO（7）

反射与特性（2）

XML与HTML（6）

时间处理专栏（7）

数制转换与替换（3）

Form/Dialog/pane（26）

字串/颜色/数组（15）

进程间通讯（1）

常用控件操作（34）

.net 与OFFICE（20）

C#关键字（7）

DG/DGv/Lsv/TrV/L（31）

自定义/DLL（9）

C Sharp概述与.ne（2）

异步调用（4）

C#网络编程与应用（18）

抽象类虚方法（3）

泛型编程（6）

C#高级应用技巧（9）

多线程、异常与计（26）

接口（3）

委托事件回调（16）

调试技术与Studio（33）

c#基础与算法类（25）
数据库系列（61）

Access（7）

存储过程（1）

SQL-SERVER2008（11）

SQL-SERVER通用（4）

SQL-SERVER2005（5）

sqlite数据库系列（1）

Mysql数据库（11）

数据表常用操作（6）

数据库常用操作（6）

SQL事件探查器（0）

SQL　查询分析器（2）

SQL组件使用小解（2）

sql安装相关（5）
Delphi程序设计（19）

数据库基本编程（1）

异常处理与调试（1）

控制台应用程序精（0）

delphi经典函数系（1）

delphi基础编程（7）

软件使用技巧（6）
C++与QT（62）

VC++常见编译错误（3）

C++关键字（3）

动态链接库DLL（5）

MFC与Windows编程（11）

开发环境使用（16）

c++基础知识（17）

Qt界面操作专辑（1）

多媒体编程（0）

数据库编程（0）

进程与进程间通讯（0）

qt多线程编程（0）

Qt网络编程（0）

Qt数据库多媒体图（0）

Qt网络与通讯编程（0）

Qt基础编程（6）
电路硬件天地（10）

常用工具（0）

串口与并口的传说（1）

经典二十大模拟电（1）

dyli-50大常用电（6）

电容知识（1）

晶体管（1）
windows开发软件（51）

格式转换工具（1）

Flash初级应用（16）

Flash环境技能（2）

KoolMoves（0）

远程控制向日葵（1）

Foxmail（2）

显卡常用用发设置（2）

WISE打包软件（6）

WireShark（6）

ADS（1）

SecureCRT与DNW（1）

Source Insight（8）

VMware及虚拟光驱（5）
VLC编译与移植（34）

vlc应用论文参考（3）

configure学习（3）

VLC第三方库配置（4）

VLC文档学习（9）

vlc编译与移植（12）

vlc原理分析（2）
操作系统基础（11）

字符编码技术（0）

实时操作系统RTOS（0）

通用理论（3）

存储管理（4）

MTD（2）
软件工程（12）

软件生命周期（1）

软件盈利模式（1）

UML技术（1）

代码整洁之道（7）

软件工程思想（2）
嵌入式系统开发（69）

linux系统原理（1）

linux编译与裁剪（14）

音视频驱动（3）

无线设备相关（1）

基本GPIO等（3）

杂项设备驱动（2）

网络设备驱动（4）

块设备驱动（1）

字符设备驱动（11）

ubuntu12.04（3）

gcc与arm-linux-g（2）

ubuntu 7.04（1）

OK6410（2）

TQ2440（0）

FS2410（2）

ubuntu-10.04（2）

ubuntu-8.10（17）

fedora10（0）
ARM系列（11）

摄像球机基础（4）

ARM通用I/O接口（0）

FLASH（2）

ARM之裸跑（1）

ARM系统芯片学习（4）

LED灯的控制（0）
linux/Windows高（62）

Shell-Awk（2）

svn工程管理专栏（7）

Git和GitHub（1）

Makefile（14）

linux Shell编程（1）

linux系统管理（4）

VIM与gedit系列（7）

linux常用命令系（16）

linux服务器系列（10）
王牌之C（107）

逻辑与位操作（1）

关键字与头文件（3）

编译过程原理（3）

宏与预处理（1）

linux进程间通讯（4）

GCC与GDB（0）

内存管理（11）

命名的规范（1）

文件结构、布局与（4）

linux网络编程（4）

流程控制（1）

结构体\字符串与（12）

CGI编程（6）

linux文件I/O编程（5）

激情第一季（7）

linux系统调用系（1）

线程基础知识（6）

C语言基础知识（15）

指针与链表（20）
文件系统与Bootlo（4）

bootloader原理（2）

linux文件系统制（0）

linux文件系统原（2）
技术人生（155）

励志人生（7）

家电相关（1）

电脑\系统\网络（25）

图片处理PS等（28）

职业规划（3）

DOS\BAT\服务\DLL（7）

品味书法（4）

windows软件使用（26）

OFFICE使用技巧（13）

运动知识与身体锻（3）

生活风采（9）

大师智慧（28）

友情链接网址大全（1）
未分配的博文（35）

文章存档

2019年（1）

2018年（1）

2016年（118）

2015年（257）

2014年（128）

2013年（222）

2012年（229）

2011年（337）

我的朋友

相关博文

Linux awk命令详解

分类： LINUX

2015-03-27 15:35:31

原文地址：Linux awk命令详解作者：deem_passion

一. AWK 说明
awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。

awk的处理文本和数据的方式：它逐行扫描文件，从第一行到最后一行，寻找匹配的特定模式的行，并在这些行上进行你想要的操作。如果没有指定处理动作，则把匹配的行显示到标准输出(屏幕)，如果没有指定模式，则所有被操作所指定的行都被处理。

awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人，分别是Alfred Aho、Brian Kernighan、Peter Weinberger。

gawk是awk的GNU版本，它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的，在linux系统中已把awk链接到gawk，所以下面全部以awk进行介绍。

二. awk命令格式和选项
2.1 awk的语法有两种形式

1. 命令行方式
awk [-F field-separator] 'commands' input-file(s)
其中，commands是真正awk命令，[-F域分隔符]是可选的。input-file(s)是待处理的文件。
在awk中，文件的每一行中，由域分隔符分开的每一项称为一个域。通常，在不指名-F域分隔符的情况下，默认的域分隔符是空格。
2. 将所有的awk命令插入一个单独文件，然后调用:
awk -f awk-script-file input-file(s)
其中，-f选项加载awk-script-file中的awk脚本，input-file(s)跟上面的是一样的。

2.2 命令选项

（1）-F fs or --field-separator fs ：指定输入文件折分隔符，fs是一个字符串或者是一个正则表达式，如-F:。

（2）-v var=value or --asign var=value ：赋值一个用户定义变量。

（3）-f scripfile or --file scriptfile ：从脚本文件中读取awk命令。

（4）-mf nnn and -mr nnn ：对nnn值设置内在限制，-mf选项限制分配给nnn的最大块数目；-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能，在标准awk中不适用。

（5）-W compact or --compat, -W traditional or --traditional ：在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。

（6）-W copyleft or --copyleft, -W copyright or --copyright ：打印简短的版权信息。

（7）-W help or --help, -W usage or --usage ：打印全部awk选项和每个选项的简短说明。

（8）-W lint or --lint ：打印不能向传统unix平台移植的结构的警告。

（9）-W lint-old or --lint-old ：打印关于不能向传统unix平台移植的结构的警告。

（10）-W posix ：打开兼容模式。但有以下限制，不识别：/x、函数关键字、func、换码序列以及当fs是一个空格时，将新行作为一个域分隔符；操作符**和**=不能代替^和^=；fflush无效。

（11）-W re-interval or --re-inerval ：允许间隔正则表达式的使用，参考(grep中的Posix字符类)，如括号表达式[[:alpha:]]。

（12）-W source program-text or --source program-text ：使用program-text作为源代码，可与-f命令混用。

（13）-W version or --version ：打印bug报告信息的版本。

三. 使用方法

#awk '{pattern + action}' {filenames}

尽管操作可能会很复杂，但语法总是这样，其中 pattern 表示 AWK 在数据中查找的内容，而 action 是在找到匹配内容时所执行的一系列命令。花括号（{}）不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式，用斜杠括起来。

awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息，awk抽取信息后，才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。

通常，awk是以文件的一行为处理单位的。awk每接收文件的一行，然后执行相应的命令，来处理文本。

四. 模式和操作

awk脚本是由模式和操作组成的：

pattern {action} 如$ awk '/root/' test，或$ awk '$3 < 100' test。

两者是可选的，如果没有模式，则action应用到全部记录，如果没有action，则输出匹配全部记录。默认情况下，每一个输入行都是一条记录，但用户可通过RS变量指定不同的分隔符进行分隔。

4.1. 模式

模式可以是以下任意一个：

（1）正则表达式：使用通配符的扩展集。

（2）关系表达式：可以用下面运算符表中的关系运算符进行操作，可以是字符（3）串或数字的比较，如$2>%1选择第二个字段比第一个字段长的行。

（4）模式匹配表达式：用运算符~(匹配)和~!(不匹配)。

（5）模式，模式：指定一个行的范围。该语法不能包括BEGIN和END模式。

（6）BEGIN：让用户指定在第一条输入记录被处理之前所发生的动作，通常可在这里设置全局变量。

（7）END：让用户在最后一条输入记录被读取之后发生的动作。

4.2. 操作

操作由一人或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大括号内。主要有四部份：

（1）变量或数组赋值

（2）输出命令

（3）内置函数

（4）控制流命令

五. awk的环境变量

变量	描述
$n	当前记录的第n个字段，字段间由FS分隔。
$0	完整的输入记录。
ARGC	命令行参数的数目。
ARGIND	命令行中当前文件的位置(从0开始算)。
ARGV	包含命令行参数的数组。
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组。
ERRNO	最后一个系统错误的描述。
FIELDWIDTHS	字段宽度列表(用空格键分隔)。
FILENAME	当前文件名。
FNR	同NR，但相对于当前文件。
FS	字段分隔符(默认是任何空格)。
IGNORECASE	如果为真，则进行忽略大小写的匹配。
NF	当前记录中的字段数。
NR	当前记录数。
OFMT	数字的输出格式(默认值是%.6g)。
OFS	输出字段分隔符(默认值是一个空格)。
ORS	输出记录分隔符(默认值是一个换行符)。
RLENGTH	由match函数所匹配的字符串的长度。
RS	记录分隔符(默认是一个换行符)。
RSTART	由match函数所匹配的字符串的第一个位置。
SUBSEP	数组下标分隔符(默认值是/034)。

六. awk运算符

运算符	描述
= += -= = /= %= ^= *=	赋值
?:	C条件表达式
\|\|	逻辑或
&&	逻辑与
~ ~!	匹配正则表达式和不匹配正则表达式
< <= > >= != ==	关系运算符
空格	连接
+ -	加，减
* / &	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	求幂
++ --	增加或减少，作为前缀或后缀
$	字段引用
in	数组成员

七. 记录和域

7.1. 记录

awk把每一个以换行符结束的行称为一个记录。

记录分隔符：默认的输入和输出的分隔符都是回车，保存在内建变量ORS和RS中。

$0变量：它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

变量NR：一个计数器，每处理完一条记录，NR的值就增加1。

如$ awk '{print NR,$0}' test将输出test文件中所有记录，并在记录前显示记录号。

7.2. 域

记录中每个单词称做“域”，默认情况下以空格或tab分隔。awk可跟踪域的个数，并在内建变量NF中保存该值。如$ awk '{print $1,$3}' test将打印test文件中第一和第三个以空格分开的列(域)。

7.3. 域分隔符

内建变量FS保存输入域分隔符的值，默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$ awk -F: '{print $1,$5}' test将打印以冒号为分隔符的第一，第五列的内容。

可以同时使用多个域分隔符，这时应该把分隔符写成放到方括号中，如$awk -F'[:/t]' '{print $1,$3}' test，表示以空格、冒号和tab作为分隔符。

输出域的分隔符默认是一个空格，保存在OFS中。如$ awk -F: '{print $1,$5}' test，$1和$5间的逗号就是OFS的值。

八. 匹配操作符(~)

用来在记录或者域内匹配正则表达式。如$ awk '$1 ~/^root/' test将显示test文件第一列中以root开头的行。

九. 比较表达式

conditional expression1 ? expression2: expression3，

例如：
$ awk '{max = {$1 > $3} ? $1: $3: print max}' test。如果第一个域大于第三个域，$1就赋值给max，否则$3就赋值给max。

$ awk '$1 + $2 < 100' test。如果第一和第二个域相加大于100，则打印这些行。

$ awk '$1 > 5 && $2 < 10' test,如果第一个域大于5，并且第二个域小于10，则打印这些行。

十. 范围模板

范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现，则匹配到开头或末尾。如$ awk '/root/,/mysql/' test将显示root第一次出现到mysql第一次出现之间的所有行。

十一. 示例
1. 入门实例
1.1 显示最近登录的5个帐号:

#last -n 5 | awk '{print $1}'
root
root
root
dmtsai
root

1.2 如果只是显示/etc/passwd的账户:

#cat /etc/passwd |awk -F ':' '{print $1}'

root
daemon
bin
sys

1.3 如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以tab键分割:

#cat /etc/passwd |awk -F ':' '{print $1"\t"$7}'

root /bin/bash
daemon /bin/sh

bin /bin/sh

sys /bin/sh

1.4 如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh":

#cat /etc/passwd |awk -F ':' 'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}' name,shell
root,/bin/bash
daemon,/bin/sh

bin,/bin/sh

sys,/bin/sh

....
blue,/bin/nosh

1.5 搜索/etc/passwd有root关键字的所有行:

#awk -F: '/root/' /etc/passwd

root:x:0:0:root:/root:/bin/bash

这种是pattern的使用示例，匹配了pattern(这里是root)的行才会执行action(没有指定action，默认输出每行的内容)。

搜索支持正则，例如找root开头的: awk -F: '/^root/' /etc/passwd

1.6 搜索/etc/passwd有root关键字的所有行，并显示对应的shell

# awk -F: '/root/{print $7}' /etc/passwd

/bin/bash

1.7 其他小示例:

$ awk '/^(no|so)/' test-----打印所有以模式no或so开头的行。

$ awk '/^[ns]/{print $1}' test-----如果记录以n或s开头，就打印这个记录。

$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。

$ awk '$1 == 100 || $2 < 50' test-----如果第一个或等于100或者第二个域小于50，则打印该行。

$ awk '$1 != 10' test-----如果第一个域不等于10就打印该行。

$ awk '/test/{print $1 + 10}' test-----如果记录包含正则表达式test，则第一个域加10并打印出来。

$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一个域大于5则打印问号后面的表达式值，否则打印冒号后面的表达式值。

$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录，则继续打印直到下一个以正则表达式mysql开头的记录为止，或到文件末尾。

2. awk内置变量示例
统计/etc/passwd:文件名，每行的行号，每行的列数，对应的完整行内容:

#awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd

filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash
filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

使用printf替代print,可以让代码更加简洁，易读

 #awk -F ':' '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd

awk中同时提供了print和printf两种打印输出的函数。

其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用，参数用逗号分隔。如果没有逗号，参数就串联在一起而无法区分。这里，逗号的作用与输出文件的分隔符的作用是一样的，只是后者是空格而已。

printf函数，其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时，printf更加好用，代码更易懂。

3. awk自定义变量

3.1. 下面统计/etc/passwd的账户人数:

#awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd root:x:0:0:root:/root:/bin/bash
......
user count is  40

count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句，而action{}可以有多个语句，以;号隔开。

3.2. 这里没有初始化count，虽然默认是0，但是妥当的做法还是初始化为0:

#awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd

[start]user count is 0 root:x:0:0:root:/root:/bin/bash
...
[end]user count is 40

3.3. 统计某个文件夹下的文件占用的字节数:

#ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
[end]size is  8657198

3.4 如果以M为单位显示:

#ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is  8.25889 M

注意，统计不包括文件夹的子目录。

4. 条件语句

统计某个文件夹下的文件占用的字节数,过滤4096大小的文件(一般都是文件夹):

#ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'

[end]size is  8.22339 M

5. 循环语句

显示/etc/passwd的账户:

阅读(2603) | 评论(0) | 转发(0) |

上一篇：dgv对检查相同的IP并标颜色

下一篇：linux sort uniq awk grep 及管道过滤符

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6