sed学习助记-syukayo-ChinaUnix博客

world in skysyukayo.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

syukayo

博客访问： 141333
博文数量： 37
博客积分： 2671
博客等级：少校
技术积分： 335
用户组：普通用户
注册时间： 2010-10-11 13:18

文章分类

全部博文（37）

language（7）

syntax（7）

english（0）
linux（29）

gnu（1）

acpi（0）

network（0）

android（2）

gcc（1）

userspace（1）

makefile（1）

uboot（0）

g-bios（0）

b-dev（0）

c-dev（0）

bootloader（0）

mm（0）

filesystem（0）

drivers（0）

graphic（0）

shell（6）

unix-sysprog（2）

mandriva（0）

opensuse（0）

moblin（1）

debian（2）

vim（0）

awk（2）

sed（3）

perl（0）

python（0）

kownhow（2）

lan-Cpp（0）

lan-C（4）

script（0）

applayer（0）

kernel（1）

system（0）
未分配的博文（1）

文章存档

2011年（16）

2010年（21）

我的朋友

大鬼不动

最近访客

推荐博文

sed学习助记

分类：

2011-01-26 20:10:46

1):awk基本控制语句

$1==lead {
printf "\t%s\n",$2
}

$1!=lead {
printf "%s\n",$1
printf "\t%s\n",$2
lead=$1
}

其实也就是模式和命令的格式，即[pattern] {command}。

2):基本的元字符与扩展的元字符

grep与sed使用基本的正则元字符，awk与egrep使用扩展的。

3):*在正则表达式中和普通shell中的区别

[root@oracle ForVMC]# echo h*
h1 h2 h3 h4

下面是正则式中的*号含义：

[root@oracle ForVMC]# wc -l m
4 m
[root@oracle ForVMC]# cat m
h1
h2
h3
h4

[root@oracle ForVMC]# sed -n '/^h.*$/p' m --只要以h开头就行
h1
h2
h3
h4
[root@oracle ForVMC]# sed -n '/^h*$/p' m --行中有任一多的h，包括空行
--这里没有显示行

.和*是基本的正则式(BRE)元素。

4):基本的元字符(BRE)

. 配置除换行符以外的任一字符，但是不能配置换行符(awk中可以)。    ------awk部分

*匹配任一多个在它前面的字符

[]字符类:
[,]与-在[]中的匹配：
[root@oracle ForVMC]# cat m
]hello-
[root@oracle ForVMC]# grep '^[]cd].*[ba-]$' m
]hello-
[root@oracle ForVMC]# grep '^[]cd].*[-ba]$' m
]hello-
[root@oracle ForVMC]# cat m
[hello-
[root@oracle ForVMC]# grep '^[[cd].*[-ba]$' m
[hello-
就是说如果[,]和-在[]元字符中(些时这两个符号在[]中都有特殊含义),要想把这三个当成是[]成员，则只可以将[,]放在[]最前-放在最后。
匹配[或者]:
[root@oracle ForVMC]# cat m
[hello-.
]yes
[root@oracle ForVMC]# grep '^[][]' m
[hello-.
]yes
另外，所有其它的元字符如果被放在了[]中都将失去元字符的特殊含义，而表示其字面值。
[root@oracle ForVMC]# cat m
[hello-.
]yes
[root@oracle ForVMC]# grep '[.]$' m --这里.被当成字面值
[hello-.
[]在awk中也匹配换行符                                                                ------awk部分

^脱字节，如果不是在[]中就表示行的开始，在[]表示不在[]范围内的。
^在awk中也匹配嵌入的换行符          -------awk部分

$匹配行的结尾
awk中是匹配"字符串"的结尾,即使字符串中有嵌入的换行符    ------awk部分
[root@oracle ForVMC]# cat m
[hello-.
]yes
[root@oracle ForVMC]# grep '\.$' m
[hello-.
[root@oracle ForVMC]# grep '[.]$' m
[hello-.

\{n,m\} 匹配n-m次
记住m是有最大值限制的，可以通过getconf查看相应的最大值。
[root@oracle ForVMC]# cat m
ccababee
mmabdd
[root@oracle ForVMC]# grep '$ab$\{2\}' m
ccababee

\是转义符号，也就是转义以上所有的特殊元字符为其字面值。
[root@oracle ForVMC]# cat m
$
^
.
*
[root@oracle ForVMC]# sed -n '/^\$/p;/^\^/p;/^\./p;/^\*/p' m
$
^
.
*

BRE特殊字符汇总：

. ,[] 匹配字符范围
*,\{n,m\}匹配它前面字符次数
^,$行的头和尾
正则分组，适用于BRE

三类：范围，次数，行头与行尾

5):扩展的元字符(ERE)，awk egrep(grep -E)专用

+ 至少一次,*是至少0次
[root@oracle ForVMC]# cat m
ymmoo
ymoo
yoo
[root@oracle ForVMC]# egrep '^ym+o*$' m
ymmoo
ymoo
普通的grep是不能使用+的：
[root@oracle ForVMC]# grep '^ym+o*$' m
[root@oracle ForVMC]# grep -E '^ym+o*$' m --grep -E=egrep,fgrep=grep -F
ymmoo
ymoo

? 匹配0次或者1次(助记：0?还是1?)
[root@oracle ForVMC]# cat m
mmoo
ymoo
[root@oracle ForVMC]# grep -E '^y?' m
mmoo
ymoo

| 关系或
同样用上面的例子
[root@oracle ForVMC]# grep -E '^y|m?' m
mmoo
ymoo

() 对正则表达式分组
{n,m} 用于POSIX的egrep和POSIX的awk，而不是传统的egrep和awk
[root@oracle ForVMC]# cat m
llmmmmtt
lnmmmll
[root@oracle ForVMC]# gawk -W posix '/(mm){2}/ {print $0}' m
llmmmmtt
--gawk -W posix 启动awk 的posix兼容模式

分类：

+,?次数
| (就两种选择),POSIX的{n,m} 范围
() 正则分组,适用于ERE

6): BRE与ERE一点语法比较

[root@oracle ForVMC]# cat m
llmmmmtt
lnmmmll
[root@oracle ForVMC]# sed -n '/$mm$\{2\}/p' m
llmmmmtt
[root@oracle ForVMC]# gawk '/$mm$\{2\}/ {print $0}' m
[root@oracle ForVMC]# sed -n '/$mm$\{2\}/p' m
llmmmmtt
[root@oracle ForVMC]# gawk '/$mm$\{2\}/ {print $0}' m
[root@oracle ForVMC]# gawk -W posix '/$mm$\{2\}/ {print $0}' m
[root@oracle ForVMC]# gawk -W posix '/(mm){2}/ {print $0}' m
llmmmmtt

当前结论： \{\}(扩展字符)对应() {}(基本元字符)

匹配():

[root@oracle ForVMC]# cat m
ll(mm)(mm)tt
lnmmmll
[root@oracle ForVMC]# gawk -W posix '/($mm$){2}/ {print $0}' m
ll(mm)(mm)tt

sed不可以用\来转义，但是可以用[]来转义
[root@oracle ForVMC]# sed -n '/$\(mm$\)\{2\}/p' m
[root@oracle ForVMC]# sed -n '/$[(]mm[)]$\{2\}/p' m
ll(mm)(mm)tt

7):实践

\\转义自己：
[root@oracle ForVMC]# cat m
\hello
[root@oracle ForVMC]# sed -n '/\\hello/p' m
\hello

intel处理器匹配：

[root@oracle ForVMC]# cat m
8086
80686
80386
80586
[root@oracle ForVMC]# egrep '80[[:digit:]]?86' m
8086
80686
80386
80586

8):形式化的字符类--POSIX

[:alnum:] 字母和数字
[:digit:] 数字
[:alpha:] 字母
[:xdigit:] 十六进制数
[:lower:] [:upper:]
[:punct:]

以上是常用的

[:blank:] 匹配空格和TAB符
[root@oracle ForVMC]# cat m
[root@oracle ForVMC]# sed 'l' m --sed的l参数可以显示出不可打印字符
\t $

\t是制表符，空格没有显示出来$代表行尾

[:graph:] 匹配可见的，不包括空格

[:space:] 空白字符
[:print:] 可打印的，包括空格

[root@oracle ForVMC]# egrep 'h[[:space:]]+e' m
h e
[root@oracle ForVMC]# egrep 'h[[:print:]]+e' m
h e
[root@oracle ForVMC]# egrep 'h[[:graph:]]+e' m

9):单词的匹配

基本正则式(ERE)\<\>的使用

[root@oracle ForVMC]# cat m
hellbookyy
hello books yy
hello book mm
book yy
[root@oracle ForVMC]# sed -n '/\/p' m
hello book mm
book yy
[root@oracle ForVMC]# egrep '\' m
hello book mm
book yy
[root@oracle ForVMC]# awk '/\/ {print $0}' m
hello book mm
book yy

其实\<\>就是字(word)单位的标识，就像vi可以以字为单位移动一样。

10):TAB与空格的匹配

[root@oracle ForVMC]# cat m
\t
\space
[root@oracle ForVMC]# sed -n '/^\t/p' m
\t
[root@oracle ForVMC]# sed -n '/^ /p' m
\space

\把t的字面值转义成了制表符。

显示行后的空格：

[root@oracle ForVMC]# sed -n 's/ *$/$$/p' m
\space$$

11):awk中的^和$          --awk部分

12):号码格式化

[root@oracle ForVMC]# cat m
05506141423
[root@oracle ForVMC]# sed -n 's/$[[:digit:]]\{4\}$$[[:digit:]]\{7\}$/\1-\2/p' m
0550-6141423

13):逻辑或

[root@oracle ForVMC]# cat m
Unix
UNIX
UniX
[root@oracle ForVMC]# egrep 'Unix|UNIX|UniX' m
Unix
UNIX
UniX
[root@oracle ForVMC]# sed -n '/Unix/p;/UNIX/p;/UniX/p' m
Unix
UNIX
UniX

14):正则分组

[root@oracle ForVMC]# cat m
Unix System
Unix
[root@oracle ForVMC]# sed -n '/Unix$ System$\{0,1\}/p' m
Unix System
Unix
[root@oracle ForVMC]# egrep 'Unix( System)?' m
Unix System
Unix

1):注释#
#n代表sed -n

[root@oracle ~]# cat m
Moon
make
[root@oracle ~]# cat sedscr
#n this is a comment
s/m/l/gp
[root@oracle ~]# sed -f sedscr m
lake

2):替换命令的详细语法

[address]s/pattern/replacement/flag

其中flag可选项：

n 值范围1-512 --指定第起次出现
p --打印模式空间
W file --将模式空间的内容写到file中
g --全局标志

替换命令的定界符可以使用除了换行符外所有字符：

[root@oracle ~]# cat m
Moon
make
[root@oracle ~]# sed -n 's^m^o^p' m
oake
[root@oracle ~]# sed -n 's|m|o|p' m
oake

replacement部分只有下面的内容才具有特殊意义，其它的一切都只有字面含义：

& 引用pattern本身
\n 匹配第n个串，和正则分组或者ERE的()配合使用
\ 转义符，通常只转义\本身，&和换行符

[root@oracle ~]# sed -n 's!$Mo$$on$!"\1"\2!p' m
"Mo"on
[root@oracle ~]# sed -n 's!$Mo$$on$!"\1"\ --这里用来转义换行
> \2!p' m
"Mo"
on

综上：sed 的replacement部分特殊的元字符也只有& \ \n三个，其中在\n中n的范围是1-9

3):指定替换第几个,s命令n的作用

[root@oracle ~]# sed -n 'l;s/\t/TAB/2p' m
\t\tMoon$
TABMoon
make$

4):\n回调正则分组

[root@oracle ~]# cat m
abcdefg
[root@oracle ~]# sed -n 's/$a$$b$$c$$d$$e$$f$$g$/\1-\2-\3-\4-\5-\6-\7/p' m
a-b-c-d-e-f-g

5):删除命令d

删除后，模式空间将被清空，所以删除后的命令将不在工作，而是读入下一行。

[root@oracle ~]# cat m
abcdefg
[root@oracle ~]# sed -n 's/a/o/p;/^o/d;p' m
obcdefg

6):追加插入和更改

a(append),i(insert),c(change)

语法：
[address] command\
text

插入是在模式空间前加入内容，追加是在模式空间后，更改是将模式空间内容替换掉。

[root@oracle ~]# sed '/^a/i\
hello' m
hello
abcdefg
[root@oracle ~]# sed '/^a/a\
hello' m
abcdefg
hello

理解a的工作方式：

[root@oracle ~]# cat m
abcdefg

[root@oracle ~]# sed -n '/^a/a\
hello
p
' m

abcdefg
hello

[root@oracle ~]# fc
sed -n '/^a/a\
hello
p
s/h/t/gp' m

abcdefg
hello --只有两行，也就是说hello是在对模式空间运用完所有的命令后，才附加到标准输出内容中的

[root@oracle ~]# fc
sed -n '/^a/a\
hello
p
s/a/t/gp' m

abcdefg
tbcdefg --这一行并不是hello，因为还有命令在处理当前的模式空间
hello --最后附加到标准输出中的

所以可以将a理解为优先级很低的运算符，它通常是最后处理的，不管他出现在什么地方。

i插入也一样：

[root@oracle ~]# sed -n '/^a/i\
> hello
> p
> s/h/t/gp' m
hello
abcdefg

[root@oracle ~]# fc
sed -n '/^a/i\
hello
p
a\
world
s/h/t/gp
s/w/m/gp' m

hello
abcdefg
world

c更改命令更加特殊，它将会把模式空间的内容代替并输出，且运行c命令后模式空间将被清空(这一点和d命令一样)，所以它后续的命令都不起作用了。

[root@oracle ~]# sed -n '/^a/c\
why why why' m
why why why

从上面的结果我们还可以得出一个结论：c命令总是包含一个隐匿打印命令，所以可以把c命令理解为：清空模式空间内容并打印给定字符串。

再回过头看看a和i，其实和c一样，不管你有没有指定p命令，它总是输出所指定的内容的：

[root@oracle ~]# sed -n '/^a/a\
> yes' m
yes

7):列表命令l

[root@oracle ~]# cat m

[root@oracle ~]# sed -n 'l' m
\t\t\t\t$
\t\t\t\t$

l命令可以显示出非可见![[:graph:]]字符。

上面的例子中，m中有两行TAB符，第行4个。

8):替换命令y，类似于shell命令tr

[root@oracle ~]# cat m
abcde
[root@oracle ~]# sed -n 'y/abcde/ABCDE/;p' m
ABCDE

9):打印命令p

主要就是一下：普通的打印命令和作为s替换打印命令的区别。
普通打印就是无条件的打印当前模式空间中的内容，而替换命令中的打印命令必须是s成功发生后再执行。

10):打印行号

[root@oracle ~]# sed -n '/^.*/=' m
1
2
3

类似于awk的NR(Row Number)
[root@oracle ~]# gawk '{print NR " " $0}' m
1 abcde
2 ddeed
3 oommt

且只要你在地址后给出了等号，就一定打印行号，不管你有没有指定p命令。

1):n(next)命令
工作模式：打印当前模式空间内容，并清空后立即读入下一行，且读入下一行后不返回命令头，而是继续应用后面的命令。

[root@localhost ~]# cat m
aaaaa
bbbb
[root@localhost ~]# sed -n '/^a/n;s/b/m/gp' m
mmmm

[root@localhost ~]# sed '/^a/n;s/b/m/g' m
aaaaa
mmmm

如果没有指定-n选项，n操作前先打印当前行。

[root@localhost ~]# sed -n 's/b/m/gp;/^a/n;s/b/m/gp' m
mmmm

[root@localhost ~]# sed -n 's/b/o/gp;/^a/n;s/b/m/gp' m
mmmm

上面两条命令证明了n命令不会从头应用命令，而是直接运用后续的命令。

[root@localhost ~]# cat m
aaaaa
bbbb
oooo

mmmm
[root@localhost ~]# sed '/.*/{
n
/^ *$/d
}' m
aaaaa
bbbb
oooo
mmmm
[root@localhost ~]# cat m
aaaaa
bbbb

mmmm
[root@localhost ~]# sed '/.*/{
n
/^ *$/d
}' m
aaaaa
bbbb

mmmm

上面的实践说明了n命令是成对处理行的，所以如果是基数行，一般要用$!n来替换n，关于$!n可以参考后面的。

2):读和写文件

[root@localhost ~]# cat m
aaaaa
bbbb

mmmm
[root@localhost ~]# cat t
Above is a first
[root@localhost ~]# sed -n '/^a/r t' m
Above is a first

和以前的c,a,i命令一样，不管你有没有指定p命令，都会打印非模式空间中的内容。

题外：尾部替换

[root@localhost ~]# sed -n 's/h$/o/gp' m
mmmmho

3):退出命令q

退出命令会立即从sed退出，退出前不做任何事，包括p打印当前模式空间。

head -10 /etc/passwd==sed -n '11q;p' /etc/passwd

阅读(853) | 评论(0) | 转发(0) |

上一篇：sed高级命令助记

下一篇：awk1line

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6