听课笔记5--文本过滤-wbstsa-ChinaUnix博客

wbstsa

首页　| 　博文目录　| 　关于我

wbstsa

博客访问： 496972
博文数量： 164
博客积分： 4024
博客等级：上校
技术积分： 1580
用户组：普通用户
注册时间： 2009-10-10 16:27

文章分类

全部博文（164）

MyOS（0）
linux内核（0）
小小心情（0）
经验交流（0）
名企面试题（0）
wince（0）

wince+arm（0）
msp430（0）
c/c++（0）
shell编程（0）
linux下c基础编程（0）
未分配的博文（164）

文章存档

2011年（1）

2010年（108）

2009年（55）

我的朋友

最近访客

推荐博文

听课笔记5--文本过滤

分类：

2009-10-21 20:27:32

一。正则表达式

1.一种用来描述文本模式的特殊语法

由普通字符以及特殊字符（称为元字符）组成

匹配的字符串

文本过滤工具在某种模式下都支持正则表达式

2.基本元字符集及其含义

^只匹配行首

$只匹配行尾

*匹配0个或多个单字符

[]只匹配[]内字符，可以是一个单字符，也可以是字符序列。可以使用-表示[]内字符序列的范围如[1-5]

\用来屏蔽一个元字符的特殊含义

.只匹配任意单字符

pattern\{n}只用来匹配前面pattern出现次数。n为次数

patter\{n,\}含义同上，但次数至少为n

pattern\{n,m\}含义同上，但次数在n与m之间

3.使用句点匹配单字符

...x..x..x

drwxrwxrw-不匹配

-rwxrwxrwx匹配

4.行首以^匹配字符或字符串

drwxrwxrw-匹配

-rwxrwxrwx不匹配

5.行尾以$匹配字符串或字符

trouble$--匹配以单词trouble结尾的所有字符

^$--匹配空行

^.$--匹配包含一个字符的行

6.用*匹配单字符或其重复序列

1033*1

10331

1033921

1033AS1

7.用\屏蔽特殊字符

“ ‘ || ^ +等

\*\.pas

正则表达式中匹配以*.pas结尾的所有字符或文件

8.用[]匹配一个范围或集合

逗号将括弧内要匹配的不同字符串分开

用”-“表示一个字符串的范围，表明字符串从-左边字符开始，到-右边字符结束

[a-z]:任意小写字母

[0-9]:任意一个数字

[S,s]:匹配大小写s

9.用\{\}匹配模式结果出现的次数

A\{2\}B:A出现2次AAB

A\{4,}B:A至少出现4次，ＡＡＡＡＢ，ＡＡＡＡＡＢ，。。。。

A\{2,4\}B:出现次数在２和４之间ＡＡＢ，ＡＡＡＢ，ＡＡＡＡＢ

［０－９］\{3\}\.[0-9]\{3\}\.[0-9]\{3\}:匹配IP地址

二。find命令

1.一个查找命令

查找具有某些特征文件的命令

可遍历当前目录甚至于整个文件系统来查找某些文件或目录

遍历大的文件系统时，一般放在后台执行

2.find命令格式

find passname -options [-print -exec -ok]

passname:find命令所查找的目录路径

print：find命令将匹配的文件输出到标准输出

exec：find命令对匹配的文件执行该参数所给出的shell命令，相应命令形式为'command{} \;'

注意{}和\；之间的空格

ok和exec的作用相同，只不过以一种更为安全的模式来执行该参数所给出的shell命令，在执行每一个命令之前都会给出提示让用户来确定是否执行。

3.find命令选项option

-name按文件名查找

-perm按文件权限查找

-user按文件属主查找

-group按文件所属组查找

-mtime -n +n：按照文件的更改时间来查找文件，-n表示文件更改时间距现在n天以内，+n表示文件更改时间距现在n天以前。find命令还有-atime和-ctime选项与-mtime相似。

-size n[c] 查找文件长度为n块的文件，带有c时表示文件长度以字节记。

-nogroup 查找无有效所属组的文件，即该文件所属的组在/etc/groups中不存在。

-nouser 查找无有效属主的文件，即该文件的属主在/etc/passwd不存在。

-newer file1 !file2 查找更改时间比文件file1新，但比文件file2旧的文件

-type 查找某一类型的文件。

b：快设备文件。d 目录。c字符设备文件。p管道文件。l符号链接文件。f普通文件。

4.举例

使用name选项，可以使用某种文件名模式来匹配文件，记住要用引号将文件名模式引起。

find /etc -name "host*" -print

使用perm选项 find .-perm 755 -print

使用user和nouser选项 find `pwd` -user root -print

find `pwd` -nouser -print

nohup find / -nouser -print &

1.使用group和nogroup选项

find ./ -group itlab -print

find ./ -nogroup -print

按照更改时间查找文件

find /var -mtime -5 -print

find /var -mtime +3 -print

查找比某个文件新或旧的文件

find `pwd` -newer "myfile123" / -newer "myfile" -print

使用type选项

find /etc -type d -print

使用size选项

find . -siaze +1000000c -print

find . -size +10 -print

使用depth选项

使用find时，可能希望先匹配所有的文件，再在子目录中查找

find / -name "con.file" -depth -print

用exec或ok来执行shell命令

find . -type f -exec /s -l {} \;

find . -name "*.log" -mtime +5 -ok rm{} \;

-xargs

在使用find命令的-exec选项处理匹配到得文件时，find命令将所有匹配到的文件一起传递给exec，不幸的是，有些系统对能够传递给exec的命令长度有限制，这样在find命令运行几分钟后就会出现益处错误，错误信息通常是“参数列太长”，或“参数列益处”，这就是xargs民两个ingd用处所在，特别是与find命令一起使用。exec会发起多个进程，而xargs不会多个，只有一个

find ./ -perm -7 -print |xargs chmod 0-w

find ./-type f -print |xargs file

三、grep介绍

1.grep是unix和linux中使用最广泛的命令之一。对文本文件进行模式差中啊

2.grep有三种变形

grep：标准grep命令

egrep：扩展grep，支持基本及扩展的正则表达式

fgrep：快速grep

3.grep一般格式为：

grep【选项】基本正则表达式【文件】

字符串参数最好采用双引号括起来，一是以防被误解为shell命令，二是可以用来查找多个单词组成的字符串。

4.grep命令选项

-c只输出匹配行的计数

-i不区分岑大小写（只使用与单字符）

-h查询多文件时不显示温佳宁

-H显示文件名

-l查询多文件时只输出包含匹配字符的文件名

-n显示匹配行及行号

-s不显示不存在或无匹配文本的错误信息

-v显示不包含匹配文本的所有行

5.举例

grep "jenny" *.txt

grep "ort it" *

grep -c "2004" myfile

grep -n "2004" myfile

grep -c "jul" myfile

grep -v "2004:22" myfile

grep "2004:22:50[0-9]" myfile

grep "^[^210]" myfile

grep "H*P" .myfile

grep "[5-8][6-9][0-3]" myfile

grep "4\{2}" myfile

grep "4\{2,}" myfile

grep "4\{2,4}" myfile

grep "^$" myfile

grep "\?" myfile

grep "^d" |sout.txt

grep "^[^d]" |sout.txt

6.grep命令类名

类等价正则表达式

[[:upper:]] [A-Z]

[[:alnum:]] [0-9 a-z A-Z]

[[:lower:]] [a-z]

[[:space:]] [空格或tab键]

[[:digit:]] [0-9]

[[:alpha:]] [a-z A-Z]

grep "5[[:digit:]][[:digit:]]" myfile

四。awk介绍

1.可从文件或字符串中基于指定规则浏览和抽取信息

是一种自解释的编程语言

2.三种调用方式

命令行方式：awk[-F filed -spearator] `command` input files

awk脚本：所有awk命令插入一个文件，并使awk程序可执行，然后用awk命令解释器

作为脚本的首行，以便通过键入脚本名称来调用它

awk命令插入一个单独文件 awk -f awk-script-file input-files

3.awk脚本由各种操作和模式组成

4.模式和动作

模式部分决定动作语句何时触发及触发事件（Begin End）

动作对数据进行处理，放在大括号{}内指明（printer）

5.分隔符、域、和记录

awk执行时，其浏览域标记为$1,$2...$n,这种方法称为域标示，$0为所有域

注意执行时不要混淆符号$和shell提示符$，他们是不同的

6.举例

awk `{print $0}` score.txt|tee score.out

awk `{print$1"\t"$4}`score.txt

awk `BEGIN {print "name maths\n........"}{print $1"\t"$4}

END {"end-of-report"}`score.txt

7.awk中的特殊元字符：+，？

匹配操作符：~，！~

cat score.txt |awk `$0~/218.79.131.96

awk `$0!~/218.79.131.96/ ` score.txt

五、sed介绍

1、sed不与初始化文件打交道，它操作的只是一个拷贝，然后所有的改动如果没有重定向到一个文件，将输出到屏幕。

2、sed是一种重要的文本过滤工具，使用一行命令或者使用管道与grep与awk相结合

3、非交互性文本流ianji

4、调用sed的三种方式

（1）命令行方式：sed【选项】 sed命令输入文件

（2）使用sed脚本：sed【选项】 -f sed脚本文件输入文件

sed 脚本文件【选项】输入文件

不管是使用shell命令行方式或脚本文件方式，如果没有指定输入文件，sed从标准输入中接受输入，一般是键盘或重定向的结果。

5.sed命令选项

n不打印

c下一命令时编辑命令

f如果正在调用sed脚本文件

6、sed在文件中查询文本的方式

（1）使用行号，可以使一个简单数字，或是一个行号范围

（2）使用正则表达式

x x为一个行号

x，y 表示行号范围从x到y

/pattern/ 查询包含模式的行

/pattern/pattern/ 查询包含两个模式的行

pattern/,x 在给定行号上查询包含模式的行

x，/pattern/ 通过行号和模式查询匹配行

x，y! 查询不包含指定行号x和y的行

7、基本sed编辑命令

p 打印匹配行

=显示文件行号

a\ 在定位行号后附件新文本信息

i\ 在定位行号后插入新文本信息

d 删除定位行

c\ 用新文本替换定位文本

s 使用替换模式替换相应模式

r 从另一个文件中读文本

w 写文本列到一个文件

q 第一个模式匹配完后退出或立即退出

l 显示与八进制ascii等价的控制字符

{} 在定位行执行的命令组

n 从另一个文件读文本下一行，并附加在下一行

g 将模式2黏贴到/pattern1

y 传送字符

8.举例

sed '2p' score.txt

sed -n '2p' score.txt

sed -n '1,4p' score.txt

sed -n '/los/' myfile.txt

sed -n '4,/los/' myfile.txt

sed -n '/^$/=' myfile.txt

sed -n -e'/^$/p' -e'/^$/='myfile.txt

sed -n '/abc/a\ww' myfile.txt

.............i\.............

.............c\............

sed '1,2d' myfile.txt

sed 's/abc|g' myfile.txt

sed -n 's/abc|& hello|p' myfile.txt

sed 'lr ctrl.txt' myfile.txt

sed '/china|q' myfile.txt

............l............

六。合并与分割

1.sort [options] files

(1)许多不同的域按不同的列顺序分类

-c测试文件是否已经分类

-m合并两个分类文件

-u删除所有复制行

-o存储sort结果的输出文件名

-t域分隔符；用非空格或tab键分割域

+n n为域号，使用此域号开始分类

-n指定分类是域上的数字分类值

-r比较逆序

（2）sort -c myfile

-u

-r

sort -t "/"+2 myfile

sort -t "/"+2n myfile

2.uniq [options] files

从一个文本文件中去除或禁止重复行

-u只显示不重复行

-d只显示有重复数据行，每种重复行只显示其中一行

-c打印每一重复行出现次数

-f n n为数字，前n个域被忽略

uniq -c myfile.txt

-f 2

3.join

join [options] file1 file2

用来将来自两个分类文本文件的行连在一起

-an,n为一数字，用于连接时从文件n中显示不匹配行

-o n.m连接域，n为文件号，m为域号

-j n m,n为文件号，m为域号，使用其他域做连接域

t域分隔符，用来设置非空格或tab键的域分隔符

join -a1 -a2 address.txt town

join -o 2.2,1.1 address.txt town

4.split

split用来将大文件分割成小文件

split -output_file-size input-filename output-filename

-b n，每个分割文件的大小n(k,m)

-c n,每个分割文件的一行最多n字节

-l n,每个分割文件的行数

-n,同-l n

split -10 ls_out.txt split

5.cut

用来从标准输入或文本中剪切列域

6.paste

将按行将不同文件行信息放在一行

阅读(788) | 评论(0) | 转发(0) |

上一篇：听课笔记4--控制流结构

下一篇：听课笔记6--shell 函数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6