《LINUX与UNIX SHELL编程指南》笔记2__分文本过滤-piaoyizu-ChinaUnix博客

随风...embed.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

piaoyizu

博客访问： 2159208
博文数量： 288
博客积分： 10594
博客等级：上将
技术积分： 3469
用户组：普通用户
注册时间： 2006-10-27 19:27

文章分类

全部博文（288）

Camera（2）
Embeddeb（145）

GStreamer（1）

Android（13）

Kernel study（9）

嵌入式环境（24）

Wince Developmen（2）

Driver study（55）

Basic study（41）
工作相关记录（49）

管理类资料（7）

技术类资料（42）
心情随笔（11）
English（8）
Bash脚本相关（21）
Linux C开发（52）
未分配的博文（0）

文章存档

2012年（4）

2011年（30）

2010年（40）

2009年（32）

2008年（71）

2007年（79）

2006年（32）

我的朋友

相关博文

《LINUX与UNIX SHELL编程指南》笔记2__分文本过滤

分类： LINUX

2012-03-01 11:19:41

第二部分文本过滤
第7章正则表达式(RE)介绍
1.在行首以^匹配字符串或字符序列
^ :允许在一行的开始匹配字符或单词.
eg: ^..1匹配0011cx4；^com.ing匹配comming；^d..x..x..x匹配drwxr-xr-x

2.在行尾以$匹配字符串或字符
$ :在行尾匹配字符串或字符， $符号放在匹配单词后
eg: trouble$匹配以单词trouble结尾的所有行；^$匹配所有空行

3.使用*匹配字符串中的单字符或其重复序列
* :一个单字符后紧跟*，匹配0个或多个此单字符
eg: compu*t将匹配字符u一次或多次:computer computting compuuute

4.使用[]匹配一个范围或集合
[ ] :匹配[ ]内字符。可以是一个单字符，也可以是字符序列。可以使用-表示[ ]内字符序列范围，用[1-5]代替[12345]。可以用逗号将括弧内要匹配的不同字符串分开。^符号当直接靠着[，意指否定或不匹配括号里内容
eg: [0-9]任意一个数字；[a-z]任意小写字母；[0-9A-Za-z]任意字母或数字
[C,c]omputer匹配Computer和computer；[^a-zA-Z]匹配任一非字母型字符

5.使用屏蔽一个特殊字符的含义
:用来屏蔽一个元字符的特殊含义。因为有时在shell中一些元字符有特殊含义。可以使其失去应有意义
eg: *.pas在正则表达式中匹配以*.pas结尾的所有文件

6.使用句点匹配单字符
. :匹配任意单ASCII字符,可以为字母，或为数字
eg: ..XC..匹配deXC1t；.w..w..w.匹配rwxrw-rw-

7.使用{}匹配模式结果出现的次数
pattern{n}    :用来匹配前面pattern出现次数。n为次数
pattern{n,}   :含义同上，但次数最少为n
pattern{n,m} :含义同上，但pattern出现次数在n与m之间
eg:A{2}B匹配值为AAB；A{2,}B，可以得结果AAB或AAAAAAB，但不能为AB。
   A{2,4}B,则结果为AAB、AAAB、AAAAB，而不是AB或AAAAAB等。
   [0-9]{4}XX[0-9]{4},匹配:数字出现4次,后跟XX,最后是数字出现4次

8.经常使用的正则表达式举例
[Ss]igna[lL]    匹配单词signal、signaL、Signal、SignaL
[Ss]igna[lL]. 同上，但加一句点
^USER$          只包含USER的行
.              带句点的行
^d..x..x..x     对对用户、用户组及其他用户、组成员有可执行权限的目录
^[^l]           排除关联目录的目录列表
.*0             0之前或之后加任意字符
000*            000或更多个
[yYnN]          大写或小写y或n
^.*$            匹配行中任意字符串
^......$        包括6个字符的行
[a-zA-Z]        任意单字符
[a-z]*          至少一个小写字母
[^0-9$]        非数字或美元标识
[123]           1到3中一个数字
^q             以^q开始行
^.$             仅有一个字符的行
^.[0-9][0-9]   以一个句点和两个数字开始的行
[0-9]{2}-[0-9]{2}-[0-9]{4} 日期格式dd-mm-yyyy
[0-9]{3}.[0-9]{3}.[0-9]{3}.[0-9]{3}                IP地址格式nnn.nnn.nnn.nnn
.*              匹配任意多个字符

第8章 grep家族
9.grep(全局正则表达式版本) 允许对文本文件进行模式查找,输出匹配的行
一般格式：grep [选项] 基本正则表达式 [filen1 [file2 ...]]
基本正则表达式:可为字符串或变量名,在grep命令中输入字符串参数时，最好将其用双引号括起来。在调用变量时，也应该使用双引号。在调用模式匹配时，最好使用单引号。
常用的grep选项有：
-c 只输出匹配行的计数。
-i 不区分大小写（只适用于单字符）。
-h 查询多文件时不显示文件名。
-l 查询多文件时只输出包含匹配字符的文件名。
-n 显示匹配行及行号。
-s 不显示不存在或无匹配文本的错误信息。
-v 显示不包含匹配文本的所有行
查询多个文件:可以使用*。 eg: grep "sort"*.doc; grep "sort it" *
精确匹配: 在抽取字符串后加 >。
eg: grep "48>" filename 可以抽取48、1248、c48等尔不能抽取481、c480等

10.grep和正则表达式使用正则表达式时最好用单引号括起来
匹配空行: grep -n '^$' myfile
grep允许使用国际字符模式匹配或匹配模式的类名形式
[[:upper:]] 等价于 [A-Z]
[[:lower:]] 等价于 [a-z]
[[:digit:]] 等价于 [0-9]
[[:alnum:]] 等价于 [0-9a-zA-Z]
[[:space:]] 等价于空格或tab键
[[:alpha:]] 等价于 [a-zA-Z]
grep命令用于查看系统信息
ls -l | grep '^d'
grep "df620" /etc/passwd
ps ax | grep "httpd" | grep -v "grep"

第9章 AWK介绍
......

第10章 sed用法介绍
sed是一个非交互性文本流编辑器。它编辑文件或标准输入导出的文本拷贝。标准输入可能是来自键盘、文件重定向、字符串或变量，或者是一个管道的文本。可以在命令行输入sed命令，也可以在一个文件中写入命令，然后调用sed。sed并不与初始化文件打交道，它操作的只是一个拷贝，然后所有的改动如果没有重定向到一个文件，将输出到屏幕。因为sed是一个非交互性编辑器，必须通过行号或正则表达式指定要改变的文本行。
16.sed怎样读取数据
sed从文件的一个文本行或从标准输入的几种格式中读取数据，将之拷贝到一个编辑缓冲区，然后读命令行或脚本的第一条命令，并使用这些命令查找模式或定位行号编辑它。重复此过程直到命令结束

17.调用sed的三种方式
在命令行键入命令:   sed [选项] 'sed命令' 输入文件
sed选项：-n :不打印到标准输出
          -f sed脚本 :指定sed脚本
          -e :执行sed命令
'sed命令': '[address]sed编辑命令'
将sed命令插入脚本文件，然后调用sed:   sed [选项] -f sed脚本文件输入文件
将sed命令插入脚本文件，并使sed脚本可执行: sed脚本文件格式：
      #!/bin/sed -f
      sed命令
      sed命令
      ...

18.sed在文件中定位文本的方式 [address]
x                     x为一行号，如5
x,y                   表示行号范围从x到y，如2,5表示从第2行到第5行
/pattern/             查询包含模式的行。例如/disk/或/[a-z]/
/pattern/pattern/     查询包含两个模式的行。例如/disk/disks/
/pattern/,x           在给定行号上查询包含模式的行。如/ribbon/,3
x,/pattern/           通过行号和模式查询匹配行。3,/vdu/
x,y!                  查询不包含指定行号x和y的行。1,2!

19.sed编辑命令
p   :打印匹配行 eg:sed '1,3p' quote.txt
=   :显示文件匹配行行号 eg:sed -n '/music/=' quote.txt
a :在指定行后附加新文本信息，多用于脚本。
     格式如： [address]a
              textline1
              textline2
              .....
              textlineN
i   :在指定行前插入新文本信息，格式同a
d    :删除定位行 eg:sed '3,$d' quote.txt
c   :用新文本替换定位文本,格式同a
s    :用模式replacement替换模式pattern，格式:
[address]] s/pattern/replacement/[g p w n]
    替换选项如下：
    g :缺省情况下只替换第一次出现模式，使用g选项替换全局所有出现模式。
    p :缺省sed将所有被替换行写入标准输出，加p选项将使-n选项无效。-n选项不打印输出结果。
    w 文件名 :使用此选项将输出定向到一个文件。
如果要附加或修改一个字符串，可以使用&命令，&命令保存发现模式以便重新调用它，然后把它放在替换字符串里面: eg:sed -n 's/nurse/"Hello" &/p' quote.txt 等效于nurse前插入Hello单词。
r    :从另一个文件中读文本附加到指定的行后 eg:sed '/company/r sedex.txt' quote.txt
w    :写文本到一个文件 eg:sed '1,2 w filedt' quote.txt
q    :第一个模式匹配完成后退出sed,以便执行其他处理脚本
l    :显示与八进制ASCII代码等价的控制字符,格式：[address]l
{ } :在定位行执行的命令组
n    :从另一个文件中读文本下一行，并附加在下一行
g    :将模式2粘贴到/pattern n/
y    :传送字符
n    :延续到下一输入行；允许跨行的模式匹配语句

20.如何输入控制字符(如回车、Esc、F1等)
Ctrl＋V,然后释放上述2个键，安Enter回车键(以输入回车为例)

21.在sed命令中使用shell变量(自定义变量,而不应是shell环境变量)
在sed命令中使用shell变量时,应使用双引号，否则不能得到期望的结果。
eg:REPLACE="COMPANY" ; sed "s/company/$REPLACE/g" quote.txt

22.一些一行命令集。（[]表示空格， [ ]表示tab键）
's/.$//g'        删除以句点结尾行
'/abcd/d'         删除包含abcd的行
's/[][][]*/[]/g' 删除一个以上空格，用一个空格代替
's/^[][]*//g'     删除行首空格
's/.[][]*/[]/g' 删除句点后跟两个或更多空格，代之以一个空格
'/^$/d’          删除空行
's/^.//g'         删除第一个字符
's/^///g'        从路径中删除第一个/
's/[]/[]/[ ]/g’ 删除所有空格并用t a b键替代
'S/^[ ]//g’      删除行首所有t a b键

第11章合并与分割
23.sort的用法
usage: sort [sort选项] [file ....]
sort命令的操作可以分为3种模式，排序(默认模式)、合并(-m选项)、检查排序(-c选项)

24.sort的字段设定与输出选项
-o out-file :指定输出文件，输出文件可以时输入文件之一
-t 分隔符    :设定字段分隔符，分隔符为空格或tab时不需要此选项
-u           :检查指定域的唯一性(不重复)(检查排序模式)，或去除域重复的行(排序、合并模式下)
+pos         :pos为域号。在排序时忽略此域，一般与+pos一起使用(pos从0开始计算)
-pos      :不使用指定的域来排序(pos=0.1.2...n，pos从0开始计算)
-k pos1,[pos2] :(域号pos1注:+或k选项的pos可以是F.C格式，即域号.起头字符位置(+和k的FC计算分别从0和1开始，同上)
   +、-k选项可以多次使用。eg: sort +0 -2 +3 video.txt
   sort -t: +2n video.txt 完全等效于 sort -t: -k3,3n video.txt
   将file1文件排序后重写到file1，应使用sort -o file1 file1,而不能用重定向sort file1 >file1

25.sort的数据排序选项
-n :当指定位置上是数字字符时，按数值大小来排序，而不是逐字符比较
-b :忽略前置空白
-r :颠倒输出排序的结果(即逆序输出)

26.sort用于合并2个排序文件(将文件合并前，它们必须已被排序)
usage：sort -m [-o 输出文件] [选项] file1 file2
当省略-o选项时，sort将file1 file2合并排序后重写到file2中
缺省用第一个字段来进行合并排序(+0)，也可以使用字段设定选项来指定字段进行合并排序

27.uniq 从一个文本文件中去除或禁止重复行
uniq [选项] [input [output]]
选项:
-u   只显示不重复行。
-d   只显示有重复数据行，每种重复行只显示其中一行
-c   打印每一重复行出现次数。
-fx x为数字(x=0.1...)，比较时忽略每行的前x个域,与-x等效。有的系统使用-nx选项
-i   忽略字母的大小写
-sx 从第x个字符处开始比较(x=1.2..),与+x等效。与-fx连用时，优先级低于-fx选项
注意:
一般uniq假定文件已分类。但uniq并不强制要求如此，也可以使用任何非排序文本，甚至是无规律行
uniq不同于sort的-u选项，uniq认为持续不断重复出现的行(中间不包括其它文本)才是重复行

28.join 将来自两个递增排序文本文件的行连在一起
join [选项] file1 file2
输入文件中的域通常由空格或tab键分隔，也可以指定其他的域分隔符。
join在执行时会在2个输入文件的行中寻找具有相同join字段，输出行的字段间以一个空格隔开，每一个输出行上包括join字段、file1内其余字段以及file2内的其余字段。2个输入文件应该都已经对join字段作了递增排序，每个文件的join字段默认为文件的第1个字段，也可以自己指定文件的join字段。

29.join选项
-ax   :将文件编号为x(x=1.2)的文件中未被匹配连接的行打印出来
-o x.y[,x.y,...] :在输出中只打印文件x的第y(y=1.2...)个字段
-j m :指定2个文件都用第m(m=1.2...)个字段作为join字段
-j1 m 或 -1 m :指定文件1使用第m(m=1.2...)个字段作为join字段
-j2 m 或 -2 m :指定文件2使用第m(m=1.2...)个字段作为join字段
-t char        :指定char为输入输出字段的分隔符
-i    :忽略字母的大小写
-vx   :只打印文件x(x=1.2)中未被匹配连接的行

30.cut 从标准输入或文本文件中剪切列或域
cut [options] file1[ file2 ...]
可用选项:
-d char    :指定char为字段分隔符
-f 字段列表 :用数字列表指定要剪切的字段,列表可以是多个数字或区间(m-n),用","分割
       -m表示1-m，n-表示从n到最末。数字都是从1开始编号。
-c 字符列表 :数字列表指定要剪切的字符位置，列表格式同上。
- (无file时) :当cut没有指定输入文件时，-表示使用标准输入作为输入源

31.paste 将每个输入文件作为一列粘贴起来输出
paste [options] file1 file2 ...
将每个文件的第x行粘贴成paste标准输出的第x(x=1..)行输出。文件名位置表示列的先后
选项:
-d char   :指定char作为字段分隔符。例如用@分隔域，使用-d@。
-s        :将每个文件的内容作为一行输出，有n个输入文件就输出n行。
-   :没有指定输入文件时，-表示使用标准输入作为输入源

32.split 用来将大文件分割成小文件
split [输出文件尺寸选项] input-filename [输出文件前缀]
输出文件尺寸选项(split预设为1000行)
-x、-lx、--lines=x :每x行生成一个新的输出文件
-b n、--bytes=n :每n字节生成一个新的输出文件,可以用后缀b k m表示以block KB MB为单位
输出文件前缀:
每个生成的输出文件的格式为x[aa]到x[zz]，文件前缀x可指定， [aa]..为文件名后缀
其他选项:
- :没有指定输入文件时，-表示使用标准输入作为输入源
--verbose :每生成一个新的输出文件时，就打印一行信息到标准错误

33.tr 用来从标准输入中通过替换或删除操作进行字符转换,然后打印输出到标准输出
Usage: tr [OPTION] String1 [String2] (可以使用管道、重定向来指定输入或输出文件名)
常用选项:
-d string1 :对于在字符串string1中出现的字符，将被删除
-s string1 :对于在字符串string1中出现的字符，如果其在输入中连续重复出现则该字符重复的部分将被删去(压缩为一个字符)
-t :在tr的替换模式中，如果string1字符串长度大于string2，则string1的超长部分被忽略(System V方式)
字符串string可以是:
ASCII可打印字符(字母、数字): eg: asd [asd] "asd" 'asd' "[asd]" .. (等效)
3位8进制表示的ASCII字符 : eg: [64] "64" '64' "[64]" .. (等效)
特定控制字符的表示 : (逃逸字符)

字符区间      :eg: a-z [a-z] "a-z" .. (等效)
简写字符集合 :eg: [:alnum:] 所有字母和数字; [:alpha:] 所有字母;.....
[CHAR*n]   :表示匹配n个CHAR字符
[CHAR*]    :用于替换模式下的string2，表示CHAR重复足够多次，以使string1和string2长度相等
tr的压缩重复模式: tr -s string1
tr的字符删除模式: tr -d string1
tr的字符替换模式: tr [-t] string1 string2 (把string1的第n个字符替换为string2的第n个字符)
如果字符串string1的长度小于string2的长度，则string2的多余部分将被忽略。
如果字符串string1的长度大于string2的长度，则有2种处理方式:
    BSD方式:重复string2的最后一个字符，使得string2的长度等于string1的长度 (Gnu tar的默认方式)
    System V方式:截去string1的超长部分。 (Gnu tar 加-t选项时)
注1:-s和-d选项可以同时使用: tr -sd string1 string2
       表示先用string1进行删除操作，然后用string2进行压缩重复操作
注2:tr主要用于字符转换或者抽取控制字符。本章所有功能都可以用sed来完成，但有些人宁愿使用tr，因为tr更加快捷、容易。

阅读(2389) | 评论(0) | 转发(0) |

上一篇：[转]手工释放linux内存——/proc/sys/vm/drop_caches

下一篇：Android 4.0 Camera架构分析之Camera初始化

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6