第15章 文本过滤器
head [ -n lines ] files 例如: head -5 files
用以显示文件的前n行,但有些系统会少显示一行
ls -lut /home/****/putd | head -5
将文件夹 putd 下的文件按访问频繁次数排列,然后显示前5行
tail [ -n lines ] files
用以显示文件的后n 行
ls -lt /home/***/putd | tail -5
将文件夹 putd 下的文件按最后修改时间排序(-t),然后显示最后5行
然而这样是显示最旧的五行,可以,将其逆序排列(-r),或者使用head
ls -ltr /home/***/putd | tail -5
tail -f file
选项 -f 可以使得当程序在写一个文件是,读取文件的最后几行,如运行文件的日志,
但是该命令使得机器的负载增高,不太推荐。
tail -f /var/log/httpd/access_log
查看指向系统的HTTP的请求。
使用 grep
用于查找一个或多个文件中包含某一个词或者短语的行
grep word filename_1 filename_2.....
grep默认区分大小写。
grep -i word filename_1 filename_2 ...
查找不包含特定内容somebody的,即取其补集
grep -v somebody filename
增加行号
grep -n .....
只显示文件名
grep delete /home/****
但是此种方法,却会显示重复的内容
grep -l delete /home/***
仅列出表单
怎样数文件中的单词----比如文件 ch15.doc
tr命令(transliterate的缩写)把一组字符转化为第二组字符
tr 'set1' 'set2'
sort 命令把一个输入文件中的行进行排序
uniq命令(unique的缩写)打印一个文件中所以的唯一一行
第一步---除掉文中所有的标点和分隔符:
有些单词用标点符号分隔
tr '! ? " : ; \[ \] { } ( ) , . ' ' ' < ch15.doc
有些单词用制表符(\t),回车(\n)分隔单词,
所以将 \t \n也添加至上面的命令
tr '! ? " : ; \[ \] { } ( ) , . \t \n ' ' ' < ch15.doc
第二步---将文中的大写字符替换成小写字符
tr '! ? " : ; \[ \] { } ( ) , . \t \n ' ' ' < ch15.doc | tr 'A-Z' 'a-z'
该命令的前一部分输入是ch15.doc,后一部分的输入是前一部分的输出
第三步---压缩文中的空格
将多个重复字符压缩为一个
tr -s 'set1' ,例如,echo "feed me" | tr -s 'e'
输出
fed me
推广一下,可以同时压缩多个字符
tr -s 'lm' 可以将输入内容中的字母 l , m同时压缩
再在第二步中的命令后加上压缩空格的命令,则形成如下命令
tr '! ? " : ; \[ \] { } ( ) , . \t \n ' ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' '
第四步--对文件中的行进行排序
为了对文件中的行进行排序,需要将所有的单词独占一行,那么需要增加命令
tr ' ' '\n'即将空格替换为换行符,继而对问件排序:
tr '! ? " : ; \[ \] { } ( ) , . \t \n ' ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' ' | tr ' ' '\n' | sort
第五步--保留唯一一行同时排序数字
uniq命令只保留重复行中的一行, -c 选项可以打印一个字符出现的次数
tr '! ? " : ; \[ \] { } ( ) , . \t \n ' ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' ' | tr ' ' '\n' | sort | uniq -c
同时为了将结果按单词次数由多至少排列下来,则序再排序。另外,输出最多的10个
tr '! ? " : ; \[ \] { } ( ) , . \t \n ' ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' ' | tr ' ' '\n' | sort | uniq -c | sort -rn | head
另外tr可以理解的一些字符类如下
alnum 字母和数字
alpha 字母
blank 空格(水平的)
cntrl 控制字符
digit 数字
graph 可印刷字符,不包括空格
lower 小写字母
print 可印刷字符,包括空格
punct 标点符号
space 空格(水平和垂直的)
upper 大写字母
xdigit 十六进制数字
使用方法
tr ' [:classname:] ' 'set1'
比如 tr ' [:punct:] ' ' '
测试了一下,对于openoffice文件 .odt 貌似不太起作用
第16章 正则表达式过滤文本
正则表达式由元字符和普通字符组成。普通字符包括字母,数字,下划线或空格
元字符包括如下几类:
. 可代替除一行之外的任何单个字符
* 可代替零个或多个在它前面出现的字符
[chars] 可代替chars中的任何一个字符,chars 是一串字符序列。可以用-符号来定义一个字符范围
同时,如果^是chars中的第一个字符,那么将匹配没有在chars中指定的字符 [A-Z]
^ 匹配一行的开头 如:[^[Tt]he]
$ 匹配一行的结尾 [friend$]
\ 把\ 后面的字符照常输出,通常用来转义一个元字符 [\$]
一些有用的正则表达式
空白行 /^$/
一整行 /^.*$/
一个或多个空格 /*/
HTML或(XML)标记集 /<[^>][^>]*>/
有效的URL /[a-zA-Z][a-zA-Z]*: \/\/[a-zA-Z0-9][a-zA-Z0-9\.]*.*/
格式化的美元数 /\$[0-9]*\.[0-9][0-9]/
使用 sed
sed '/pattern/ action' file
' '为pattern正则表达式
action 为操作,有三种
p 打印
d 删除
s 替换
x下面是书中的一个例子
fruite_price.文件内容
Fruit Price/lbs
Banana 0.89
Paech 0.79
Kiwi 1.50
Pineapple 1.29
Apple 0.99
Mango 2.20
things that are eqal to the same thing are eqal to each other
代码
#!/bin/sh
#打印低于1美元的水果单价表
sed '/0.[0-9][0-9]$/p ' fruit_prices
#默认的sed针对打印操作,对于输入的每一行都进行打印一次
#然后对符合正则表达式的内容行,再打印一次。
#为了撤销这个操作,可以加上选项-n
echo " now,we add choice \"-n\" "
sed -n ' /0.[0-9][0-9]$/p ' fruit_prices
#测试删除操作,不需加选项
#为了更新文件,需要引入临时文件,一般在其后最名加为$$
mv fruit_prices fruit_prices$
sed ' /^[Mm]ango/d ' fruit_prices$ > fruit_prices
echo
cat fruit_prices$
rm fruit_prices$
#测试替代操作,也不需要加选项-n
#需要注意其中有三个左斜杠
sed 's/Paech/Peach/' fruit_prices
#像上述命令只能替换一行中的第一处错误,如果替换一行中的所有错误
#需要增加选项-g
sed 's/eqal/equal/g' fruit_prices
#s命令提供了&操作,使得可以在匹配串中重复使用
#在价格数字前面增加美元的符号
#在ubuntu上下面的命令居然不可以啊,还是有什么错误???
sed 's/*[0-9][0-9]*\.[0-9][0-9]$/\$&/' fruit_prices
#用选项 -e 可以连接多个命令。
#sed 's/Paech/Peach/' -e 's/eqal/equal/g' fruit_prices
cat fruit_prices
#当然也可以在管道中使用sed,将管道的输出内容,作为sed的输入
#end
阅读(1446) | 评论(0) | 转发(0) |