Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1486444
  • 博文数量: 842
  • 博客积分: 12411
  • 博客等级: 上将
  • 技术积分: 5772
  • 用 户 组: 普通用户
  • 注册时间: 2011-06-14 14:43
文章分类

全部博文(842)

文章存档

2013年(157)

2012年(685)

分类: LINUX

2012-05-12 21:18:37

(2012-05-09 10:54) 一键转载
标签shell  学习  文本  分类: Linux学习


 第15章 文本过滤器


head [ -n lines ] files 例如: head -5 files
用以显示文件的前n行,但有些系统会少显示一行

ls -lut /home/****/putd | head -5
将文件夹 putd 下的文件按访问频繁次数排列,然后显示前5行

tail [ -n lines ] files 
用以显示文件的后n 行

ls -lt /home/***/putd | tail -5
将文件夹 putd 下的文件按最后修改时间排序(-t),然后显示最后5行
然而这样是显示最旧的五行,可以,将其逆序排列(-r),或者使用head

ls -ltr /home/***/putd | tail -5

tail -f file 
选项 -f 可以使得当程序在写一个文件是,读取文件的最后几行,如运行文件的日志,
但是该命令使得机器的负载增高,不太推荐。

tail -f /var/log/httpd/access_log
查看指向系统的HTTP的请求。


使用 grep
用于查找一个或多个文件中包含某一个词或者短语的行
grep word filename_1 filename_2.....

grep默认区分大小写。
grep -i word filename_1 filename_2 ...

查找不包含特定内容somebody的,即取其补集
grep -v somebody  filename

增加行号
grep -n .....

只显示文件名

grep delete /home/****
但是此种方法,却会显示重复的内容
grep -l delete /home/***
仅列出表单


怎样数文件中的单词----比如文件  ch15.doc

tr命令(transliterate的缩写)把一组字符转化为第二组字符
tr    'set1'    'set2'

sort 命令把一个输入文件中的行进行排序

uniq命令(unique的缩写)打印一个文件中所以的唯一一行

第一步---除掉文中所有的标点和分隔符:
有些单词用标点符号分隔
tr '! ? " : ; \[ \] { } ( ) , . '   ' ' < ch15.doc
有些单词用制表符(\t),回车(\n)分隔单词,
所以将 \t \n也添加至上面的命令
tr '! ? " : ; \[ \] { } ( ) , . \t \n '   ' ' < ch15.doc

第二步---将文中的大写字符替换成小写字符
tr '! ? " : ; \[ \] { } ( ) , . \t \n '   ' ' < ch15.doc | tr 'A-Z' 'a-z'
该命令的前一部分输入是ch15.doc,后一部分的输入是前一部分的输出

第三步---压缩文中的空格
将多个重复字符压缩为一个
tr -s  'set1' ,例如,echo "feed me" | tr -s 'e'
输出 
fed me
推广一下,可以同时压缩多个字符
tr -s 'lm' 可以将输入内容中的字母 l , m同时压缩
再在第二步中的命令后加上压缩空格的命令,则形成如下命令
tr '! ? " : ; \[ \] { } ( ) , . \t \n '   ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' '

第四步--对文件中的行进行排序
为了对文件中的行进行排序,需要将所有的单词独占一行,那么需要增加命令
tr ' ' '\n'即将空格替换为换行符,继而对问件排序:
tr '! ? " : ; \[ \] { } ( ) , . \t \n '   ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' ' | tr ' ' '\n' | sort 

第五步--保留唯一一行同时排序数字
uniq命令只保留重复行中的一行,  -c 选项可以打印一个字符出现的次数
tr '! ? " : ; \[ \] { } ( ) , . \t \n '   ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' ' | tr ' ' '\n' | sort | uniq -c
同时为了将结果按单词次数由多至少排列下来,则序再排序。另外,输出最多的10个
tr '! ? " : ; \[ \] { } ( ) , . \t \n '   ' ' < ch15.doc | tr 'A-Z' 'a-z' | tr -s ' ' | tr ' ' '\n' | sort | uniq -c | sort -rn | head

另外tr可以理解的一些字符类如下
alnum 字母和数字
alpha 字母
blank 空格(水平的)
cntrl 控制字符
digit 数字
graph 可印刷字符,不包括空格
lower 小写字母
print 可印刷字符,包括空格
punct  标点符号
space 空格(水平和垂直的)
upper 大写字母
xdigit 十六进制数字

使用方法
tr ' [:classname:] ' 'set1'
比如 tr ' [:punct:] '   ' '

测试了一下,对于openoffice文件 .odt 貌似不太起作用


第16章 正则表达式过滤文本

正则表达式由元字符和普通字符组成。普通字符包括字母,数字,下划线或空格
元字符包括如下几类:
.         可代替除一行之外的任何单个字符
*         可代替零个或多个在它前面出现的字符
[chars]  可代替chars中的任何一个字符,chars 是一串字符序列。可以用-符号来定义一个字符范围
同时,如果^是chars中的第一个字符,那么将匹配没有在chars中指定的字符  [A-Z]
^        匹配一行的开头 如:[^[Tt]he]
$        匹配一行的结尾   [friend$]
\         把\ 后面的字符照常输出,通常用来转义一个元字符  [\$]

一些有用的正则表达式

空白行   /^$/
一整行   /^.*$/
一个或多个空格  /*/
HTML或(XML)标记集  /<[^>][^>]*>/
有效的URL  /[a-zA-Z][a-zA-Z]*: \/\/[a-zA-Z0-9][a-zA-Z0-9\.]*.*/
格式化的美元数  /\$[0-9]*\.[0-9][0-9]/


使用 sed

sed '/pattern/ action' file

' '为pattern正则表达式
action 为操作,有三种
p 打印
d 删除
s 替换

x下面是书中的一个例子

fruite_price.文件内容

Fruit     Price/lbs
Banana 0.89
Paech 0.79
Kiwi 1.50
Pineapple 1.29
Apple 0.99
Mango   2.20

things that are eqal to the same thing are eqal to each other

代码
#!/bin/sh

#打印低于1美元的水果单价表
sed '/0.[0-9][0-9]$/p ' fruit_prices
#默认的sed针对打印操作,对于输入的每一行都进行打印一次
#然后对符合正则表达式的内容行,再打印一次。
#为了撤销这个操作,可以加上选项-n
echo " now,we add choice \"-n\" "
sed -n ' /0.[0-9][0-9]$/p ' fruit_prices

#测试删除操作,不需加选项
#为了更新文件,需要引入临时文件,一般在其后最名加为$$
mv fruit_prices fruit_prices$
sed ' /^[Mm]ango/d ' fruit_prices$ > fruit_prices
echo 
cat fruit_prices$
rm fruit_prices$

#测试替代操作,也不需要加选项-n
#需要注意其中有三个左斜杠
sed 's/Paech/Peach/' fruit_prices

#像上述命令只能替换一行中的第一处错误,如果替换一行中的所有错误
#需要增加选项-g
sed 's/eqal/equal/g' fruit_prices

#s命令提供了&操作,使得可以在匹配串中重复使用
#在价格数字前面增加美元的符号
#在ubuntu上下面的命令居然不可以啊,还是有什么错误???
sed 's/*[0-9][0-9]*\.[0-9][0-9]$/\$&/' fruit_prices

#用选项 -e 可以连接多个命令。
#sed 's/Paech/Peach/' -e 's/eqal/equal/g' fruit_prices
cat fruit_prices
#当然也可以在管道中使用sed,将管道的输出内容,作为sed的输入
#end
5.1.2输出重定向
输代码时,要记得命令与大括号{}和重定向>> >之间要有空格
例如:{ date;who am i; ls -F; } >> now
将输出重定向到文件和屏幕
cmd | tee file
这条命令,经测试,在我现在使用的系统ubuntu-bash下,只能重定向,而不是追加。
所以,如果原文件内有一些重要的东西,最好不要这么搞。

5.2.1 输入重定向
cmd < file 在这里,文件file的内容将作为命令cmd的输入 如
Mail peijian@shenzhen.edu < English.doc
不太理解的是下面这部分,----当前文档(here documents)
cmd << delimiter
??

5.2.2 read 读取用户输入

read命令-p(提示语句) -n(字符个数) -t(等待时间) -s(不回显) 和“读文件”深入学习 
1、基本读取 
read命令接收标准输入(键盘)的输入,或其他文件描述符的输入(后面在说)。得到输入后,read命令将数据放入一个标准变量中。下面是read命令的最简单形式 

#!/bin/bash 
echo -n "Enter your name:"   //参数-n的作用是不换行,echo默认是换行 
read  name                   //从键盘输入 
echo "hello $name,welcome to my program"     //显示信息 
exit 0                       //退出shell程序。 

//******************************** 

由于read命令提供了-p参数,允许在read命令行中直接指定一个提示。 
所以上面的脚本可以简写成下面的脚本:: 

#!/bin/bash 
read -p "Enter your name:" name 
echo "hello $name, welcome to my program" 
exit 0 

在上面read后面的变量只有name一个,也可以有多个,这时如果输入多个数据,则第一个数据给第一个变量,第二个数据给第二个变量,如果输入数据个数过多,则最后所有的值都给第一个变量。如果太少输入不会结束。 

//***************************************** 

在read命令行中也可以不指定变量.如果不指定变量,那么read命令会将接收到的数据放置在环境变量REPLY中。例如:: 

read -p "Enter a number" 

环境变量REPLY中包含输入的所有数据,可以像使用其他变量一样在shell脚本中使用环境变量REPLY. 

2、计时输入. 

使用read命令存在着潜在危险。脚本很可能会停下来一直等待用户的输入。如果无论是否输入数据脚本都必须继续执行,那么可以使用-t选项指定一个计时器。 

-t选项指定read命令等待输入的秒数。当计时满时,read命令返回一个非零退出状态; 

#!/bin/bash 
if read -t 5 -p "please enter your name:" name 
then 
    echo "hello $name ,welcome to my script" 
else 
    echo "sorry,too slow" 
fi 
exit 0 

除了输入时间计时,还可以设置read命令计数输入的字符。当输入的字符数目达到预定数目时,自动退出,并将输入的数据赋值给变量。 

#!/bin/bash 
read -n1 -p "Do you want to continue [Y/N]?" answer 
case $answer in 
Y | y) 
      echo "fine ,continue";; 
N | n) 

      echo "ok,good bye";; 

*) 

     echo "error choice";; 

esac 

exit 0 

该例子使用了-n选项,后接数值1,指示read命令只要接受到一个字符就退出。只要按下一个字符进行回答,read命令立即 

接受输入并将其传给变量。无需按回车键。 



3、默读(输入不显示在监视器上) 

有时会需要脚本用户输入,但不希望输入的数据显示在监视器上。典型的例子就是输入密码,当然还有很多其他需要隐藏的数据。 

-s选项能够使read命令中输入的数据不显示在监视器上(实际上,数据是显示的,只是read命令将文本颜色设置成与背景相同的颜色)。 

#!/bin/bash 

read  -s  -p "Enter your password:" pass 

echo "your password is $pass" 

exit 0 

4、读文件 

最后,还可以使用read命令读取Linux系统上的文件。 

每次调用read命令都会读取文件中的"一行"文本。当文件没有可读的行时,read命令将以非零状态退出。 

读取文件的关键是如何将文本中的数据传送给read命令。 

最常用的方法是对文件使用cat命令并通过管道将结果直接传送给包含read命令的while命令 

例子:: 

#!/bin/bash 

count=1    //赋值语句,不加空格 

cat test | while read line        //cat 命令的输出作为read命令的输入,read读到的值放在line中 

do 

   echo "Line $count:$line" 

   count=$[ $count + 1 ]          //注意中括号中的空格。 

done 

echo "finish" 
exit 0

7.3 父进程与子进程
ps -ef | grep PID(某个进程号)    #这个命令的作用是根据进程号查找当前运行的进程,父进程

当shell运行一个程序时,它传递给这个程序的一组变量称为环境。环境通常是被shell定义的所有变量中的一个小子集。在环境中的每一个变量都被称为环境变量。
8.2.1输出环境变量
环境变量也就是通过export命令放置到环境中的局部变量;
在标准的Shell语法中,输出变量可表示为:name=value ; export name
通常情况下,一个环境变量的赋值说明和相应的输出说明被写在同一行,以表明这个变量是环境变量
export name=value;
PATH=/sbin:/bin ; export PATH 等价于 export
PATH=/sbin:/bin
当然也可以同时输出多个环境变量
如:export HOME PATH UID
从而将变量PATH、HOME、UID都输出到环境中
还可以
export FMHOME=/usr/frame CLEARHOME=/usr/atria PATH

shell变量是在shell初始化的时候被设定并内部运用的变量。

9.3.1命令置换
shell执行命令集合,然后将命令的输出结果置换。如下
`command`
DATE=`date; uptime`
echo $DATE
USERS=`who | wc -l`
可以看到,command可以是一个简单命令,一个管道,或者是一个列表

9.3.2 算式置换
echo $(( 5/2 ))
在数字和括号之间需要有空格,然而在两个括号之间不需要右空格


10.2 使用单引号

单引号可以将绝大部分特殊符号引用以显示,但是当字符串中含有单引号时则会失效,如:
echo 'It's good!'
那么该命令将会挂掉

引用总结
当特殊字符不是很多时可以选择使用---反斜线(\)
当特殊字符很多但是右部包含单引号时,使用----单引号(')
当字符串中包含需要解析的符号,如元字符(*,?),命令解释符($),命令置换符--反引号(`)
使用----双引号(")

awk学习


awk 'script' files
其中script是如下形式:/pattern/{actions}
例如:awk '{print ;}'  files
大括号中的内容以(;)结尾,给awk定义了命令在何处结束

awk中最有用的功能是它自动将输入分成字段,一个字段是一个字符集合,
被一个或多个字段分隔符分隔开来。默认的字段分隔符是制表符和空格。
当一行被读入时,awk把它已经解析的字段放进第一个字段的变量1中,然后
是第二个变量2,以此类推。此处的变量1,用  $1  表示。
但awk中使用的$与shell中使用不同。

awk '{print $1, $3}' fruit_prices
更美观的一种打印方式为:
awk '{printf "%-15s, %s\n",$1, $3;}' fruit_prices
说明:$1与$3的顺序是可以颠倒的

执行指定模式操作

fruit_prices文件内容如下

Fruit     Price/lbs Quantity
Banana $0.89 100
Paech $0.79 65
Kiwi         $1.50 22
Pineapple         $1.29 35
Apple $89.99 78


按指定条件打印
#!/bin/sh
# $0 表示一整行,awk可以同时执行多个正则表达式
#只需要用单引号将其包在一起即可。
awk '
/\$[1-9]*\.[0-9][0-9]/ { print $0 , "*"; }
/\$0\.[0-9][0-9]/ { print $0 ; }
' fruit_prices

#end

执行如上代码,可以打印单价大于1的物价行后加一个*
然而如果按书上的代码:
awk '
/*\$[1-9][0-9]*\.[0-9][0-9]/ { print $0, "*"; }
/* \$0\.[0-9][0-9]*/ { print $0 ; }
' fruit_prices
则无法正常打印 * ,这是为啥? 
猜测是,现在shell更智能了。




阅读(461) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~