Chinaunix首页 | 论坛 | 博客
  • 博客访问: 56908
  • 博文数量: 15
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 141
  • 用 户 组: 普通用户
  • 注册时间: 2016-09-11 19:50
个人简介

Change myself!

文章分类

全部博文(15)

文章存档

2017年(14)

2016年(1)

我的朋友

分类: LINUX

2017-01-15 20:38:17

grep:
Linux上文本处理三剑客
grep:文本过滤(模式:pattern)工具;
grep, egrep, fgrep
sed:stream editor,文本编辑工具;
awk:Linux上的实现gawk,文本报告生成器;
一、grep简介
grep: Global search REgular expression and Print out the line.
1、作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行;
2、模式:由正则表达式字符及文本字符所编写的过滤条件;
3、REGEXP(正则表达式):由一类特殊字符及文本字符所编写的模式,其中有些字符不表示字符字面意义,而表示控制或通配的功能;
分两类:
基本正则表达式:BRE
扩展正则表达式:ERE
grep -E, egrep
4、命令格式:
grep [OPTIONS] PATTERN [FILE...]
选项:
--color=auto: 对匹配到的文本着色显示;
-v: 显示不能够被pattern匹配到的行;
-i: 忽略字符大小写;
-o: 仅显示匹配到的字符串;
-q: 静默模式,不输出任何信息;
-A #:after, 后#行(显示匹配的行及后#行)
-B #: before, 前#行
-C #:context, 前后各#行
-E:使用ERE,扩展正则表达式(egrep)
-f :固定字符串(fgrep)
-G:基本正则表达式
二、基本正则表达式元字符:
1、字符匹配:
.:  匹配任意单个字符;
[]: 匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
[:digit:]数字、[:lower:]小写字符、[:upper:]大写字符、[:alpha:]文本字符、[:alnum:]文本数字字符、[:punct:]标点字符、[:space:]空白字符、[:graph:]非空字符
2、匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数;
*:匹配前面的字符任意次;
例如: # grep "x*y" 结果为:abxy   xay   xxxxxxy
贪婪模式(尽可能多):
.*:任意长度的任意字符;
\?:匹配其前面的字符0或1次;即前面的可有可无;
\+:匹配其前面的字符至少1次;
\{m\}:匹配前面的字符m次;
\{m,n\}:匹配前面的字符至少m次,至多n次;
\{0,n\}:匹配前面的字符至多n次;
\{m,\}:匹配前面的字符至少m次;
3、位置锚定:
^:行首锚定;用于模式的最左侧;
$:行尾锚定;用于模式的最右侧;
^PATTERN$: 用于模式匹配整行;
^$: 空行;
^[[:space:]]*$
\< 或 \b:词首锚定;用于单词模式的左侧;
\> 或 \b:词尾锚定;用于单词模式的右侧;
\:匹配整个单词;
三、分组:
\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理;
如:(xy\)*ab
Note: 分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...
\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;
后向引用:引用前面的分组括号中的模式所匹配字符,(而非模式本身)
例: \(ab\+\(xy\)*\):
\1: ab\+\(xy\)*
\2: xy
例:
x*y :  abxy,xay    a.*y: abxy,xay   x\?y: xy,x  
# grep 's..n' /etc/passwd
# grep '...n' /etc/passwd
# grep '[[:alpha:]][[:alpha:]][[:alpha:]]t' /etc/passwd
# grep '[[:alpha:]]\{1,3\}t' /etc/passwd # 匹配任意文本字符至少1次,至多3次
# grep '^[[:alpha:]]\{1,3\}t' /etc/passwd # 行首
# grep '[[:alpha:]]\{1,3\}t$' /etc/passwd # 行尾
# grep '^[[:alpha:]]\{1,3\}t$' /etc/passwd #整行
# grep '\<[[:alpha:]]\{1,3\}t' /etc/passwd # 单词首部
# grep '[[:alpha:]]\{1,3\}t\>' /etc/passwd # 单词尾部
# grep '\([[:alpha:]]\{1,3\}t\>\)' /etc/passwd

四、练习:
1、显示/proc/meminfo文件中以大小s开头的行;(要求:使用两种方式)
# grep -i '^s' /proc/meminfo
# grep --color=auto '^[s,S].*' /proc/meminfo
2、显示/etc/passwd文件中不以/bin/bash结尾的行;
# grep -v '.*/bin/bash$' /etc/passwd      # (-v: 显示不能够被pattern匹配到的行)
# grep -v '/bin/bash$' /etc/passwd
3、显示/etc/passwd文件中ID号最大的用户的用户名;
# sort -t: -k3 /etc/passwd | tail -1 | cut -d: -f1
4、如果用户root存在,显示其默认的shell程序;
# id root &> /dev/null && grep "^root\>" /etc/passwd | cut -d: -f7
# grep "^root\>" /etc/passwd &> /dev/null && grep "^root\>" /etc/passwd | cut -d: -f7
5、找出/etc/passwd中的两位或三位数;
# grep -o "\<[0-9]\{2,3\}\>" /etc/passwd     # (-o: 仅显示匹配到的字符串)
# grep -o '\<[[:digit:]]\{2,3\}\>' /etc/passwd
6、显示/etc/rc.d/rc.sysinit文件中,至少以一个空白字符开头的且后面存非空白字符的行;
# grep '^[[:space:]][^[:space:]]\+' /etc/rc.d/rc.sysinit  # CentOS 6
# grep "^[[:space:]]\+[^[:space:]]" /etc/grub2.cfg      # CentOS 7
7、找出"netstat -tan"命令的结果中以'LISTEN'后跟0、1或多个空白字符结尾的行;
# netstat -tan | grep "LISTEN[[:space:]]*$"
8、添加用户bash、testbash、basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;
# useradd -s /sbin/nologin bash testbash basher nologin
# grep "^\([[:alnum:]]\+\>\).*\1$" /etc/passwd
五、shell脚本练习:
1、写一个脚本,实现如下功能
如果user1用户存在,就显示其存在,否则添加之;显示添加的用户的id号等信息;
#!/bin/bash
id user1 &> /dev/null && echo "user1 exists." || useradd user1
id user1
2、写一个脚本,完成如下功能
如果root用户登录了当前系统,就显示root用户在线;否则说明其未登录;
w | grep "^root\>" &> /dev/null && echo "root logged" || echo "root not logged"

六、egrep及扩展的正则表达式
egrep = grep -E
egrep [OPTIONS] PATTERN [FILE...]
扩展正则表达式的元字符:
1、字符匹配:
.
[]
[^]
2、次数匹配:
*
?: 0或1次;
+:1次或多次;
{m}:匹配m次;
{m,n}:至少m,至多n次;
3、锚定:
^
$
\<, \b
\>, \b
4、分组:
()

后向引用:\1, \2, ...
或者:
a|b
C|cat 表示Cat或cat
七、练习:
1、显示当前系统root、centos或user1用户的默认shell和UID;
# grep -E '^(root|centos|user1)\>' /etc/passwd | cut -d: -f1,3,7

2、找出/etc/rc.d/init.d/functions文件(centos6)中某单词后面跟一个小括号的行;
# grep -E -o "^[_[:alpha:]]+\(\)" /etc/rc.d/init.d/functions

3、使用echo输出一绝对路径,使用egrep取出其基名;
# echo "/mnt/sdc" | grep -E -o "[^/]+/?$" | cut -d"/" -f1 
sdc
# echo /etc/sysconfig/network-scripts/ | egrep -o "[[:alnum:]-]+/?$"
network-scripts/
进一步地:使用egrep取出路径的目录名,类似于dirname命令的结果;
# dirname /etc/sysconfig/network-scripts
/etc/sysconfig
# echo /etc/sysconfig/network-scripts | egrep -o "/.*/"
/etc/sysconfig/
4、找出ifconfig命令结果中1-255之间的数值;
# ifconfig | grep -o -E "\<[1-9]|[0-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5]"
# ifconfig | egrep -o "\<[1-9]|[0-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5]"
5、找出ifconfig命令结果中的IP地址;
# ifconfig | grep 'inet addr:' | cut -d: -f2 | cut -d' ' -f1
192.168.190.134
127.0.0.1
# ifconfig | grep -oP '(?<=(inet addr:)).*?(?=\s+)'
192.168.190.134
127.0.0.1
# ifconfig | awk 'NR==2{print $2}'
addr:192.168.190.134
fgrep:不支持正则表达式搜索;

阅读(1213) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~