Perl入门（十一）－－模式匹配-yourtommy-ChinaUnix博客

淘米挣＊博文精选yourtommy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yourtommy

博客访问： 1850149
博文数量： 438
博客积分： 9799
博客等级：中将
技术积分： 6092
用户组：普通用户
注册时间： 2012-03-25 17:25

文章分类

全部博文（438）

人工智能（6）
决策支持系统（3）
网络（57）

云计算（9）

Apache（8）

web前端（11）

TCP/IP（29）
数据库（9）

数据库基础（9）
Unix环境高级编程（195）

17-高级IPC（7）

16-网络IPC：套接（8）

15-进程间通信（9）

14-高级I／O（7）

13-守护进程（7）

12-线程控制（11）

11-线程（7）

10-信号（16）

9-进程关系（11）

8-进程控制（16）

7-进程环境（11）

6-系统数据文件和（10）

5-标准I／O库（15）

4-文件与目录（23）

3-文件I/O（15）

2-UNIX标准与实现（10）

1-UNIX系统总览（12）
算法（10）

算法导论（10）
综合（15）

代码之美（11）

性能与优化（4）
Android（12）

Android编程环境（1）

Android 从入门到（11）
高层设计（29）

设计模式Head Fir（21）

重构（8）
编程语言（59）

Java EE（2）

javascript（8）

C语言（6）

Fortran77-90-95（12）

Perl入门（15）

Java编程思想（16）
Linux（41）

makefile（11）

GDB（9）

Linux Shell编程（5）

Linux编辑器（4）

Linux命令（5）

Linux工具（3）

vi（3）

Ubuntu（1）
未分配的博文（2）

文章存档

2019年（1）

2013年（8）

2012年（429）

我的朋友

相关博文

Perl入门（十一）－－模式匹配

分类： Python/Ruby

2012-03-26 11:13:25

可以用操作符“=~”和“=!”来进行模式匹配：

$string = 'abcdef';
print $string =~ "bcd" . "\n"; # 1 即true
print $string =! "bcd" . "\n"; # null 即false

上面的例子中=~表示$string包含了bcd，=!表示$string不包含bcd。

模式匹配的标准形式是用斜杠来表示的：

$string =~ m/bcd/

最前面的m表示匹配（match）。两斜杠中间的字符串是用来匹配的内容。在最后的斜杠的右侧可以加入匹配选项，比如g表示匹配多个：

@matches = 'abcdefbcdgh' =~ m/bcd/g

利用g选项，可以让匹配返回一个数组。上例的@matches有两项，值都为"bcd"。前面的m可以省略，而最后的选项也是可选的，所以最简单的匹配方式就是：

$string =~ /bcd/;

匹配的内容可以是正则表达式：

sub printMatches {
foreach $s (@_)
{
print "||" . $s . "|| ";
}
print "\n";
}
# 字符+表示前面的字符出现一次或多次
printMatches 'babaaba' =~ /a+b/g; # ||ab|| ||aab||
# 字符*表示前面的字符出现零次、一次或多次
printMatches 'babaaba' =~ /a*b/g; # ||b|| ||ab|| ||aab||
# 字符?表示前面的字符出现零次或一次
printMatches 'babaaba' =~ /a?b/g; # ||b|| ||ab|| ||ab||
# 利用反斜杠表示转义
printMatches '*+?' =~ /\*\+\?/g; # ||*+?||
# 字符[]表示一组字符中的某一个
printMatches 'abacadae' =~ /a[cd]/g; # ||ac|| ||ad||
# 字符[^]表示不匹配一组字符中的任一个
printMatches 'abacadae' =~ /a[^cd]/g; # ||ab|| ||ae||
# 匹配字母或数字
printMatches 'šiC79@' =~ /[a-z|A-Z][0-9]/g; # ||x9|| ||C7||
# 字符^或\A匹配串首
printMatches 'abc9abd' =~ /^ab[a-z]/g; # ||abc||
# 字符$或\Z匹配串尾
printMatches 'abc9abd' =~ /ab[a-z]$/g; # ||abd||
# 字符\b表示单词边界
printMatches 'aw1 w2 w3a' =~ /\bw[1-9]/g; # ||w2|| ||w3||
printMatches 'aw1 w2 w3a' =~ /w[1-9]\b/g; # ||w1|| ||w2||
# 字符\B表示单词内部，即非单词边界
printMatches 'aw1 w2 w3a' =~ /\Bw[1-9]/g; # ||w1||
printMatches 'aw1 w2 w3a' =~ /w[1-9]\B/g; # ||w3||
# \d表示任意数字
printMatches 'w@aw1wgw3' =~ /w\d/g; # ||w1|| ||w3||
# \D表示非数字
printMatches 'w@aw1wgw3' =~ /w\D/g; # ||w@|| ||wg||
# \w表示任意单词字符，即字母与数字
printMatches '#ab#d@#89#!' =~ /#\w+/g; # ||#ab|| ||#d|| ||#89||
# \W表示非单词字符
printMatches '#ab#d@#89#!' =~ /#\W+/g; # ||#!||
# \s表示空白字符
printMatches 'a bc def ghij' =~ /\w+\s/g; # ||a || ||bc || ||def ||
# \S表示非空白字符
printMatches 'a bc def ghij' =~ /\w+\S/g; # ||bc|| ||def|| ||ghij||
# .表示除换行外的任意字符
printMatches 'a@a2ab' =~ /a./g; # ||a@|| ||a2|| ||ab||
# {}用于指定匹配字符出现的次数
printMatches 'ababbabbbabbbb' =~ /ab{2,3}/g; # ||abb|| ||abbb|| ||abbb||
printMatches 'ababbabbbabbbb' =~ /ab{1}[^b]/g; # ||aba||
printMatches 'ababbabbbabbbb' =~ /ab{3,}/g; # ||abbb|| ||abbbb||
# |用来匹配多种模式
printMatches 'isa82@32&64' =~ /[a-z]+\d+|@\d+/g; # ||isa82|| ||@32||

特殊字符也有优先级（由上至下优先级由高到低）：

特殊字符	描述
()	模式内存
+ * ? {}	出现次数
^ $ \b \B	锚
\|	选项

# 可以用任意字符来作为模式定界符来代替默认的/
printMatches 'ab///c/d' =~ m#[a-z]/+#g; # ||b///|| ||c/||

圆括号可以把部分组合成整体：

# 用()可以将不同的部分组合起来，作为整体进行重复匹配
printMatches 'ab#abab#ababab#aba' =~ /(ab){3}/g; # ||ab|| （返回的值为圆括号最后一次匹配的字符串）
print $&; # ababab （$&用来存储最后一次匹配的结果）
printMatches 'aabbabab' =~ /(ab){3}/g; # null
# $1,$2,...用来存放各个组（即圆括号）最后一次匹配的结果
printMatches 'a1=b2#c3-d4 e5=f6#g7-h8' =~ /(\w+)=(\w+)#(\w+)-(\w+)/g; # ||a1|| ||b2|| ||c3|| ||d4|| ||e5|| ||f6|| ||g7|| ||h8||
print "$1, $2, $3, $4, $5, $6, $7, $8\n"; # e5, f6, g7, h8, , , , （字符串中有两个匹配，最后一次匹配到的串是e5=f6#g7-h8，所以$1其实是最后匹配到的串中的第一个组）

最后斜杠后面的模式选项：

# g选项匹配所有可能的模式
@matches = "aa.bb.cc" =~ /\w+/g; # aa, bb, cc
print "@matches\n";
while ("ab,abab,ababab" =~ /(ab)+/g)
{
print "$&\n";
}
# g选项下可以用pos来返回或设置字符串的匹配位置
$string = "a1a2a3a4";
$index = pos($string); # null
$string =~ /a\d/g; # a1
$index = pos $string; # 2 匹配了a1这两个字符
$string =~ /a\d/g; # a2
pos($string) = 6;
$string =~ /a\d/g; # a4 略过了中间的a3
# i选项忽略大小写
printMatches 'A2a3' =~ /a\d/g; # ||a3||
printMatches 'A2a3' =~ /a\d/ig; # ||A2|| ||a3||
# m选项将字符串看作多行
printMatches "first line\nseconde line" =~ /.*line$/g; # ||seconde line||
printMatches "first line\nseconde line" =~ /.*line$/gm; # ||first line|| ||seconde line||
# s选项把字符串看作单行，使得.可以匹配\n。
printMatches "first line\nsecond line" =~ /.*line$/g; # ||seconde line||
printMatches "first line\nsecond line" =~ /.*line$/gs; # ||first line（换行）second line||
# o选项只赋值一次
$var = "a";
for ($i = 1; $i <= 3; $i++)
{
printMatches "ab" =~ /$var/go; # a, a, a
$var = "b";
}
$var = "a";
for ($i = 1; $i <= 3; $i++)
{
printMatches "ab" =~ /$var/g; # a, b, b
$var = "b";
}
# x忽略模式中的空白
printMatches "a b c def" =~ /\w \w \w/g; # ||a b c||
printMatches "a b c def" =~ /\w \w \w/gx; # ||def||