PHP 正则表达式-ylky_2000-ChinaUnix博客

洞庭飞虹---信息化yanglin.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ylky_2000

博客访问： 3571211
博文数量： 349
博客积分： 5771
博客等级：大校
技术积分： 4191
用户组：普通用户
注册时间： 2009-07-06 11:52

个人简介

文章分类

全部博文（349）

18营销信息化（0）

微信（0）
17benet3.0（3）

linux系统管理（3）
16软件开发（30）

PYTHON学习（2）

简明python教程（8）

安卓开发（1）

零基础学JAVA（1）

php（18）
15管理学习（5）
14英语学习（2）
13技术支持总结（12）
12轻松一刻（3）
11心灵鸡汤（50）

小故事大智慧（4）

他山之石（43）

警示窗（2）
10系统集成（4）
00数据安全（10）
09应用开发（1）
08虚拟化（7）
07windows系统与（19）

酒店管理系统（0）

系统管理（11）

传真服务器（1）

sql数据库（5）

打印服务（2）
06Linux系统和服（38）

mysql数据库（4）

iptables（5）

邮件服务器（1）

web服务器（6）

备份相关（0）

Linux使用技巧和（16）

kingate代理应用（0）

开源软路由器（0）

sarg日志分析（0）

squid代理服务器（2）

NTP时间服务器（0）

samba文件服务器（3）
05网络原理（13）

协议（11）

冗余（1）

nat（0）

voip（1）

vpn（0）
04网络技能（66）

智能手机（7）

网络实战（42）

网络监控与扫描（3）

防火墙（4）

网络电话（0）

vpn组网（4）

路由交换（5）
03网络设备（15）

其他设备（2）

语音设备（1）

居易路由器（1）

华为路由器（6）

华为交换机（4）

cisco防火墙（1）

cisco路由器（0）

cisco交换机（0）
02软件推荐（15）
01机房设计（7）

防静电地板（0）

ups（6）
未分配的博文（49）

文章存档

2019年（2）

2018年（2）

2017年（1）

2016年（2）

2015年（18）

2014年（36）

2013年（69）

2012年（100）

2011年（62）

2010年（57）

我的朋友

最近访客

推荐博文

PHP 正则表达式

分类：

2012-03-13 12:18:46

原文地址：PHP 正则表达式作者：逊云锋

介绍

正则表达式，大家在开发中应该是经常用到，现在很多开发语言都有正则表达式的应用，比如javascript，java，.net,php等等，我今天就把我对正则表达式的理解跟大家唠唠，不当之处，请多多指教！

需要知道的术语——下面的术语你知道多少?

Δ 定界符

Δ 字符域

Δ 修饰符

Δ 限定符

Δ 脱字符

Δ 注释

定位

我们什么时候使用正则表达式呢？不是所有的字符操作都用正则就好了，php在某些方面用正则反而影响效率。当我们遇到复杂文本数据的解析时候，用正则是比较好的选择。

优点

正则表达式在处理复杂字符操作的时候，可以提高工作效率，也在一定程度节省你的代码量。

缺点

我们在使用正则表达式的时候，复杂的正则表达式会加大代码的复杂度，让人很难理解。所以我们有的时候需要在正则表达式内部添加注释。

通用模式

¤ 定界符，通常使用 "/"做为定界符开始和结束,也可以使用"#"。

　　什么时候使用"#"呢?一般是在你的字符串中有很多"/"字符的时候，因为正则的时候这种字符需要转义，比如uri。

使用"/"定界符的代码如下.

$regex = '/^http:\/\/([\w.]+)\/([\w]+)\/([\w]+)\.html$/i'; 
$str = ''; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

使用"#"定界符的代码如下.这个时候对"/"就不转义!

$regex = '#^([\w.]+)/([\w]+)/([\w]+)\.html$#i'; 
$str = ''; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

¤ 修饰符:用于改变正则表达式的行为。

我们看到的('/^http:\/\/([\w.]+)\/([\w]+)\/([\w]+)\.html/i')中的最后一个"i"就是修饰符,表示忽略大小写，还有一个我们经常用到的是"x"表示忽略空格。

贡献代码:

$regex = '/HELLO/'; 
$str = 'hello word'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
echo 'No i:Valid Successful!',"\n"; 
} 
if(preg_match($regex.'i', $str, $matches)){ 
echo 'YES i:Valid Successful!',"\n"; 
}

¤ 字符域:[\w]用方括号扩起来的部分就是字符域。

¤ 限定符:如[\w]{3,5}或者[\w]*或者[\w]+这些[\w]后面的符号都表示限定符。现介绍具体意义。

{3,5}表示3到5个字符。{3,}超过3个字符，{,5}最多5个，{3}三个字符。

* 表示0到多个

+ 表示1到多个。

¤ 脱字符号

> 放在字符域(如:[^\w])中表示否定(不包括的意思)——“反向选择”

> 放在表达式之前，表示以当前这个字符开始。(/^n/i,表示以n开头)。

注意，我们经常管"\"叫"跳脱字符"。用于转义一些特殊符号，如".","/"

通配符(lookarounds):断言某些字符串中某些字符的存在与否！

lookarounds分两种:lookaheads(正向预查 ?=)和lookbehinds(反向预查?<=)。

> 格式:

正向预查:(?=) 相对应的 (?!)表示否定意思

反向预查:(?<=) 相对应的 (?

前后紧跟字符

$regex = '/(?<=c)d(?=e)/'; /* d 前面紧跟c, d 后面紧跟e*/
$str = 'abcdefgk'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

否定意义:

$regex = '/(?$str = 'abcdefgk'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

>字符宽度:零

验证零字符代码

$regex = '/HE(?=L)LO/i'; 
$str = 'HELLO'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

打印不出结果！

$regex = '/HE(?=L)LLO/i'; 
$str = 'HELLO'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

能打印出结果!

说明:(?=L)意思是HE后面紧跟一个L字符。但是(?=L)本身不占字符，要与(L)区分，（L）本身占一个字符。

捕获数据

没有指明类型而进行的分组,将会被获取,供以后使用。

> 指明类型指的是通配符。所以只有圆括号起始位置没有问号的才能被捕捉。

> 在同一个表达式内的引用叫做反向引用。

> 调用格式: \编号(如\1)。

$regex = '/^(Chuanshanjia)[\w\s!]+\1$/'; 
$str = 'Chuanshanjia thank Chuanshanjia'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

> 避免捕获数据

格式:(?:pattern)

优点:将使有效反向引用数量保持在最小，代码更加、清楚。

>命名捕获组

格式:(?P<组名>) 调用方式 (?P=组名)

$regex = '/(?Pchuanshanjia)[\s]Is[\s](?P=author)/i'; 
$str = 'author:chuanshanjia Is chuanshanjia'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

运行结果

惰性匹配(记住：会进行两部操作,请看下面的原理部分)

　格式:限定符?

原理:先匹配"?"前面的部分，然后再匹配右侧表达式，右侧表达式匹配成功则整个匹配结束。

先看下面的两个代码:

代码1.

$regex = '/(")[^\1]+\1/i'; 
$str = '"a""b""c""d"'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

结果1.

代码2

$regex = '/(")[^\1]+?\1/i'; 
$str = '"a""b""c""d"'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

结果2

分析:

比较两个正则表达式:第一个加了"?"，第二个没有。

结果:主要看第一个参数:第一个把所有字符打印了出来，第二个只打印了个""a"".

结论:

>> 首先满足(")[^\1]+\1条件的有

"a", "a""b","a""b""c", "a""b""c""d", "b","b""c","b""c""d", "c","c""d", "d"

而第一个正则表达式却选择了最大的"a""b""c""d",说明非惰性匹配会把最大的匹配结果拿出来做比较。

>> 第二个正则表达式:先匹配(")[^\1]+，如果匹配成功，那么我们在匹配“？”右边的\1，如果匹配成功，则整个匹配结束。

其他案例:

"Oh, \"my\" God" =====> /(")([^\1] | \\1)*?(?

正则表达式的注释

格式:(?# 注释内容)

用途:主要用于复杂的注释

贡献代码:是一个用于拆分mysql字符连接数据的正则表达式

$regex = '/

^host=(?\| 
([\w!@#$%^&*()_+\-]+) (?#用户名) 
\| 
([\w!@#$%^&*()_+\-]+) (?#密码) 
(?!\|)$/ix'; 
$str = 'host=192.168.10.221|root|123456'; 
$matches = array(); 
if(preg_match($regex, $str, $matches)){ 
var_dump($matches); 
} 
echo "\n";

特殊字符

特殊字符	解释
*	0到多次
+	1到多次还可以写成{1,}
?	0或1次
.	匹配除换行符外的所有单个的字符
\w	[a-zA-Z0-9_]
\s	空白字符(空格，换行符，回车符）[\t\n\r]
\d	[0-9]

经常需要转义的字符	范围
\|	在[]或()内外
.	[]外
\	在[]或()内外
/	在[]或()内外
[	在[]或()内外
]	在[]或()内外
(	[]外
)	[]外

阅读(722) | 评论(0) | 转发(0) |

上一篇：十天学会php8-Mysql 简介和创建新的数据库

下一篇：HTTP头部详解

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6