全部博文(2065)
分类: Mysql/postgreSQL
2010-02-24 09:16:44
Mysql的regexp与正则
[整理人:hkebao@126.com 整理时间:
这种也可以称为模式匹配操作。有的时候可能想在一个条件中写正则表达式。做一些比较复杂的查询的时候就可以用到了。希望这个整理能够解决此类的问题。
语法:expr REGEXP pat 与 expr RLIKE pat
执行字符串表达式 expr 和模式pat 的模式匹配。该模式可以被延伸为正规表达式。
若expr 匹配 pat,则返回 1; 否则返回0。
PS:其中expr表示要查询的字符串部分。而pat表示我们所定义的模式内容,当然我们这个模式也是可以用正则表达式去书写的。
若 expr 或
pat 任意一个为 NULL, 则结果为 NULL。
示例:select 'Monty!' REGEXP Null;
输出:NULL
RLIKE 是REGEXP的同义词, 作用是为mSQL 提供兼容性。
PS: 表示REGEXP 与 RLIKE
均可表示实现正则使用。语法都一样
注意:由于在字符串中, MySQL使用 C 转义语法 (例如, 用‘\n’来代表换行字符 ),在REGEXP字符串中必须将用到的‘\’
双写。
REGEXP 不区分大小写, 除非将其同二进制字符串同时使用。
应用于使用where的时候 select
* from user where 0; 则没有记录。表示查询的条件为False
示例:
1、 select 'Monty!' REGEXP 'M%y%%';
输出:0 表示这个模式不匹配。我们可以好好整理一下MySQL的正则表达式。然后就可以应用到此就行了!
2、 select 'Monty!' REGEXP '.*';
输出:1
3、SELECT 'new*\n*line' REGEXP 'new\\*.\\*line';
输出:1
4、SELECT 'a' REGEXP 'A', 'a' REGEXP BINARY 'A';
输出:1 0 前面是不区分大小写。而后面因为有二进制在故区分大小写
在确定字符类型时,REGEXP 和 RLIKE 使用当前字符集 (默认为cp1252 Latin1 )。
警告:这些操作符不支持多字节字元。(中文?)
第二部分:MySQL中使用正则查询
常用的元字符如下:
^ 匹配字符串的开始部分
示例:select 'fofo' regexp '^fo'; 输出:1
$ 匹配字符串的结束部分
示例:select 'fofo' regexp 'fo$'; 输出:1
. 匹配任何字符(包括回车与新行)
示例:select 'fofo' regexp '.*fo'; 输出:1
* 匹配0或多个字符序列
示例:select 'fofo' regexp '.*'; 输出:1
+ 匹配1或多个字符序列
示例:select 'fofo' regexp '.+'; 输出:1
? 匹配0或1个
示例:SELECT 'Bn' REGEXP '^Ba?n'; 输出:1
De|abc 匹配de或abc 表示或者或者
示例:SELECT 'pi' REGEXP 'pi|apa'; 输出:1
(abc)* 匹配序列 abc 的0个或多个实例 (相当于对一个序列做重复元组而不是单个字符的)
示例:select 'pi' regexp '^(pi)*$'; 输出:1
表示的是以pi为一个单元进行重复
{1},{2,3}
含义:{n} 或 {m,n} 通用的方式。可以匹配模式的很多前述原子(或部分)。M和n 均为整数
例如:a* 也可以写成a{0,} a+ 写成a{1,} a?写成 a{0,1}
PS:a{n}与a的n个实例准确匹配。a{n,}匹配a的n个或更多实例。a{m,n}匹配a的m~n个实例,包含m和n。 相当于实现了这种格式的匹配 < > >=
=< 的操作
m和n必须位于0~RE_DUP_MAX(默认为255)的范围内,包含0和RE_DUP_MAX。如果同时给定了m和n,m必须小于或等于n。
[a-dX],[^a-dX]
匹配任何是(或不是,如果使用^的话)a、b、c、d或X的字符。两个其他字符之间的“-”字符构成一个范围,与从第1个字符开始到第2个字符之间的所有字符匹配。例如,[0-9]匹配任何十进制数字 。要想包含文字字符“]”,它必须紧跟在开括号“[”之后。要想包含文字字符“-”,它必须首先或最后写入。对于[]对内未定义任何特殊含义的任何字符,仅与其本身匹配。
PS: [a-d] 表示的是一个范围即a b
c d 都可以。这个表示的是一个范围。然后如果想要对单个字符匹配的话可以单独写的类似于[a-dX] 表示的就是匹配 a b
c d X
[.characters.]
在括号表达式中(使用[和]),匹配用于校对元素的字符序列。字符为单个字符或诸如新行等字符名。
[=character_class=]
在括号表达式中(使用[和]),[=character_class=]表示等同类。它与具有相同校对值的所有字符匹配,包括它本身,例如,如果o和(+)均是等同类的成员,那么[[=o=]]、[[=(+)=]]和[o(+)]是同义词。等同类不得用作范围的端点。
[:character_class:]
在括号表达式中(使用[和]),[:character_class:]表示与术语类的所有字符匹配的字符类。
标准的类名称是:
alnum |
文字数字字符 |
alpha |
文字字符 |
blank |
空白字符 |
cntrl |
控制字符 |
digit |
数字字符 |
graph |
图形字符 |
lower |
小写文字字符 |
print |
图形或空格字符 |
punct |
标点字符 |
space |
空格、制表符、新行、和回车 |
upper |
大写文字字符 |
xdigit |
十六进制数字字符 |
示例:[:upper:] 表示的就是匹配大写文字字符
SELECT 'justalnums'
REGEXP '[[:alnum:]]+'; 输出:1
要想在正则表达式中使用特殊字符的文字实例,应在其前面加上2个反斜杠“\”字符。
示例:SELECT '1+2' REGEXP '1\+2'; 只有一个反斜杠故输出:0
SELECT '1+2' REGEXP '1\\+2'; 有两个反斜杠故输出:1
解决问题:
1、 字段中是否包含中文的查询语句
示例:select * from tests where sex regexp '[^\x00-\xff]';