php中文汉字替换与模式匹配的问题-剑心通明-ChinaUnix博客

BSD爱好者乐园jxtm.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

剑心通明

博客访问： 19635099
博文数量： 7460
博客积分： 10434
博客等级：上将
技术积分： 78178
用户组：普通用户
注册时间： 2008-03-02 22:54

文章分类

全部博文（7460）

武林英雄攻略（0）
淘宝网推荐（0）

节日礼物（0）

特产美食（0）

运动户外（0）

计算机相关（0）

女人（0）

男人（0）

母婴（0）

居家（0）

美容时尚（0）

手机数码（0）
其他（0）
数据库/php网页编（0）
交换机/路由器/网（0）
AIX（0）
MacOS（0）
C程序设计（0）
BSD相关（0）
shell脚本（0）
未分配的博文（7460）

文章存档

2011年（1）

2009年（669）

2008年（6790）

我的朋友

最近访客

推荐博文

php中文汉字替换与模式匹配的问题

分类：

2008-04-12 20:48:58

这两天正在做一个关键字加亮显示的程序，写好的程序在本地测试也跑得好好的，可是一上去页面就出现一堆一堆的乱码，别说加亮了，简直就是没的看！

　　我就找错误，找来找去，发现英文没有问题，遇到汉字容易出问题，有的时候遇到汉字必出问题。

　　总结一下：

　　当使用模式匹配的时候，如：preg_match_all($pat,……)与preg_replace($pat,……)……

　　容易出问题的情况如下：
　　preg_match_all("/(汉字)+/ism","我是汉字，看你把我怎么着！",$m_a);
　　这个模式很简单就是匹配出“汉字”。这种情况模式中包含汉字可以成功匹配出来，但是也不要高兴得太早，结果不确定，为什么不确定你慢慢往下看。

　　必出现问题情况如下：
　　preg_match_all("/[汉字]+/ism","我是汉字，看你把我怎么着！",$m_a);
　　本想匹配出现“汉”、“字”或者“汉字”。这个必出现问题，匹配的结果一大群乱码，没准还会出个死循环呢。为什么会出现这种情况？是因为PHP内部使用不是UNICODE，不支持多字节文字，所以一个"汉字"就被当成４bytes的ASCII去进行模式匹配，不出错才怪呢！

　　后来我又试试重新写一下模式匹配，发现一种似乎（为什么说似乎？往后看）方法可以解决：
　　preg_match_all("/(汉|字)+/ism","我是汉字，看你把我怎么着！",$m_a);

　　这样写可以匹配出“汉”、“字”或者“汉字”，$m_a中的结果

Array
(
[0] => Array
(
[0] => 汉字
)

[1] => Array
(
[0] => 字
)

)

　　怎么样全匹配的字符串出现了吧！可是高兴得太早了，后来在实际中用还是会经常出问题！再去找问题，终于找到问题的根了！PHP不支持多字节文字，所以在进行模式匹配与字符操作的时候都是内码转化后进行的（我不知道这样说对不对），举个实例吧：

　　eregi_replace("性","没有" , "有责任感");这个操作就是要把字符串"有责任感"中"性"字替换成"没有"，最后的结果是什么？因为"有责任感"中没有"性"就个字，结果应该是没有执行替换操作返回"有责任感"，可是结果竟然是"用挥叙任感"！

　　没想到吧！为什么？看一下ASCII码你就明白了，2个ASCII码代码一个汉字"有责任感"的ASCII编码依次为：211,208(有)，212,240(责)，200,206(任)，184,208(感)　

　　而"性"的编码为：208,212(性)，恰好与有的第2字节和责的第1字节组合是一致的！所以PHP就认识找到相同的模式进行匹配，拆成一半的汉字再与替换后的字串进行组合，所以就出错了！

　　当时我想最常用的str_replace()，应该不会有问题的，但是事实上str_replace()执行同样的操作也会出错！现在我想以前进行汉字替换实在是太幸运了！可能是那个时候进行的汉字替换都是比较长的汉字串吧，不太容易出现以上的情况。即使没有出问题，也要知道那是不安全的！

　　问题是有的，工作还要继续做，克服的困难也就::::现在的自我了。

　　好在想起一组PHP的扩展模块，Multibyte String Functions，添加许多支持多字节文字的操作的函数，如：ereg_replace() 对应着mb_ereg_replace() 等等。具体的函数说明请查询相关的文章。

　　总结：对于中文汉字安全的操作最好是使用Multibyte String Functions。

阅读(266) | 评论(0) | 转发(0) |

上一篇：如何利用php来截取一段中文字符串而不出现乱码

下一篇：无限级别菜单的实现

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6