php函数strlen() 与 mb_strlen()之比较-youngpand-ChinaUnix博客

youngpand(www.9limi.cn)youngpand.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

youngpand

博客访问： 993741
博文数量： 335
博客积分： 10287
博客等级：上将
技术积分： 3300
用户组：普通用户
注册时间： 2005-08-08 15:29

文章分类

全部博文（335）

Python（1）
前端开发技术（1）
Ubunto（2）
Ubunto（0）
Lucene全文检索（4）
mysql优化（3）
算法（1）
PHP性能优化（6）
Lighttpd（3）
论坛（1）
PHP+APACHE相关（27）

函数使用技巧（1）

URL转发（1）
开发协议（8）
Berkeley DB数据（2）
LDAP相关（3）
其他篇（15）
Ajax文章 && WEB2（8）

ExtJS（0）
版本控制（16）

subversion（9）
无线网络篇（6）
MS SQL（1）
PERL学习（4）
ORACLE数据库（9）
JAVA开发（12）
MySQL数据库（29）
生活源于创造（20）

理财类（2）
C/C++开发（90）

SOCKET编程（2）

ACE专栏（8）

FastCGI&CGI（1）

C/C++基础（40）

多线程编程（27）
操作系统（63）

Android（3）
未分配的博文（0）

文章存档

2015年（4）

2014年（15）

2013年（17）

2012年（11）

2011年（12）

2010年（96）

2009年（27）

2008年（34）

2007年（43）

2006年（39）

2005年（37）

我的朋友

工作中经常用到计算字符串长度的情景,现将此两个函数功能做下比较,便于使用.

strlen()函数和mb_strlen()函数

在PHP中，函数strlen()返回字符串的长度。函数原型如下：


	
	
		int strlen(string string_input);

参数string_input为要处理的字符串。

strlen()函数返回字符串所占的字节长度，一个英文字母、数字、各种符号均占一个字节，它们的长度均为1。一个中午字符占两个字节，所以一个中午字符的长度是2。例如


	
	
		
	

	
		    echo strlen("");  
	

	
		    echo strlen("三知开发网");  
	

	
		?>

“echo strlen("");”的运行结果：15

“echo strlen("三知开发网");”的运行结果：15

这里有一个疑问，一个中文字符不是占2个字节吗？“三知开发网”，明明是五个汉字，运行的结果怎么会是15？

原因出在这里：strlen()计算时，对于一个UTF-8的中文字符，会把它当做长度为3来处理。当出现中英文混排的情况下，怎么准确的计算字符串的长度呢？这里，得引入另外一个函数mb_strlen()。mb_strlen()函数的用法与strlen()几乎一摸一样，只是多了一个指定字符集编码的参数。函数原型为：


	
	
		int mb_strlen(string string_input, string encode);

PHP内置的字符串长度函数strlen无法正确处理中文字符串，它得到的只是字符串所占的字节数。对于GB2312的中文编码，strlen得到的值是汉字个数的2倍，而对于UTF-8编码的中文，就是3倍的差异了（在UTF-8编码下，一个汉字占3个字节）。因此，下面的代码能准确计算出中文字符串的长度：


	
	
		
	

	
		    $str = "三知sunchis开发网";  
	

	
		    echo strlen($str)."
";               //结果：22  
	

	
		    echo mb_strlen($str,"UTF8")."
";     //结果：12  
	

	
		    $strlen = (strlen($str)+mb_strlen($str,"UTF8"))/2;  
	

	
		    echo $strlen;                           //结果：17  
	

	
		?>

原理分析：

strlen()计算时，对待UTF-8的中文字符长度是3，所以“三知sunchis开发网”的长度为5×3+7×1=22
在mb_strlen计算时，选定内码为UTF8，则会将一个中文字符当作长度1来计算，所以“三知sunchis开发网”长度为5×1+7×1=12

剩下的就是纯数学问题了，在此就不啰嗦了……

注意：对于mb_strlen($str,'UTF-8')，如果省略第二个参数，则会使用PHP的内部编码。内部编码可以通过mb_internal_encoding()函数得到。需要注意的是，mb_strlen并不是PHP核心函数，使用前需要确保在php.ini中加载了php_mbstring.dll，即确保“extension=php_mbstring.dll”这一行存在并且没有被注释掉，否则会出现未定义函数的问题。

阅读(788) | 评论(0) | 转发(0) |

上一篇：linux2.6内核epoll用法举例说明

下一篇：MySQL中MyISAM与InnoDB的区别

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6