菜单1.10--把Unicode字符串当成一组8位字节-machine-ChinaUnix博客

machine的blogma2ma.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

machine

博客访问： 495847
博文数量： 142
博客积分： 4126
博客等级：上校
技术积分： 1545
用户组：普通用户
注册时间： 2008-02-22 10:03

文章分类

全部博文（142）

web浏览器研究（5）
网络研究（0）
mysql（3）
oracle（1）
java（1）
无关技术的事（10）
linux（46）

vim（8）

命令使用（5）

lfs（15）
config servise（2）
perl（54）

测试程序（1）

cookbook学习（20）
c program（11）
shell script（4）
未分配的博文（5）

文章存档

2011年（8）

2010年（7）

2009年（64）

2008年（63）

我的朋友

最近访客

推荐博文

菜单1.10--把Unicode字符串当成一组8位字节

分类：

2008-12-15 17:28:40

1.1.1 提出问题

你有一个Unicode字符串，你想让Perl把它当成一组字节看待。（比如要计算它的长度，或者为了I/0的需要）

1.1.2 解决方案

use bytes这个编译指令可以让perl在其词法作用域（lexical scope）内的所有操作把字符串当成一组字节来看待。当你的代码里面调用Perl那些对字符敏感(character-aware)的函数时，可以用这个指令：

$ff = "\x{FB00}"; # ff-连字符 $chars = length($ff); # 一个字符的长度 { use bytes; # 强制字节模式 $octets = length($ff); # 两个字节长度 } $chars = length($ff); # 回到一个字符长度

还有一种方法，Encode模块可以在Unicode字符串跟一组字节之间互相转化。如果你的代码里面没有对字符敏感的操作（译者：就是说用了use bytes也不会起到任何作用），那么就用这个方法吧：

use Encode qw(encode_utf8); sub somefunc; # 别处定义的子函数 $ff = "\x{FB00}"; # ff-连字符 $ff_oct = encode_utf8($ff); # 转换成字节模式 $chars = somefunc($ff); #工作在字符模式 $octets = somefunc($ff_oct); #工作在字节模式

1.1.3 讨论

跟这一章的介绍那一节说明的那样：Perl认识2种类型的字符串，一种是简单的非内插型的一组字节，另一种是一组Unicode字符，字符用的是UTF-8编码方式，每个字符可能需要超过1个字节的空间。每一个单独的字符串都有一个标志位，标记它是UTF-8编码还是一般的一组字节。Perl的I/O跟字符串操作（比如length）都会检查这个标志从而赋予字符或者字节语义。

有时候你需要以字节为单位进行操作而不是以字符为单位。举个例子，很多协议都有一个叫Content-Length的头部，这个头部指明了消息正文的字节长度。你不能简单的使用Perl的length函数来计算这个字节长度，因为如果字符串是标记了UTF-8编码的，那么length函数返回的是字符的数量而不是字符串的字节长度。

use bytes这个宏编译指令让Perl所有的函数在这个宏编译指令的词法作用域内在对字符串的处理上以字节为单位而不是字符。使用了这个宏编译指令，length函数返回的是字节的长度，read函数返回它实际读到的字节长度。由于use bytes仅在其词法作用域内起作用，所以你无法使用这个宏编译指令来改变超出它作用域的那些行为。

由于上面这个原因你需要创建这个UTF-8字符串的一个以字节为单位编码的副本（octet-encoded copy）。这个副本跟原UTF-8字符串在在内存里面的字节流当然是一样的，区别只在于这个副本已经没有了UTF-8的标志。这样的话，那些函数只会把这个副本当成一组字节来看，跟所处的词法作用域已经没有关系了。

同样地有一个no bytes的宏编译指令用于强制以字符为单位（character semantics），还有一个decode_utf8函数，用来把以字节为单位编码的字符串转化成UTF-8编码的字符串。其实这些函数并不是很有用，因为不是所有字节字符串都是有效的UTF-8字符串，但是所有的UTF-8字符串都是有效的字节字符串。

1.2.4 参考

bytes 这个宏编译指令的相关文档; 标准Encode模块的文档。

阅读(661) | 评论(0) | 转发(0) |

上一篇：菜单1.9--标准化含有Combined Characters的字符串

下一篇：perl中map函数用法--来自cu

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6