python unicode-checl1987_EE-ChinaUnix博客

checl1987_EEchechunli.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

checl1987_EE

博客访问： 598181
博文数量： 213
博客积分： 6789
博客等级：准将
技术积分： 1947
用户组：普通用户
注册时间： 2009-09-01 17:11

文章分类

全部博文（213）

driver（2）
Linear Algebra（3）
life（6）
hardware（2）
SCM（5）
cygwin（4）
picture（2）
vim emacs（12）
android（11）
C++（10）
APUE（20）
Makefile（9）
python（15）
kernel（37）
C（18）
Linux（57）
未分配的博文（0）

文章存档

2012年（9）

2011年（62）

2010年（99）

2009年（43）

我的朋友

相关博文

python unicode

分类： Python/Ruby

2010-03-24 10:53:25

Python的Unicode支持

1．内建的unicode()函数

Unicode的工厂方法，同Unicode字符串操作符（u / U）的工作方式很类似，它接受一个string做参数，返回一个Unicode字符串。

2．内建的decode()/encode()方法

decode()和encode()内建函数接受一个字符串做参数返回该字符串对应的解码后/编码后的字符串。decode()和encode()都可以应用于常规字符串和Unicode字符串。decode()方法是在Python2.2以后加入的。

3．Unicode 类型

Unicode字符串对象是basestring的子类、用Unicode()工厂方法或直接在字符串前面加一个u或者U来创建实例。支持Unicode原始字符串，只要在你的字符串前面加一个ur或者UR就可以了。

4．Unicode 序数

标准内建函数ord()工作方式相同，最近已经升级到可以支持Unicode对象了。内建的unichr()函数返回一个对应的Unicode字符（需要一个32位的值）；否则就产生一个ValueError异常。

5．强制类型转换

混合类型字符串操作需要把普通字符串转换成Unicode对象。

6．异常

UnicodeError异常是在exceptions模块中定义的，ValueError的子类。所有关于Unicode编解码的异常都要继承自UnicodeError。详见encode()函数。

7．标准编码

8．RE 引擎对Unicode的支持

编码描述

utf-8 变量长度为8的编码（默认编码）

utf-16 变量长度为16的编码（大/小端）

utf-16-le 小端UTF-16编码

utf-16-be 大端UTF-16编码

ascii7 7位ASCII码表

iso-8859-1 ISO 8859-1（Latin-1）码表

unicode-escape （定义见Python Unicode构造器）

raw-unicode-escape（定义见Python Unicode 构造器）

native Python用的内部格式

9．字符串格式化操作符

对于Python的格式化字符串的操作符，%s把Python字符串中的Unicode对象执行了str(u)操作，所以，输出的应该是u.encode（默认编码）。如果格式化字符串是Unicode对象，所有的参数都将首先强制转换成Unicode然后根据对应的格式串一起进行格式转换。数字首先被转换成普通字符串，然后在转换成Unicode。Python字符串通过默认编码格式转化成Unicode。Unicode对象不变，所有其他格式字符串都需要像上面这样转化，下面是例子。

u"%s %s" % (u"abc", "abc") ⇒ u"abc abc"

阅读(1443) | 评论(0) | 转发(0) |

上一篇：chmod

下一篇：python 字符串操作

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6