Python学习笔记——Unicode-yueming-ChinaUnix博客

疯狂Erlangyueming.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yueming

博客访问： 5175137
博文数量： 921
博客积分： 16037
博客等级：上将
技术积分： 8469
用户组：普通用户
注册时间： 2006-04-05 02:08

文章分类

全部博文（921）

计算机网络（2）
git（2）
数据结构和算法（4）
Erlang（100）

mnesia（1）
云计算（5）
游戏开发（30）
C++/C（1）
Flex（2）

Flex框架（0）

mxml（0）

AS3（0）
UML（1）
数据库（54）

MongoDB（1）

NOSQL（4）

关系型(Mysql)（0）

redis（49）
python（266）

gevent（2）

Django（7）

Twisted（94）

wxpython（0）
WEB系统架构（6）
英文文档翻译（0）

Magento文档翻译（0）
PHP5（82）
jQuery（4）
zend framework（36）
AJAX（6）
js（19）
css+div（0）
web2.0技术（1）
Linux（52）
教学内容（4）
IT生活杂谈（12）

C/C++（4）
ksh&sh&csh（14）
WINDOWS（9）

AMP（9）

平面&三维设计（0）

网页三剑客&&html（0）

asp&&sqlserver（0）
netbsd&&openbsd（0）
gcc&&makefile（6）
FAMP（151）
FreeBSD（41）
未分配的博文（11）

文章存档

2020年（1）

2019年（3）

2018年（3）

2017年（6）

2016年（47）

2015年（72）

2014年（25）

2013年（72）

2012年（125）

2011年（182）

2010年（42）

2009年（14）

2008年（85）

2007年（89）

2006年（155）

我的朋友

相关博文

Python学习笔记——Unicode

分类： Python/Ruby

2011-02-16 00:43:29

关于Unicode的详细情况可以参考百度百科：

这里简单的说一下。（下面内容基本上时从《Python.Core.Programming.2ed》上摘的）

Unicode是计算机可以支持这个星球上的多种语言的秘密武器，在Unicode之前，用的都是ASCII，ASCII吗非常简单，每个英文字符都用7位二进制数的方式存储在计算机内，其范围是32到126.它的实现原理这里也不说了。

但是ASCII码只能表示95个可打印的字符，后来把ASCII扩展到了8位，这样就能表示223个字符了，虽然这个来表示欧美字母语言已经足够了，但是对于像中文等语系来说就太少了。于是Unicode码诞生了。

Unicode通过使用一个或者多个字节来表示一个字符，这样就突破了ASCII的限制，这样，Unicode可以表示超过90000个字符了。

Python 与Unicode

为了让Unicode和ASCII码值的字符串看起来尽可能的相像，Python的字符串从原来的简单数据类型改变成了真正的对象，ASCII字符串成了ＳｔｒｉｎｇＴｙｐｅ，而Ｕｎｉｃｏｄｅ字符串成了UnicodeType类型，他们的行为非常相近。String模块里面都有相应的处理函数。String模块已经停止了更新，只保留了对ＡＳＸＩＩ码的支持，string模块已经不推荐使用，在任何要跟Ｕｎｉｃｏｄｅ兼容的代码里都不要再用该模块，Python保留该模块仅仅为了向后兼容。

Python里面默认所有字面上的字符串都用ASCII编码，可以通过在字符串前面加一个‘ｕ’前缀的方式声明Ｕｎｉｃｏｄｅ字符串，这个‘ｕ’前缀告诉Python后面的字符串要编成Ｕｎｉｃｏｄｅ字符串。

>>> "Hello World" #ASCII string

'Hello World'

>>> u"Hello World" #Unicode string

u'Hello World'

内建的str()函数和chr（）函数不能处理Unicode，它们只能处理常规ASCII编码的字符串，如果一个Unicode字符串作为参数传给了str（）函数，它会首先被转换成ASCII码字符串然后交给str（）函数。

Codecs

Codec是把Coder/DECoder得首字母组合，它定义了文本跟二进制的转换方式，跟ASCII那种用一个字节把字符转换成数字的方式不同，Unicode用的是多字节，这导致了Unicode支持多种不同的编码方式，比如说codec支持的四种耳熟能详的编码方式是：ASCII，ISO8859—1/Latin-1，UTF-8,和UTF-16

最著名的是UTF-8编码，它也用一个字节来编码ASCII字符，这让那些必须同时处理ASCII码和Unicode码文本的程序员的工作变得非常轻松，因为ASCII字符的UTF-8编码和ASCII编码完全相同。

UTF-8编码可以用1到4个字节来表示其他语言的字符，这给那些需要直接处理Unicode数据的程序员带来了麻烦，因为他们没有办法按照固定长度逐一读出各个字符，幸运的是我们不需要掌握直接读取Unicode数据的方法，Python已经替我们完成了相关细节，我们无需为处理多字节字符的复杂问题而担心。

UTF-16也是一种变长编码，但是它不常用。

编码解码

Unicode支持多种编码格式，这为程序员带来了额外的负担，每当你向一个文件写入字符串的时候，你必须定义一个编码用于把对应的Unicode内容转换成你定义的格式，Python通过Unicode字符串的encode()函数解决了这个问题，该函数接受字符串中的字符为参数，输出你指定的编码格式的内容。

所以，每次我们写一个Unicode字符串到磁盘上我们都要用指定的编码器给他“编码“一下，相应地，当我们从这个文件读取数据时，我们必须”解码”该文件，使之成为Unicode字符串对象。

简单的例子：

下面的代码创建了一个Unicode字符串，用UTF-8编码器将它编码，然后写入到一个文件中去，接着把数据从文件中读回来，解码成Unicode字符串对象，最后，打印出Unicode字符串，用以确认程序正确地运行。

在Linux中编写，在VIM中输入如下代码，保存为uniFile.py，红字是我加的注释

# /home/xiaopeng/python/code/uniFile.py

'''

An example of reading and writing Unicode strings:Writes

a Unicode string to a file in utf-8 and reads it back in

'''

CODEC = 'utf-8' 编码方式

FILE = 'unicode.txt' 要存的文件名

hello_out = u"Hello world\n" 创建了一个Unicode格式的字符串

bytes_out = hello_out.encode(CODEC) 用UTF-8编码

f = open(FILE,'w')

f.write(bytes_out) 写入指定文件中

f.close()

f = open(FILE,'r')

bytes_in = f.read() 读取

f.close()

hello_in = bytes_in.decode(CODEC) 解码

print hello_in 打印

在终端中输入：python uniFile.py

结果打印出 Hello world

然后我们在python目录下会发现多了一个名为unicode.txt的文件，用cat命令查看一下，发现里面的内容和打印的结果一样.

把Unicode应用到实际中注意一下四点：

1 程序中出现字符串时一定要加一个前缀u

2 不要用str（）函数，用Unicode（）代替

3 不要用过时的string模块。如果传给它非ASCII码，它会把一切搞砸。

4 不到必须时不要在你的程序里编解码Unicode字符，只在你要写入文件或者数据库或者网络时，才调用encode（）函数和decode（）函数。

阅读(805) | 评论(0) | 转发(0) |

上一篇：Python 操作配置文件汇总

下一篇：python中字典的排序

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6