Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1666133
  • 博文数量: 636
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 3950
  • 用 户 组: 普通用户
  • 注册时间: 2014-08-06 21:58
个人简介

博客是我工作的好帮手,遇到困难就来博客找资料

文章分类

全部博文(636)

文章存档

2024年(5)

2022年(2)

2021年(4)

2020年(40)

2019年(4)

2018年(78)

2017年(213)

2016年(41)

2015年(183)

2014年(66)

我的朋友

分类: 系统运维

2016-04-20 21:37:45

首先要搞清楚,字符串在Python内部的表示是unicode编码

因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode


再从unicode编码(encode)成另一种编码。 

decode的作用是将其他编码的字符串转换成unicode编码, 

如str1.decode('gb2312'),表示将gb2312编码的字符串转换成unicode编码。 

encode的作用是将unicode编码转换成其他编码的字符串, 

如str2.encode('gb2312'),表示将unicode编码的字符串转换成gb2312编码。 


在某些IDE中,字符串的输出总是出现乱码,甚至错误,其实是由于IDE的结果输出控制台自身不能显示字符串的编码,而不是程序本身的问题。 

如在UliPad中运行如下代码: 

s=u"中文" 

print s 

会提示: 

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。 

这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。 

将最后一句改为:print s.encode('gb2312') 则能正确输出“中文”两个字。 

若最后一句改为:print s.encode('utf8') 则输出:\xe4\xb8\xad\xe6\x96\x87, 

这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。 

另外,代码中字符串的默认编码与代码文件本身的编码一致, 

如: s='中文' 如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。


这种情况下,要进行编码转换,都需要先用decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。 

通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件,在这篇文章中可以看到如何获得系统的默认编码。 

如果字符串是这样定义: s=u'中文' 则该字符串的编码就被指定为unicode了,即python的内部编码,而与代码文件本身的编码无关。 

因此,对于这种情况做编码转换,只需要直接使用encode方法将其转换成指定编码即可。 

如果一个字符串已经是unicode了,再进行解码则将出错, 

因此通常要对其编码方式是否为unicode进行判断: 

isinstance(s, unicode) #用来判断是否为unicode  



在 python 源代码文件中,如果你有用到非ASCII字符,则需要在文件头部进行字符编码的声明,声明如下:

  1. # code: UTF-8


因为python 只检查 #、coding 和编码字符串,所以你可能回见到下面的声明方式,这是有些人为了美观等原因才这样写的:

  1. #-*- codingUTF--*-


常见编码介绍:

  • GB2312编码:适用于汉字处理、汉字通信等系统之间的信息交换

  • GBK编码:是汉字编码标准之一,是在 GB2312-80 标准基础上的内码扩展规范,使用了双字节编码

  • ASCII编码:是对英语字符和二进制之间的关系做的统一规定

  • Unicode编码:这是一种世界上所有字符的编码。当然了它没有规定的存储方式。

  • UTF-8编码:是 Unicode Transformation Format - 8 bit 的缩写, UTF-8 是 Unicode 的一种实现方式。它是可变长的编码方式,可以使用 1~4 个字节表示一个字符,可根据不同的符号而变化字节长度。

编码转换:

Python内部的字符串一般都是 Unicode编码。代码中字符串的默认编码与代码文件本身的编码是一致的。所以要做一些编码转换通常是要以Unicode作为中间编码进行转换的,即先将其他编码的字符串解码(decode)成 Unicode,再从 Unicode编码(encode)成另一种编码。

  • decode 的作用是将其他编码的字符串转换成 Unicode 编码

  • eg name.decode(“GB2312”),表示将GB2312编码的字符串name转换成Unicode编码

  • encode 的作用是将Unicode编码转换成其他编码的字符串

  • eg name.encode(”GB2312“),表示将GB2312编码的字符串name转换成GB2312编码

所以在进行编码转换的时候必须先知道 name 是那种编码,然后 decode 成 Unicode 编码,最后载 encode 成需要编码的编码。当然了,如果 name 已经就是 Unicode 编码了,那么就不需要进行 decode 进行解码转换了,直接用 encode 就可以编码成你所需要的编码。值得注意的是:对 Unicode 进行编码和对 str 进行编码都是错误的。

具体的说就是:
如果在UTF-8文件中,则这个字符串就是 UTF-8编码的。它的编码取决于当前的文本编码。当然了,GB2312文本的编码就是GB2312。要在同一个文本中进行两种编码的输出等操作就必须进行编码的转换,先用decode将文本原来的编码转换成Unicode,再用encode将编码转换成需要转换成的编码。

eg:
由于内置函数 open() 打开文件时,read() 读取的是 str,读取后需要使用正确的编码格式进行 decode()。write() 写入时,如果参数是 Unicode,则需要使用你希望写入的编码进行 encode(),如果是其他编码格式的 str,则需要先用该 str 的编码进行 decode(),转成 Unicode 后再使用写入的编码进行 encode()。如果直接将 Unicode 作为参数传入 write() ,python 将先使用源代码文件声明的字符编码进行编码然后写入。

  1. # coding: UTF-8

  2.  

  3. fp1 = open('test.txt', 'r')

  4. info1 = fp1.read()

  5. # 已知是 GBK 编码,解码成 Unicode

  6. tmp = info1.decode('GBK')

  7.  

  8. fp2 = open('test.txt', 'w')

  9. # 编码成 UTF-8 编码的 str

  10. info2 = tmp.encode('UTF-8')

  11. fp2.write(info2)

  12. fp2.close()


获取编码的方式:
判断是 s 字符串否为Unicode,如果是返回True,不是返回False :

  1. isinstance(s, unicode)


下面代码可以获取系统默认编码:

  1. #!/usr/bin/env python

  2. #coding=utf-8

  3. import sys

  4. print sys.getdefaultencoding()



另外对于一些包含特殊字符的编码,直接解码可能会报错,可以使用对于的参数来设置。如:
s.decode("utf-8", "ignore") 忽略其中有异常的编码,仅显示有效的编码
s.decode("utf-8", "replace") 替换其中异常的编码,这个相对来可能一眼就知道那些字符编码出问题了。

从unicode转str,被看做是把一个信息文本编码为二进制字节流的过程,要用encode方法


阅读(1424) | 评论(1) | 转发(1) |
给主人留下些什么吧!~~

国辉1102016-11-10 19:41:27

很全面,收藏了