python encode与decode-yueming-ChinaUnix博客

疯狂Erlangyueming.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yueming

博客访问： 5183200
博文数量： 921
博客积分： 16037
博客等级：上将
技术积分： 8469
用户组：普通用户
注册时间： 2006-04-05 02:08

文章分类

全部博文（921）

计算机网络（2）
git（2）
数据结构和算法（4）
Erlang（100）

mnesia（1）
云计算（5）
游戏开发（30）
C++/C（1）
Flex（2）

Flex框架（0）

mxml（0）

AS3（0）
UML（1）
数据库（54）

MongoDB（1）

NOSQL（4）

关系型(Mysql)（0）

redis（49）
python（266）

gevent（2）

Django（7）

Twisted（94）

wxpython（0）
WEB系统架构（6）
英文文档翻译（0）

Magento文档翻译（0）
PHP5（82）
jQuery（4）
zend framework（36）
AJAX（6）
js（19）
css+div（0）
web2.0技术（1）
Linux（52）
教学内容（4）
IT生活杂谈（12）

C/C++（4）
ksh&sh&csh（14）
WINDOWS（9）

AMP（9）

平面&三维设计（0）

网页三剑客&&html（0）

asp&&sqlserver（0）
netbsd&&openbsd（0）
gcc&&makefile（6）
FAMP（151）
FreeBSD（41）
未分配的博文（11）

文章存档

2020年（1）

2019年（3）

2018年（3）

2017年（6）

2016年（47）

2015年（72）

2014年（25）

2013年（72）

2012年（125）

2011年（182）

2010年（42）

2009年（14）

2008年（85）

2007年（89）

2006年（155）

我的朋友

相关博文

python encode与decode

分类： Python/Ruby

2011-05-12 09:50:31

为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本文就来研究一下这个问题。
字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码

代码中字符串的默认编码与代码文件本身的编码一致。

如：s='中文'

如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。

如果字符串是这样定义：s=u'中文'

则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。

如果一个字符串已经是unicode了，再进行解码则将出错，因此通常要对其编码方式是否为unicode进行判断：

isinstance(s, unicode) #用来判断是否为unicode

用非unicode编码形式的str来encode会报错

如何获得系统的默认编码？

#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()

该段程序在英文WindowsXP上输出为：ascii

在某些IDE中，字符串的输出总是出现乱码，甚至错误，其实是由于IDE的结果输出控制台自身不能显示字符串的编码，而不是程序本身的问题。

如在UliPad中运行如下代码：

s=u"中文"
print s

会提示：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的（英文系统的默认编码是 ascii），而上面代码中的字符串是Unicode编码的，所以输出时产生了错误。

将最后一句改为：print s.encode('gb2312')

则能正确输出“中文”两个字。

若最后一句改为：print s.encode('utf8')

则输出：\xe4\xb8\xad\xe6\x96\x87，这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。

unicode(str,'gb2312')与str.decode('gb2312')是一样的，都是将gb2312编码的str转为unicode编码

使用str.__class__可以查看str的编码形式

# -*- coding: utf-8 -*-
import sys, urllib
import re
url = ""
wp = urllib.urlopen(url)
#打开连接
content = wp.read()
#获取页面内容
titlere = re.compile(r"
([\s\S]*)
",re.I) #（可以获取所有内容包括换行）
title = titlere.search(content).group(1).decode('UTF-8').encode('GBK') #：将乱码换成中文
s=title.split('
')
for i in s:
print i
print s
print s[2]
s[2]=s[2].decode('gb2312')
for i in s[2]:
print i
if '具体' in s[2]:
print 's'

阅读(1649) | 评论(0) | 转发(0) |

上一篇：python join 和 split方法的使用

下一篇：python logging模块学习

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6