Django 无法显示中文;SyntaxError: Non-ASCII character ..-libydwei2007-ChinaUnix博客

Libydweilibydwei.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

libydwei2007

博客访问： 586012
博文数量： 80
博客积分： 2393
博客等级：大尉
技术积分： 1434
用户组：普通用户
注册时间： 2007-12-03 21:46

个人简介

己所不欲勿施于人！

文章分类

全部博文（80）

python（13）
Work & Life（10）
Data Mining（2）
linux Manage（18）
Shell Program（3）
Oracle Manage（18）
Oracle Program（8）
SQL TUNING（0）
未分配的博文（8）

文章存档

2017年（1）

2016年（9）

2014年（1）

2013年（17）

2012年（5）

2011年（13）

2010年（9）

2009年（8）

2008年（17）

我的朋友

相关博文

Django 无法显示中文;SyntaxError: Non-ASCII character ..

分类： Python/Ruby

2013-05-05 12:12:40

转自：http://blog.csdn.net/hercaffe/article/details/5256314

遇到标题上的问题，按照我的解决广方案来吧

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

（一）
用记事本创建一个文件ChineseTest.py，默认ANSI：
s = "中文"
print s

测试一下瞧瞧：
E:/Project/Python/Test>python ChineseTest.py

File "ChineseTest.py", line 1
SyntaxError: Non-ASCII character '/xd6' in file ChineseTest.py on line 1, but no encoding declared ; see for details

偷偷地把文件编码改成UTF-8：
E:/Project/Python/Test>python ChineseTest.py
File "ChineseTest.py", line 1
SyntaxError: Non-ASCII character '/xe4' in file ChineseTest.py on line 1, but no encoding declared ; see
n.org/peps/pep-0263.html for details

无济于事。。。
既然它提供了网址，那就看看吧。简单地浏览一下，终于知道如果文件里有非ASCII字符，需要在第一行或第二行指定编码声明。把ChineseTest.py文件的编码重新改为ANSI，并加上编码声明：
# coding=gbk
s = "中文"
print s

再试一下：
E:/Project/Python/Test>python ChineseTest.py
中文

正常咯：）
（二）
看一看它的长度：
# coding=gbk
s = "中文"
print len(s)
结果：4。
s这里是str类型，所以计算的时候一个中文相当于两个英文字符，因此长度为4。
我们这样写:
# coding=gbk
s = "中文"
s1 = u"中文"
s2 = unicode(s, "gbk") #省略参数将用python默认的ASCII来解码
s3 = s.decode("gbk") #把str转换成unicode是decode，unicode函数作用与之相同
print len(s1)
print len(s2)
print len(s3)
结果：
2
2
2
（三）
接着来看看文件的处理：
建立一个文件test.txt，文件格式用ANSI，内容为:
abc中文
用python来读取
# coding=gbk
print open("Test.txt").read()
结果：abc中文
把文件格式改成UTF-8：
结果：abc涓枃
显然，这里需要解码：
# coding=gbk
import codecs
print open("Test.txt").read().decode("utf-8")
结果：abc中文
上面的test.txt我是用Editplus来编辑的，但当我用Windows自带的记事本编辑并存成UTF-8格式时，
运行时报错：
Traceback (most recent call last):
File "ChineseTest.py", line 3, in
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'/ufeff' in position 0: illegal multibyte sequence

原来，某些软件，如notepad，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。
因此我们在读取时需要自己去掉这些字符，python中的codecs module定义了这个常量：
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
结果：abc中文

（四）一点遗留问题
在第二部分中，我们用unicode函数和decode方法把str转换成unicode。为什么这两个函数的参数用"gbk"呢？
第一反应是我们的编码声明里用了gbk(# coding=gbk)，但真是这样？
修改一下源文件：
# coding=utf-8
s = "中文"
print unicode(s, "utf-8")
运行，报错：
Traceback (most recent call last):
File "ChineseTest.py", line 3, in
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data
显然，如果前面正常是因为两边都使用了gbk，那么这里我保持了两边utf-8一致，也应该正常，不至于报错。
更进一步的例子，如果我们这里转换仍然用gbk：
# coding=utf-8
s = "中文"
print unicode(s, "gbk")
结果：中文
python中的print原理：
简单地说，python中的print直接把字符串传递给操作系统，所以你需要把str解码成与操作系统一致的格式。Windows使用CP936(几乎与gbk相同)，所以这里可以使用gbk。
最后测试：
# coding=utf-8
s = "中文"
print unicode(s, "cp936")
结果：中文

阅读(5928) | 评论(0) | 转发(0) |

上一篇：The Django Book 学习笔记 --- Generic views(通用视图)

下一篇：Web app设计浅谈

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6