web开发中的编码问题-sunday

Winged sundayjia.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sunday_jia

博客访问： 431161
博文数量： 79
博客积分： 2886
博客等级：少校
技术积分： 968
用户组：普通用户
注册时间： 2008-05-16 10:33

文章分类

全部博文（79）

设计模式第二遍（1）
未读文章（1）
DB（0）
面试总结（11）
Android（1）
English（0）
reference（1）
pre-sales（4）
Reading Notes（1）
Java Basic（22）
LFS（0）
C/C++ Basic（13）
TOEFL（0）
Web开发（13）
Algorithm（5）
未分配的博文（6）

文章存档

2013年（7）

2012年（17）

2011年（28）

2010年（25）

2009年（1）

2008年（1）

我的朋友

相关博文

web开发中的编码问题

分类： Java

2010-09-10 18:01:19

最近项目中遇到很多与编码有关的问题，补下关于字符集和字符编码的知识

0.字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。

字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，

常见字符集名称：ASCII字符集、GB2312字符集、Unicode字符集、BIG5字符集、 GB 18030字符集等。

计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

1.ASCII 字符集 (American Standard Code for Information Interchange，美国信息互换标准代码)

特点： 1）主要用于显示现代英语和其他西欧语言;

2）7位（bits）表示一个字符，共128字符

举例： Bin Dec Hex 缩写/字符

01000001 65 41 A

01100001 97 61 a

2.GB2312 字符集全称为《信息交换用汉字编码字符集·基本集》

特点： 1）GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率

2）分区表示、双字节表示

举例：

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

汉字 “啊”，它的区号16，位号01，则区位码是1601

计算公式是：0xB0=0xA0+16, 0xA1=0xA0+1，汉字处理编码结果为0xB0A1。

3.Unicode字符集（Universal Multiple-Octet Coded Character Set 通用多八位编码字符集）

特点： 1）Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码；

2）Unicode 标准始终使用十六进制数字；

3）UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format，即把Unicode转做某种格式的意思。

UTF-8的特点是对不同范围的字符使用不同长度的编码。

举例：“汉”字的Unicode编码是0x6C49，0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。

--------------------------------------------------------------------------------

1.首先确定工程以及其中文件的编码：

工程编码：

在MyEclipse的属性里，有几个地方可以改编码设置：

更改工作空间编码：window-->preference-->general-->worspace

更改特定类型文件编码：window-->preference-->general-->content type

MyEclipse-->window-->perferences--->myeclipse--->Files and Editor -->JSP--->Encoding

2.设定jsp页面的编码

<%@page pageEncoding="gb2312" contentType="text/html; charset=utf-8"%>

contentType的charset是指服务器发送给客户端时的内容编码

pageEncoding是jsp文件本身的编码

JSP要经过两次的“编码”，第一阶段会用pageEncoding，第二阶段会用utf-8至utf-8，第三阶段就是由Tomcat出来的网页，用的是contentType。

第一阶段是jsp编译成.java，它会根据pageEncoding的设定读取jsp，结果是由指定的编码方案翻译成统一的UTF-8 JAVA源码（即.java），如果pageEncoding设定错了，或没有设

定，出来的就是中文乱码。

第二阶段是由JAVAC的JAVA源码至java byteCode的编译，不论JSP编写时候用的是什么编码方案，经过这个阶段的结果全部是UTF-8的encoding的java源码。

JAVAC用UTF-8的encoding读取java源码，编译成UTF-8 encoding的二进制码（即.class），这是JVM对常数字串在二进制码（java encoding）内表达的规范。

第三阶段是Tomcat（或其的application container）载入和执行阶段二的来的JAVA二进制码，输出的结果，也就是在客户端见到的，这时隐藏在阶段一和阶段二的参数

contentType就发挥了功效

Tomcat默认使用ISO-8859-1方式去读取

--------------------------------------------------------------------------------

3.servlet中设置输出页面的编码格式：

response.setContentType("text/xml");

response.setCharacterEncoding("gb2312");

4.数据库的编码

(1) 数据库使用UTF-16

如果String中是UNICODE字符，写入读出时不需要转码

(2) 数据库使用ISO8859_1

如果String中是UNICODE字符，写入读出时需要转码

写入：String newStr = new String(oldStr.getByte(“GB2312”), “ISO8859_1”);

5.资源文件的编码方式和编辑平台相关。

WINDOWS平台下编写的资源文件，以GB2312方式编码。在编译时需要转码，以确保在各个平台上的正确性;

public String Asc2CNStringLang(String s)

{

char[] src = s.toCharArray();

byte[] tar = new byte[src.length];

for (int i=0;i

tar[i] = (byte)(src[i]&0xFF);

ByteToCharConverter toChar = ByteToCharConverter.getConverter("gb2312");

return new String(toChar.convertAll(tar));

}

阅读(1837) | 评论(0) | 转发(0) |

上一篇：Javascript调用OCX控件(转)

下一篇：JSP自定义标签实例(转)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6