发现的一篇解惑文章。师者，解惑也。-wangzhen11aaa-ChinaUnix博客

wangzhen11aaawangzhen.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wangzhen11aaa

博客访问： 309299
博文数量： 94
博客积分： 2163
博客等级：大尉
技术积分： 932
用户组：普通用户
注册时间： 2010-12-20 09:23

文章分类

全部博文（94）

kernel 相关（3）
应用程序 ELF imp（4）
AT&T汇编（3）
CPU指令解释（2）
POSIX（0）
GCC（3）
我的意思（7）
算法导论－分析（4）
wget project（35）
linux-2.6.x.x（9）
好文章（5）
ULK翻译（7）
中断机制（1）
LINUX 0.11学习（1）
LINUX 驱动（1）
LINUX 文件系统（1）
LINUX 内存管理（1）
LINUX 网络堆栈（6）
未分配的博文（1）

文章存档

2012年（2）

2011年（92）

我的朋友

相关博文

发现的一篇解惑文章。师者，解惑也。

分类： LINUX

2011-10-03 21:59:47

在绝大多数情况下，包括某些专业文章中，字符集和编码都统称为编码，这是因为一个字符集往往对应一种编码。但是在程序中，我们来不得半点马虎，我们应该清楚地知道字符集和编码有什么区别。以 ASP.NET 为例，Response.Charset 和 Response.Output.Encoding（只读）中的 Charset 和 Encoding 有什么区别呢？

Charset 是字符集，Encoding 是编码。

字符集即字符的集合，规定了在这些集合里面有哪些字符，每一个字符都有一个编号（一个整数），但这只是编号不是编码。
编码就规定了一个编号如何与二进制交互。

我们大多数人最先接触到的字符集是 1963 年的 ASCII，其中的每一个字符只需要用一个字节来表示就可以了。但世界上有许多种语言，像亚洲文字，比如中文，常用汉字就几千个，仅用一个字节来表示显然是不够的，假如我们使用两个字节。

那么问题就来了，为什么我们要把两个字节看成是一个汉字的编号呢？为什么我们不把两个字节看成 ASCII 字符集的两个编号呢？为了解决此问题，就得使用编码来标识了。

还有一个问题，编号（整数）1234 在字符集 A 中代表“千”，1234 在字符集 B 中代表“一”，那么 1234 究竟代表什么字呢？这就得明确字符集了。

浏览器可以自动识别使用哪个字符集，一般说来它们使用 HTTP 头部的 Content-Type 标明的字符集，如果没有向 HTTP 头部发送该信息，一般参考使用 HTML 的 head 标签中的，为什么是参考使用呢？因为现在浏览器都比较聪明，如果发现这里用错了，一般会给予纠正。

我们做网页时，如果指定的 Charset 是 GB2312，那么就不应该在网页中出现繁体字，因为 GB2312 标准只有几千个简体的中文字。如果我们的网页编码是 UTF-8，我们就不要指定字符集是 GB2312，因为虽然 UTF-8 编码对应的 UTF-8 字符集包含了 GB2312 的字符，但同一个字符在两个字符集中的编号不一样。

以及一个很有用的解释Content-Type的文章，有道理是必须的。因为那是wiki。

阅读(997) | 评论(0) | 转发(0) |

上一篇：wget 原代码分析十三

下一篇：知道无名的调用－远在天边，近在眼前。main.c

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6