浏览器编码-leanderlee-ChinaUnix博客

点滴记录，是前进的脚步lide.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

leanderlee

博客访问： 1196158
博文数量： 181
博客积分： 4968
博客等级：上校
技术积分： 1867
用户组：普通用户
注册时间： 2008-01-13 21:52

文章分类

全部博文（181）

nginx（8）
其它（8）
移动互联（4）
Linux开发（108）
C/C++/QT（19）
日语与日本文化（19）
English（6）
未分配的博文（9）

文章存档

2015年（2）

2013年（6）

2012年（22）

2011年（41）

2010年（27）

2009年（51）

2008年（32）

我的朋友

相关博文

浏览器编码

分类： LINUX

2011-07-27 15:56:40

很长一段时间莫有更新了，今天收集了一些关于页面编码的文章，并咨询了业内高手，有了这篇文章，帮大家梳理一下关于浏览器编码这一块的信息。
在页面显示的时候，有时就可能出现乱码的情况。通过之前那篇文件可以知道乱码的缘由就是其编码转换时的错误，
本来是GBK的存储方式，却用UTF-8的方式去读取，那页面不得不出现乱码了。

     W3C规范中：
      The document character set, however, does not suffice to allow user agents to correctly interpret HTML documents as they are typically exchanged -- encoded as a sequence of bytes in a file or during a  network transmission. User agents must also know the specific character encoding that was used to  transform the document character stream into a byte stream.

        在转换的时候，我们得明确传过来的字节流或文件的编码，而浏览器通过什么样的方式识别编码？

Also, protocol headers, attributes, and parameters referring to character encodings share the same name -- "charset" --and use the same values from the [IANA] registry 。
通过协议头部，或属性或参数来指定charset

当请求的时候，user agent 会提供一个accept-charset的属性发到服务端，这样服务端也就知道可以采用什么样的编码发送回去。现在的服务器有更不错的方式，可以自己设置编码，这样的结果是编码有可能会错误，而出现乱码。服务端设置编码是在HTTP的消息头部header中申明 Content-Type:text/html;charset=UTF-8这样的方式，而如果不设置，则浏览器就通过另外的方式去寻找页面的编码。

当http头部的charset未设置，或者字符编码不能识别的时候（比如没有在[IANA]中注册过）的时候，浏览器会解析HTML文档当解析到

注意：这里要注意一个地方，若http头部charset未设置，浏览器会开始去解析HTML文档，如果如果设置其meta，请在head中尽早出现。 (这里其实还是有一个小问题没解决，浏览器在发现charset未设置的时候，然后以何种编码解析HTML文件，这个有待争议，下次测试才知道)

从以上可以得知：
  关于页面的编码决定顺序：
  1.如果HTTP头部申明了charset，则会使用HTTP头部的，
  2.让HTTP头部莫有使用，或charset不可识别，则会去解析meta标签的，
  3.如果meta也没有的话，则会使用自动检测，如果用户允许的话，
  4.否则会使用本地UI的字符编码。

  关于CSS文件的编码决定顺序：
  根据 CSS 2.1 规范的描述，应按照以下优先级来确定一个外部 CSS 文件的编码：
  1.HTTP 响应头中 "Content-Type" 字段的 "charset" 参数指定的编码。
  2.BOM 以及/或者 @charset 定义的编码。
  3. 或其他链接机制提供的元数据（如果有的话）指定的编码。
  4.引入该 CSS 文件的 HTML 或另一个 CSS 文件（如果有的话）中已确定的编码。
  5.如果以上几步都没能确定编码，则假定其编码为 UTF-8。

   而JS文件的编码决定顺序应大致不差，如同页面一般，未证实。找到相关的规范或官方文档后确定

  所以关于页面编码建议的模式如下：
  1，尽量将页面保存为UTF-8；
  2，要申明文档使用的编码，如果可能，对HTTP header进行设置；
  3，在外部css文件中使用@charset规则，当css中包含非ANSI的内容；
  4，避免使用BOM在用UTF-8的时候，保证HTML代码是Unicode无BOM的正规化保存；
  5，尽量避免使用转义字符。
  总结转自

浅见，欢迎大家指正。

阅读(808) | 评论(0) | 转发(0) |

上一篇：svn 中tag branch trunk 的用法

下一篇：VIM 文件编码识别与乱码处理

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6