Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1501094
  • 博文数量: 218
  • 博客积分: 6394
  • 博客等级: 准将
  • 技术积分: 2563
  • 用 户 组: 普通用户
  • 注册时间: 2008-02-08 15:33
个人简介

持之以恒

文章分类

全部博文(218)

文章存档

2013年(8)

2012年(2)

2011年(21)

2010年(55)

2009年(116)

2008年(16)

分类:

2010-05-26 00:01:14

昨天写一个程序:用Win的ReadFile函数读取一个UNICODE编码的TXT文件,读进来发现前面两个字节是FFFE
后面网上搜了下一才知道
windows对UTF-8文件进行了特殊处理,即对UTF-8的文本文件自动在前面加了两个byte(FF FE),但是不会显示出来,我晕
只能用十六进制编辑器,将它删掉,汗

阅读(852) | 评论(2) | 转发(0) |
给主人留下些什么吧!~~

GilBert19872010-05-26 10:49:30

谢谢楼上的提醒,查了一下,的确是BOM BOM——Byte Order Mark 字节序标记。 在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little- Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

chinaunix网友2010-05-26 10:09:06

BOM??