UTF-8编码中BOM的检测与删除-qgx2009-ChinaUnix博客

qgx2009qgx2009.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qgx2009

博客访问： 1288691
博文数量： 389
博客积分： 2874
博客等级：少校
技术积分： 3577
用户组：普通用户
注册时间： 2009-10-24 10:34

文章分类

全部博文（389）

pwa（1）
部署（1）
google oaut（1）
AI（2）
tarantool（2）
区块链（1）
lua（2）
strongswan（0）
openwrt（1）
ceph（6）
xen（1）
docher（1）
python（14）
SDN（2）
HA（4）
淘宝（1）
music（1）
技术和商机（6）
kvm优化（12）
虚拟化（42）
幼儿（2）
设计（1）
sql（2）
安全（18）
脚本语言（27）
linux（53）
android（2）
vm（0）
kernel（19）
养生（36）
cmmi（0）
网络（40）
读书（20）
arm（11）
qt（10）
c/c++（36）
未分配的博文（11）

文章存档

2020年（2）

2018年（39）

2017年（27）

2016年（3）

2015年（55）

2014年（92）

2013年（54）

2012年（53）

2011年（64）

我的朋友

相关博文

UTF-8编码中BOM的检测与删除

分类： C/C++

2011-10-26 17:17:03

所谓BOM，全称是，它是一个Unicode字符，通常出现在文本的开头，用来标识字节序（Big/Little Endian），除此以外还可以标识编码（UTF-8/16/32），如果出现在文本中间，则解释为。

注：Unicode相关知识的详细介绍请参考。

对于UTF-8/16/32而言，它们名字中的8/16/32指的是编码单位是多少位的，也就是说，它们的编码单位分别是8/16/32位，换算成字节就是1/2/4字节，如果是多字节，就要牵扯到字节序，UTF-8以单字节为编码单位，所以不存在字节序。

UTF-8主要的优点是可以兼容ASCII，但如果使用BOM的话，这个好处就荡然无存了，除此以外，BOM的存在还可能引发一些问题，比如下面错误便都有可能是BOM导致的：

Shell: #!/bin/sh: No such file or directory
PHP: Warning: Cannot modify header information - headers already sent

在详细讨论UTF-8编码中BOM的检测与删除问题前，不妨先通过一个例子热热身：

# curl -s | head -1 | sed -n l \357\273\277\r$

如上所示，前三个字节分别是357、273、277，这就是八进制的BOM。

# curl -s | head -1 | xxd 0000000: efbb bf3c 2144 4f43 5459 5045 2068 746d .....

如上所示，前三个字节分别是EF、BB、BF，这就是十六进制的BOM。

注：用到了第三方网站的页面，不能保证例子始终可用。

实际做项目开发时，可能会面对成百上千个文本文件，如果有几个文件混入了BOM，那么很难察觉，如果没有带BOM的UTF文本文件例子，可以用vi杜撰几个，相关命令如下：

#设置UTF-8编码 :set fileencoding=utf-8 #添加BOM :set bomb #删除BOM :set nobomb #查询BOM :set bomb?

如何检测UTF-8编码中的BOM呢？

shell> grep -r -I -l $'^\xEF\xBB\xBF' /path

如何删除UTF-8编码中的BOM呢？

shell> grep -r -I -l $'^\xEF\xBB\xBF' /path | xargs sed -i 's/^\xEF\xBB\xBF//;q'

推荐：如果你使用SVN的话，可以在pre-commit钩子里加上相关代码，从源头杜绝BOM。

#!/bin/sh REPOS="$1" TXN="$2" SVNLOOK=/usr/bin/svnlook FILES=`$SVNLOOK changed -t "$TXN" "$REPOS" | awk {'print $2'}` for FILE in $FILES; do if $SVNLOOK cat -t "$TXN" "$REPOS" "$FILE" | grep -q $'^\xEF\xBB\xBF'; then echo "Byte Order Mark found in $FILE" 1>&2 exit 1 fi done

篇幅所限，恕不详述，未尽事宜大家就请自己搜索吧。

http://blogread.cn/it/article.php?id=3579

阅读(1450) | 评论(0) | 转发(1) |

上一篇：帧中继

下一篇：slickedit 快捷键一

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6