UTF-8编码中BOM的检测与删除-ljc

自信

首页　| 　博文目录　| 　关于我

ljc_2155

博客访问： 518309
博文数量： 401
博客积分： 244
博客等级：入伍新兵
技术积分： 2215
用户组：普通用户
注册时间： 2012-08-04 10:02

文章分类

全部博文（401）

aix（3）
linux（12）
宝宝（9）
健康（2）
生活（6）
oracle（2）
shell（19）
未分配的博文（348）

文章存档

2013年（37）

2012年（364）

我的朋友

最近访客

推荐博文

UTF-8编码中BOM的检测与删除

分类：

2012-11-08 10:00:35

原文地址：UTF-8编码中BOM的检测与删除作者：qgx2009

所谓BOM，全称是，它是一个Unicode字符，通常出现在文本的开头，用来标识字节序（Big/Little Endian），除此以外还可以标识编码（UTF-8/16/32），如果出现在文本中间，则解释为。

注：Unicode相关知识的详细介绍请参考。

对于UTF-8/16/32而言，它们名字中的8/16/32指的是编码单位是多少位的，也就是说，它们的编码单位分别是8/16/32位，换算成字节就是1/2/4字节，如果是多字节，就要牵扯到字节序，UTF-8以单字节为编码单位，所以不存在字节序。

UTF-8主要的优点是可以兼容ASCII，但如果使用BOM的话，这个好处就荡然无存了，除此以外，BOM的存在还可能引发一些问题，比如下面错误便都有可能是BOM导致的：

Shell: #!/bin/sh: No such file or directory
PHP: Warning: Cannot modify header information - headers already sent

在详细讨论UTF-8编码中BOM的检测与删除问题前，不妨先通过一个例子热热身：

# curl -s | head -1 | sed -n l \357\273\277\r$

如上所示，前三个字节分别是357、273、277，这就是八进制的BOM。

# curl -s | head -1 | xxd 0000000: efbb bf3c 2144 4f43 5459 5045 2068 746d .....

如上所示，前三个字节分别是EF、BB、BF，这就是十六进制的BOM。

注：用到了第三方网站的页面，不能保证例子始终可用。

实际做项目开发时，可能会面对成百上千个文本文件，如果有几个文件混入了BOM，那么很难察觉，如果没有带BOM的UTF文本文件例子，可以用vi杜撰几个，相关命令如下：

#设置UTF-8编码 :set fileencoding=utf-8 #添加BOM :set bomb #删除BOM :set nobomb #查询BOM :set bomb?

如何检测UTF-8编码中的BOM呢？

shell> grep -r -I -l $'^\xEF\xBB\xBF' /path

如何删除UTF-8编码中的BOM呢？

shell> grep -r -I -l $'^\xEF\xBB\xBF' /path | xargs sed -i 's/^\xEF\xBB\xBF//;q'

推荐：如果你使用SVN的话，可以在pre-commit钩子里加上相关代码，从源头杜绝BOM。

#!/bin/sh REPOS="$1" TXN="$2" SVNLOOK=/usr/bin/svnlook FILES=`$SVNLOOK changed -t "$TXN" "$REPOS" | awk {'print $2'}` for FILE in $FILES; do if $SVNLOOK cat -t "$TXN" "$REPOS" "$FILE" | grep -q $'^\xEF\xBB\xBF'; then echo "Byte Order Mark found in $FILE" 1>&2 exit 1 fi done

篇幅所限，恕不详述，未尽事宜大家就请自己搜索吧。

http://blogread.cn/it/article.php?id=3579

阅读(1698) | 评论(0) | 转发(0) |

上一篇：几个实用的国内外免费流量统计服务网站介绍［实用资料］

下一篇：linux下查看文本文件编码格式

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6