c语言中的注释，multi-line comment-sil-ChinaUnix博客

淡泊明志宁静致远

首页　| 　博文目录　| 　关于我

sil

博客访问： 1357698
博文数量： 92
博客积分： 10389
博客等级：上将
技术积分： 1918
用户组：普通用户
注册时间： 2006-08-10 16:13

文章分类

全部博文（92）

华丽的美学（3）
大师级的美学（6）
Banality（7）
音乐（0）
开发常用（6）
--C语言，万物之（14）

c语言变量（2）

自己的程序该怎么（7）

define用法（1）

c代码的优化（1）

函数还是这个好听（0）

数据结构（0）

inline（2）
--Avrplatform---（3）

avr fuse熔丝（2）

avr bootloader（1）
--EmbedHardware（10）

HD ADC（1）

HD GSM（3）

Arm架构以及外部（1）

HD nand flash（3）

HD sdram（1）

HD bus如iic,iis（1）
--EmbedLinux---（11）

LINUX网络协议（1）

linux 配置与功能（2）

kernel中类似概念（1）

系统启动流程（1）

根文件系统制作如（2）

点滴 CPU界知名（2）

S Arm汇编（2）

uboot vivi redbo（0）
--linux kernel--（1）

文件系统分析（0）

驱动实践与GUI（0）

linux code struc（1）
--HighSoftware（18）

linux/proc（1）

SW Bash 编程 Mak（3）

系统概念基础性（5）

S 编译原理，编译（1）

SW LINUX编程（7）

SWtool 程序跟踪（0）

应用程序跟踪（1）
--算法与协议----（5）

协议如串口XMODEM（0）

程序中典型算法如（5）
--Attetude---（2）

软件架构（0）

软件开发方法（0）

软件思想（0）

软件版本，代码托（2）
--开源艺术（1）

ffmpeg（1）
数据格式图片视频（1）
未分配的博文（4）

文章存档

2014年（1）

2012年（15）

2009年（6）

2008年（37）

2007年（72）

2006年（54）

我的朋友

xc790

相关博文

c语言中的注释，multi-line comment

分类： LINUX

2008-05-26 10:08:26

在C/C++语言中，
在对源文件做预处理的时候，有两条基本原则：
1、凡是以//开头的为单行注释
2、凡是以\结尾的代表此行尚未结束

于是预处理器在处理的时候会先按第二条规则，看每行的末尾的那个字符是不是”\”,是的
话，就下一行接到本行。
然后把所有以//开头的注释和/* */的块注释去掉。

但是存在一个问题，
对于big5中的汉字而言，其第一个字节的编码范围是0xA1 - 0xFE，第二个字节是0×40 -
0xFE。而’\'的ASCII码是0×5c.这就意味这，凡是以big5编码的文件，如果gcc没有正确的
认为它源文件的编码是big5,那么就可能出现因为单行注释末尾是汉字，而把下行的代码
吃掉的情况。这样是很危险的，但是gcc会给出一个警告：”warning: multi-line
comment In file”

这样的问题在gbk中同样存在。
将下面的代码
—————————————————————————–
//你篭
int main(int argc,char* argv[]){
return 0;
}
—————————————————————————–
以gbk的方式保存，并采用gcc 3.4编译。
无论是solaris 8还是freebsd 6.2,无论shell的locale的设置是zh_CN.GBK还是
zh_CN.UTF-8,所得到的错误都是相同的
$ gcc -c testgbk.cpp
testgbk.cpp:5: error: expected unqualified-id before “return”
testgbk.cpp:6: error: expected declaration before ‘}’ token

g++ 3.3下显示：
testgbk.cpp:3: error: parse error before `return’

原因很简单，我把“好”字的GBK编码的后半个字节改成了’\'的编码，从而得到了”篭”字。
gcc发现’\'后面接着的就是’\n’,故而把下一行”int main(int argc,char* argv[]){”也
当做注释一并删除掉了。

按gcc 3.4的man页，gcc会根据shell的locale设置来猜测源文件的编码格式，否则它会把
其当作utf-8来处理。但是据我在Freebsd和solaris系统中观察，gcc 3.4并没有根据环境
变量来猜测源文件的编码。

一个不错的解决方案是，强行给gcc添加-finput-charset=big5这样的参数，来解决此问
题。类似的还有-fexec-charset，-fwide-exec-charset用于指定执行环境的编码。但是
不幸的是，gcc内部的处理都是基于utf-8的,且其转换工作一般是靠系统的iconv转码库来
完成的。所以系统库必须提供 GBK<-> UTF-8 、BIG5 <-> UTF-8 的编码.

例如，我在Freebsd 6.2下使用这样的参数编译一个测试文件：
$ gcc -c testbig5.cpp -finput-charset=big5 -fexec-charset=big5 -fwide-exec-charset=big5
所得到的输出是：
cc1plus: no iconv implementation, cannot convert from big5 to UTF-8
cc1plus: no iconv implementation, cannot convert from UTF-8 to big5
cc1plus: no iconv implementation, cannot convert from UTF-8 to big5

所以这种方案的缺点是
1、缺乏通用性，缺乏可移植性。
Freebsd的内核中的转码是靠查一个16位的表，所以无法处理utf-8中的汉字(因为汉字是3
字节),而直到最新的，要到08才能发布的Freebsd 7.x,此问题也依然没有被解决。
而Solaris最初的代码是基于BSD的。它所提供的iconv转码功能也非常差。

2、添加了很多额外的转码操作。
目前，utf-8(unicode)尚未完全容纳GBK、big5的全部字符。很多字符是转换不过去的。

另一个折衷的方案是：保证每行注释都以句号或者空格结尾。
缺点是，需要检查并改动很多文件。
且，特殊汉字依然有可能出现在源文件的常量字符串中。问题依旧。
例如
const char* s=”你篭”;
写成这样的怪样子就可以编译了：
const char* s=”你篭”";

较好的解决方案是源文件都以UTF-8格式编码。这样可以最大限度的减少转码次数。
最彻底的解决方案是引入gettext，不在源文件中存储汉字的常量字符串。改用单独的文件
存储。目前包括很多php论坛、blog都已采用这种方案。但是这样做本来是为了支持英、
法、汉多语言，解决翻译的问题。如果单为了简、繁的问题就这么做，代价太大。

阅读(11822) | 评论(0) | 转发(0) |

上一篇：yaffs supported by uboot

下一篇：unicode

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6