C/C++程序员必需的修养 2-zyl19861126-ChinaUnix博客

懒惰, 性急, 适当的傲慢!

首页　| 　博文目录　| 　关于我

zyl19861126

博客访问： 323551
博文数量： 126
博客积分： 7051
博客等级：少将
技术积分： 1425
用户组：普通用户
注册时间： 2008-04-20 13:21

文章分类

全部博文（126）

硬件（2）
算法（0）
X11（10）
freebsd（9）
linux（70）
C（24）
未分配的博文（11）

文章存档

2008年（126）

我的朋友

情定蓝桥

相关博文

C/C++程序员必需的修养 2

分类： C/C++

2008-05-03 14:10:37

4、函数的[in][out]参数
-----------
我经常看到这样的程序：
FuncName(char* str)
{
　　int len = strlen(str);
　　.....
}
char*
GetUserName(struct user* pUser)
{
　　return pUser->name;
}
不！请不要这样做。
你应该先判断一下传进来的那个指针是不是为空。如果传进来的指针为空的话，那么，你的一个大的系统就会因为这一个小的函数而崩溃。一种更好的技术是使用断言（assert），这里我就不多说这些技术细节了。当然，如果是在C++中，引用要比指针好得多，但你也需要对各个参数进行检查。
写有参数的函数时，首要工作，就是要对传进来的所有参数进行合法性检查。而对于传出的参数也应该进行检查，这个动作当然应该在函数的外部，也就是说，调用完一个函数后，应该对其传出的值进行检查。
当然，检查会浪费一点时间，但为了整个系统不至于出现“非法操作”或是“Core Dump”的系统级的错误，多花这点时间还是很值得的。

5、对系统调用的返回进行判断
--------------
继续上一条，对于一些系统调用，比如打开文件，我经常看到，许多程序员对fopen返回的指针不做任何判断，就直接使用了。然后发现文件的内容怎么也读出不，或是怎么也写不进去。还是判断一下吧：
　　fp = fopen("log.txt", "a");
　　if ( fp == NULL ){
　　　　printf("Error: open file errorn");
　　　　return FALSE;
　　}
其它还有许多啦，比如：socket返回的socket号，malloc返回的内存。请对这些系统调用返回的东西进行判断。

6、if 语句对出错的处理
-----------
我看见你说了，这有什么好说的。还是先看一段程序代码吧。
　　if ( ch >= ´0´ && ch <= ´9´ ){
　　　　/* 正常处理代码 */
　　}else{
　　　　/* 输出错误信息 */
　　　　printf("error ......n");
　　　　return ( FALSE );
　　}
这种结构很不好，特别是如果“正常处理代码”很长时，对于这种情况，最好不要用else。先判断错误，如：
　　if ( ch < ´0´ || ch > ´9´ ){
　　　　/* 输出错误信息 */
　　　　printf("error ......n");
　　　　return ( FALSE );
　　}
　　
　　/* 正常处理代码 */
　　......

这样的结构，不是很清楚吗？突出了错误的条件，让别人在使用你的函数的时候，第一眼就能看到不合法的条件，于是就会更下意识的避免。

7、头文件中的#ifndef
----------
千万不要忽略了头件的中的#ifndef，这是一个很关键的东西。比如你有两个C文件，这两个C文件都include了同一个头文件。而编译时，这两个C文件要一同编译成一个可运行文件，于是问题来了，大量的声明冲突。
还是把头文件的内容都放在#ifndef和#endif中吧。不管你的头文件会不会被多个文件引用，你都要加上这个。一般格式是这样的：
　　#ifndef　<标识>
　　#define <标识>
　　
　　......
　　......
　　
　　#endif
　　
<标识>在理论上来说可以是自由命名的，但每个头文件的这个“标识”都应该是唯一的。标识的命名规则一般是头文件名全大写，前后加下划线，并把文件名中的“.”也变成下划线，如：stdio.h
　　#ifndef _STDIO_H_
　　#define _STDIO_H_
　　
　　......
　　
　　#endif
　　
（BTW：预编译有多很有用的功能。你会用预编译吗？）　　

8、在堆上分配内存
---------
可能许多人对内存分配上的“栈 stack”和“堆 heap”还不是很明白。包括一些科班出身的人也不明白这两个概念。我不想过多的说这两个东西。简单的来讲，stack上分配的内存系统自动释放， heap上分配的内存，系统不释放，哪怕程序退出，那一块内存还是在那里。stack一般是静态分配内存，heap上一般是动态分配内存。
由malloc系统函数分配的内存就是从堆上分配内存。从堆上分配的内存一定要自己释放。用free释放，不然就是术语--“内存泄露”（或是“内存漏洞”）-- Memory Leak。于是，系统的可分配内存会随malloc越来越少，直到系统崩溃。还是来看看“栈内存”和“堆内存”的差别吧。
　　栈内存分配
　　-----
　　char*
　　AllocStrFromStack()
　　{
　　　　char pstr[100];
　　　　return pstr;
　　}
　　
　　
　　堆内存分配
　　-----
　　char*
　　AllocStrFromHeap(int len)
　　{
　　　　char *pstr;
　　　　
　　　　if ( len <= 0 ) return NULL;
　　　　return ( char* ) malloc( len );
　　}
对于第一个函数，那块pstr的内存在函数返回时就被系统释放了。于是所返回的char*什么也没有。而对于第二个函数，是从堆上分配内存，所以哪怕是程序退出时，也不释放，所以第二个函数的返回的内存没有问题，可以被使用。但一定要调用free释放，不然就是Memory Leak！
在堆上分配内存很容易造成内存泄漏，这是C/C++的最大的“克星”，如果你的程序要稳定，那么就不要出现Memory Leak。所以，我还是要在这里千叮咛万嘱付，在使用malloc系统函数（包括calloc，realloc）时千万要小心。
记得有一个UNIX上的服务应用程序，大约有几百的C文件编译而成，运行测试良好，等使用时，每隔三个月系统就是down一次，搞得许多人焦头烂额，查不出问题所在。只好，每隔两个月人工手动重启系统一次。出现这种问题就是Memery Leak在做怪了，在C/C++中这种问题总是会发生，所以你一定要小心。一个Rational的检测工作--Purify，可以帮你测试你的程序有没有内存泄漏。
我保证，做过许多C/C++的工程的程序员，都会对malloc或是new有些感冒。当你什么时候在使用malloc和new时，有一种轻度的紧张和惶恐的感觉时，你就具备了这方面的修养了。
　　
对于malloc和free的操作有以下规则：
1) 配对使用，有一个malloc，就应该有一个free。（C++中对应为new和delete）
2) 尽量在同一层上使用，不要像上面那种，malloc在函数中，而free在函数外。最好在同一调用层上使用这两个函数。
3) malloc分配的内存一定要初始化。free后的指针一定要设置为NULL。　　
注：虽然现在的操作系统（如：UNIX和Win2k/NT）都有进程内存跟踪机制，也就是如果你有没有释放的内存，操作系统会帮你释放。但操作系统依然不会释放你程序中所有产生了Memory Leak的内存，所以，最好还是你自己来做这个工作。（有的时候不知不觉就出现Memory Leak了，而且在几百万行的代码中找无异于海底捞针，Rational有一个工具叫Purify，可能很好的帮你检查程序中的Memory Leak）

9、变量的初始化
--------
接上一条，变量一定要被初始化再使用。C/C++编译器在这个方面不会像JAVA一样帮你初始化，这一切都需要你自己来，如果你使用了没有初始化的变量，结果未知。好的程序员从来都会在使用变量前初始化变量的。如：
　　1) 对malloc分配的内存进行memset清零操作。（可以使用calloc分配一块全零的内存）
　　2) 对一些栈上分配的struct或数组进行初始化。（最好也是清零）
　　
不过话又说回来了，初始化也会造成系统运行时间有一定的开销，所以，也不要对所有的变量做初始化，这个也没有意义。好的程序员知道哪些变量需要初始化，哪些则不需要。如：以下这种情况，则不需要。
　　　　
　　　　char *pstr;　/* 一个字符串 */
　　　　pstr = ( char* ) malloc( 50 );
　　　　if ( pstr == NULL ) exit(0);
　　　　strcpy( pstr, "Hello Wrold" );
但如果是下面一种情况，最好进行内存初始化。（指针是一个危险的东西，一定要初始化）
　　　　char **pstr;　/* 一个字符串数组 */
　　　　pstr = ( char** ) malloc( 50 );
　　　　if ( pstr == NULL ) exit(0);
　　　　
　　　　/* 让数组中的指针都指向NULL */
　　　　memset( pstr, 0, 50*sizeof(char*) );
　　　　
而对于全局变量，和静态变量，一定要声明时就初始化。因为你不知道它第一次会在哪里被使用。所以使用前初始这些变量是比较不现实的，一定要在声明时就初始化它们。如：
　　Links *plnk = NULL;　/* 对于全局变量plnk初始化为NULL */

10、h和c文件的使用
---------
H文件和C文件怎么用呢？一般来说，H文件中是declare（声明），C文件中是define（定义）。因为C文件要编译成库文件（Windows下是.obj/.lib，UNIX下是.o/.a），如果别人要使用你的函数，那么就要引用你的H文件，所以，H文件中一般是变量、宏定义、枚举、结构和函数接口的声明，就像一个接口说明文件一样。而C文件则是实现细节。
H文件和C文件最大的用处就是声明和实现分开。这个特性应该是公认的了，但我仍然看到有些人喜欢把函数写在H文件中，这种习惯很不好。（如果是C++话，对于其模板函数，在VC中只有把实现和声明都写在一个文件中，因为VC不支持export关键字）。而且，如果在H文件中写上函数的实现，你还得在 makefile中把头文件的依赖关系也加上去，这个就会让你的makefile很不规范。
最后，有一个最需要注意的地方就是：带初始化的全局变量不要放在H文件中！
例如有一个处理错误信息的结构：
　　char* errmsg[] = {
　　　　/* 0 */　　　 "No error",　　　　　　　　
　　　　/* 1 */　　　 "Open file error",　　　　
　　　　/* 2 */　　　 "Failed in sending/receiving a message",　
　　　　/* 3 */　　　 "Bad arguments",　
　　　　/* 4 */　　　 "Memeroy is not enough",
　　　　/* 5 */　　　 "Service is down; try later",
　　　　/* 6 */　　　 "Unknow information",
　　　　/* 7 */　　　 "A socket operation has failed",
　　　　/* 8 */　　　 "Permission denied",
　　　　/* 9 */　　　 "Bad configuration file format",　
　　　　/* 10 */　　　"Communication time out",
　　　　......
　　　　......
　　};
　　
请不要把这个东西放在头文件中，因为如果你的这个头文件被5个函数库（.lib或是.a）所用到，于是他就被链接在这5个.lib或.a中，而如果你的一个程序用到了这5个函数库中的函数，并且这些函数都用到了这个出错信息数组。那么这份信息将有5个副本存在于你的执行文件中。如果你的这个errmsg很大的话，而且你用到的函数库更多的话，你的执行文件也会变得很大。
正确的写法应该把它写到C文件中，然后在各个需要用到errmsg的C文件头上加上 extern char* errmsg[]; 的外部声明，让编译器在链接时才去管他，这样一来，就只会有一个errmsg存在于执行文件中，而且，这样做很利于封装。
我曾遇到过的最疯狂的事，就是在我的目标文件中，这个errmsg一共有112个副本，执行文件有8M左右。当我把errmsg放到C文件中，并为一千多个C文件加上了extern的声明后，所有的函数库文件尺寸都下降了20%左右，而我的执行文件只有5M了。一下子少了3M啊。
〔备注〕
-----
有朋友对我说，这个只是一个特例，因为，如果errmsg在执行文件中存在多个副本时，可以加快程序运行速度，理由是errmsg的多个复本会让系统的内存换页降低，达到效率提升。像我们这里所说的errmsg只有一份，当某函数要用errmsg时，如果内存隔得比较远，会产生换页，反而效率不高。
这个说法不无道理，但是一般而言，对于一个比较大的系统，errmsg是比较大的，所以产生副本导致执行文件尺寸变大，不仅增加了系统装载时间，也会让一个程序在内存中占更多的页面。而对于errmsg这样数据，一般来说，在系统运行时不会经常用到，所以还是产生的内存换页也就不算频繁。权衡之下，还是只有一份errmsg的效率高。即便是像logmsg这样频繁使用的的数据，操作系统的内存调度算法会让这样的频繁使用的页面常驻于内存，所以也就不会出现内存换页问题了

11、出错信息的处理
---------
你会处理出错信息吗？哦，它并不是简单的输出。看下面的示例：
　　if ( p == NULL ){
　　　　printf ( "ERR: The pointer is NULLn" );
　　}
　　
告别学生时代的编程吧。这种编程很不利于维护和管理，出错信息或是提示信息，应该统一处理，而不是像上面这样，写成一个“硬编码”。第10条对这方面的处理做了一部分说明。如果要管理错误信息，那就要有以下的处理：
　　/* 声明出错代码 */
　　#define　　 ERR_NO_ERROR　　0　/* No error　　　　　　　　 */
　　#define　　 ERR_OPEN_FILE　 1　/* Open file error　　　　　*/
　　#define　　 ERR_SEND_MESG　 2　/* sending a message error　*/
　　#define　　 ERR_BAD_ARGS　　3　/* Bad arguments　　　　　　*/
　　#define　　 ERR_MEM_NONE　　4　/* Memeroy is not enough　　*/
　　#define　　 ERR_SERV_DOWN　 5　/* Service down try later　 */
　　#define　　 ERR_UNKNOW_INFO 6　/* Unknow information　　　 */
　　#define　　 ERR_SOCKET_ERR　7　/* Socket operation failed　*/
　　#define　　 ERR_PERMISSION　8　/* Permission denied　　　　*/
　　#define　　 ERR_BAD_FORMAT　9　/* Bad configuration file　 */
　　#define　　 ERR_TIME_OUT　 10　/* Communication time out　 */
　　
　　/* 声明出错信息 */
　　char* errmsg[] = {
　　　　/* 0 */　　　 "No error",　　　　　　　　
　　　　/* 1 */　　　 "Open file error",　　　　
　　　　/* 2 */　　　 "Failed in sending/receiving a message",　
　　　　/* 3 */　　　 "Bad arguments",　
　　　　/* 4 */　　　 "Memeroy is not enough",
　　　　/* 5 */　　　 "Service is down; try later",
　　　　/* 6 */　　　 "Unknow information",
　　　　/* 7 */　　　 "A socket operation has failed",
　　　　/* 8 */　　　 "Permission denied",
　　　　/* 9 */　　　 "Bad configuration file format",　
　　　　/* 10 */　　　"Communication time out",
　　};
　　　　　　　　　　　　　　　
　　/* 声明错误代码全局变量 */
　　long errno = 0;
　　
　　/* 打印出错信息函数 */
　　void perror( char* info)
　　{
　　　　if ( info ){
　　　　　　printf("%s: %sn", info, errmsg[errno] );
　　　　　　return;
　　　　}
　　　　
　　　　printf("Error: %sn", errmsg[errno] );
　　}
这个基本上是ANSI的错误处理实现细节了，于是当你程序中有错误时你就可以这样处理：
　　bool CheckPermission( char* userName )
　　{
　　　　if ( strcpy(userName, "root") != 0 ){
　　　　　　errno = ERR_PERMISSION_DENIED;
　　　　　　return (FALSE);
　　　　}
　　　　
　　　　...
　　}
　　
　　main()
　　{
　　　　...
　　　　if (! CheckPermission( username ) ){
　　　　　　perror("main()");
　　　　}
　　　　...
　　}
　　　　　　　　　　　　　　　
一个即有共性，也有个性的错误信息处理，这样做有利同种错误出一样的信息，统一用户界面，而不会因为文件打开失败，A程序员出一个信息，B程序员又出一个信息。而且这样做，非常容易维护。代码也易读。
当然，物极必反，也没有必要把所有的输出都放到errmsg中，抽取比较重要的出错信息或是提示信息是其关键，但即使这样，这也包括了大多数的信息。

12、常用函数和循环语句中的被计算量
-----------------
看一下下面这个例子：
　　for( i=0; i<1000; i++ ){
　　　　GetLocalHostName( hostname );
　　　　...
　　}
　　
GetLocalHostName的意思是取得当前计算机名，在循环体中，它会被调用1000次啊。这是多么的没有效率的事啊。应该把这个函数拿到循环体外，这样只调用一次，效率得到了很大的提高。虽然，我们的编译器会进行优化，会把循环体内的不变的东西拿到循环外面，但是，你相信所有编译器会知道哪些是不变的吗？我觉得编译器不可靠。最好还是自己动手吧。
同样，对于常用函数中的不变量，如：
GetLocalHostName(char* name)
{
　　char funcName[] = "GetLocalHostName";
　　
　　sys_log( "%s begin......", funcName );
　　...
　　sys_log( "%s end......", funcName );
}
如果这是一个经常调用的函数，每次调用时都要对funcName进行分配内存，这个开销很大啊。把这个变量声明成static吧，当函数再次被调用时，就会省去了分配内存的开销，执行效率也很好。

13、函数名和变量名的命名
------------
我看到许多程序对变量名和函数名的取名很草率，特别是变量名，什么a,b,c,aa,bb,cc，还有什么flag1,flag2, cnt1, cnt2，这同样是一种没有“修养”的行为。即便加上好的注释。好的变量名或是函数名，我认为应该有以下的规则：
　　
　　1) 直观并且可以拼读，可望文知意，不必“解码”。
　　2) 名字的长度应该即要最短的长度，也要能最大限度的表达其含义。
　　3) 不要全部大写，也不要全部小写，应该大小写都有，如：GetLocalHostName 或是 UserAccount。
　　4) 可以简写，但简写得要让人明白，如：ErrorCode -> ErrCode,　ServerListener -> ServLisner，UserAccount -> UsrAcct 等。
　　5) 为了避免全局函数和变量名字冲突，可以加上一些前缀，一般以模块简称做为前缀。
　　6) 全局变量统一加一个前缀或是后缀，让人一看到这个变量就知道是全局的。
　　7) 用匈牙利命名法命名函数参数，局部变量。但还是要坚持“望文生意”的原则。
　　8) 与标准库（如：STL）或开发库（如：MFC）的命名风格保持一致。

14、函数的传值和传指针
------------
向函数传参数时，一般而言，传入非const的指针时，就表示，在函数中要修改这个指针把指内存中的数据。如果是传值，那么无论在函数内部怎么修改这个值，也影响不到传过来的值，因为传值是只内存拷贝。
什么？你说这个特性你明白了，好吧，让我们看看下面的这个例程：
void
GetVersion(char* pStr)
{
　　pStr = malloc(10);
　　strcpy ( pStr, "2.0" );
}
main()
{
　　char* ver = NULL;
　　GetVersion ( ver );
　　...
　　...
　　free ( ver );
}
我保证，类似这样的问题是一个新手最容易犯的错误。程序中妄图通过函数GetVersion给指针ver分配空间，但这种方法根本没有什么作用，原因就是--这是传值，不是传指针。你或许会和我争论，我分明传的时指针啊？再仔细看看，其实，你传的是指针其实是在传值。

15、修改别人程序的修养
-----------
当你维护别人的程序时，请不要非常主观臆断的把已有的程序删除或是修改。我经常看到有的程序员直接在别人的程序上修改表达式或是语句。修改别人的程序时，请不要删除别人的程序，如果你觉得别人的程序有所不妥，请注释掉，然后添加自己的处理程序，必竟，你不可能100%的知道别人的意图，所以为了可以恢复，请不依赖于CVS或是SourceSafe这种版本控制软件，还是要在源码上给别人看到你修改程序的意图和步骤。这是程序维护时，一个有修养的程序员所应该做的。
如下所示，这就是一种比较好的修改方法：
　　/*
　　 * ----- commented by haoel 2003/04/12 ------
　　 *
　　 *　 char* p = ( char* ) malloc( 10 );
　　 *　 memset( p, 0, 10 );
　　 */
　　
　　/* ------ Added by haoel　 2003/04/12 ----- */
　　 char* p = ( char* )calloc( 10, sizeof char );
　　/* ---------------------------------------- */
　　...
当然，这种方法是在软件维护时使用的，这样的方法，可以让再维护的人很容易知道以前的代码更改的动作和意图，而且这也是对原作者的一种尊敬。
以“注释 - 添加”方式修改别人的程序，要好于直接删除别人的程序。

16、把相同或近乎相同的代码形成函数和宏
---------------------
有人说，最好的程序员，就是最喜欢“偷懒”的程序，其中不无道理。
如果你有一些程序的代码片段很相似，或直接就是一样的，请把他们放在一个函数中。而如果这段代码不多，而且会被经常使用，你还想避免函数调用的开销，那么就把他写成宏吧。
千万不要让同一份代码或是功能相似的代码在多个地方存在，不然如果功能一变，你就要修改好几处地方，这种会给维护带来巨大的麻烦，所以，做到“一改百改”，还是要形成函数或是宏。

17、表达式中的括号
---------
如果一个比较复杂的表达式中，你并不是很清楚各个操作符的忧先级，即使是你很清楚优先级，也请加上括号，不然，别人或是自己下一次读程序时，一不小心就看走眼理解错了，为了避免这种“误解”，还有让自己的程序更为清淅，还是加上括号吧。
比如，对一个结构的成员取地址：
　　GetUserAge( &( UserInfo->age ) );
虽然，&UserInfo->age中，->操作符的优先级最高，但加上一个括号，会让人一眼就看明白你的代码是什么意思。
再比如，一个很长的条件判断：
if ( ( ch[0] >= ´0´ || ch[0] <= ´9´ ) &&
　　 ( ch[1] >= ´a´ || ch[1] <= ´z´ ) &&
　　 ( ch[2] >= ´A´ || ch[2] <= ´Z´ )　　)
　　
括号，再加上空格和换行，你的代码是不是很容易读懂了？　　

18、函数参数中的const
-----------
对于一些函数中的指针参数，如果在函数中只读，请将其用const修饰，这样，别人一读到你的函数接口时，就会知道你的意图是这个参数是[in]，如果没有const时，参数表示[in/out]，注意函数接口中的const使用，利于程序的维护和避免犯一些错误。
虽然，const修饰的指针，如：const char* p，在C中一点用也没有，因为不管你的声明是不是const，指针的内容照样能改，因为编译器会强制转换，但是加上这样一个说明，有利于程序的阅读和编译。因为在C中，修改一个const指针所指向的内存时，会报一个Warning。这会引起程序员的注意。
C++中对const定义的就很严格了，所以C++中要多多的使用const，const的成员函数，const的变量，这样会对让你的代码和你的程序更加完整和易读。（关于C++的const我就不多说了）

19、函数的参数个数（多了请用结构）
-----------------
函数的参数个数最好不要太多，一般来说6个左右就可以了，众多的函数参数会让读代码的人一眼看上去就很头昏，而且也不利于维护。如果参数众多，还请使用结构来传递参数。这样做有利于数据的封装和程序的简洁性。
也利于使用函数的人，因为如果你的函数个数很多，比如12个，调用者很容易搞错参数的顺序和个数，而使用结构struct来传递参数，就可以不管参数的顺序。
而且，函数很容易被修改，如果需要给函数增加参数，不需要更改函数接口，只需更改结构体和函数内部处理，而对于调用函数的程序来说，这个动作是透明的。

20、函数的返回类型，不要省略
--------------
我看到很多程序写函数时，在函数的返回类型方面不太注意。如果一个函数没有返回值，也请在函数前面加上void的修饰。而有的程序员偷懒，在返回int的函数则什么不修饰（因为如果不修饰，则默认返回int），这种习惯很不好，还是为了原代码的易读性，加上int吧。
所以函数的返回值类型，请不要省略。
另外，对于void的函数，我们往往会忘了return，由于某些C/C++的编译器比较敏感，会报一些警告，所以即使是void的函数，我们在内部最好也要加上return的语句，这有助于代码的编译。

阅读(1216) | 评论(0) | 转发(0) |

上一篇：C/C++程序员必需的修养

下一篇：编写适合自己需要的printf()函数 -- 可变参数.

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6