Chinaunix首页 | 论坛 | 博客
  • 博客访问: 9548830
  • 博文数量: 1227
  • 博客积分: 10026
  • 博客等级: 上将
  • 技术积分: 20273
  • 用 户 组: 普通用户
  • 注册时间: 2008-01-16 12:40
文章分类

全部博文(1227)

文章存档

2010年(1)

2008年(1226)

我的朋友

分类: C/C++

2008-04-23 21:53:58

揭开C/C 中数组形参的迷雾

作者:乾坤一笑

楔子
  去年,周星星大哥曾经在VCKBASE/C 论坛发表过一篇文章“”,当时我不能深入理解这种用法的含义;时隔一年,我的知识有几经锤炼,终于对此文章渐有所悟,所以把吾所知作想详细道来,竟也成了一篇文章。希望本文能对新手有所启迪,同时也希望大家发现本文中的疏漏之处后不吝留言指教。
  故事起源于周星星大哥给出的两个Demo,为了节省地方,我把两个Demo合二为一,也能说明同样的问题:

#include 

using namespace std;

void Foo1(int arr[100])

{

 cout << "pass by pointer:   " << sizeof(arr) << endl;

}

void Foo2(int (&arr)[100])

{

 cout << "pass by reference: " << sizeof(arr) << endl;

}

void main()

{

 int a[100];

 cout << "In main function : " << sizeof(a) << endl;

 Foo1(a);

 Foo2(a); 

}

其运行结果如下:
In main function : 400

pass by pointer: 4

pass by reference: 400

  这段代码说明了,如果数组形参是数组名形式(或者指针形式,下文讨论)时,使用sizeof运算符,将得不到原来数组的长度;如果用传递原数组引用的方法,则没有问题。
  这段代码的确很难理解,因为这短短的十几行涉及到了形参与实参的关系、数组名和指针的关系、引用的意义、声名和表达式的关系这4大类问题,只要有1条理解不透、或者理解不正确,就理解不透上面的这段代码。本文也就从这4个问题入手,把这4个问题首先解决掉,然后再探讨上面的这段代码。虽然这样看来很是繁复,但是我认为从根上入手来理解、学习,是条似远实近的道路。

一、函数形参和实参的关系
void Foo(int a);

Foo(10);

  这里的a叫做形式参数(parameter),简称形参;这里的10叫做实际参数(argument),简称实参。形参和式参之间是什么关系呢?他们是赋值的关系,也就是说:把实参传递给形参的过程,可以看作是把实参赋值给形参的过程。上面的例子中,实参10传递给形参a,就相当于a=10;这个赋值的过程。(因为数据类型多的很,无法举例子举全面,所以这里就不举例子了;如果觉得不好理解,就在vc中写个sample调试一下各种数据类型的情况,你就能够验证这个结论了。)

二、数组名和指针的关系

  这个问题是个历史性的问题了,在C语言中,数组名是当作指针来处理的。更确切的说,数组名就是指向数组首元素地址的指针,数组索引就是距数组首元素地址的偏移量。理解这一点很重要,很多数组应用的问题就是有此而起的。这也就是为什么C语言中的数组是从0开始计数,因为这样它的索引就比较好对应到偏移量上。在C语言中,编译过程中遇到有数组名的表达式,都会把数组名替换成指针来处理;编译器甚至无法区分a[4]和4[a]的区别!*2 但是下面这一点需要注意:
int a[100];

int *b;

  这两者并不等价,第一句话声明了数组a,并定义了这个数组,它有100个int型元素,sizeof(a)将得到整个数组所占的内存大小,是400;第二句话只是声明并定义了一个int型的指针,sizeof(b)将得到这个指针所占的内存大小,是4。所以说,虽然数组名在表达式中一般会当作指针来处理,但是数组名和指针还是有差距的,最起码有a==&a[0]但是sizeof(a)!=sizeof(a[0])。
  并且在ANSI C标准中,也明文规定:在函数参数的声明中,数组名北边一起当作指向该数组第一个元素的指针。所以,下面的几种书写形式是等效的:
void Foo1(int arr[100]){}

void Foo2(int arr[]){}

void Foo3(int *arr){}

C  尽可能的全面兼容C语言,所以这一部分的语法相同。

三、引用的意义

  “引用“是C 中引进的概念,C语言中没有。它的目的在于,在某些方面取代指针。如果你认为引用和指针并无大不同,肯定会为指针报不平,颇有一种“即生亮何生瑜”的感慨;但是,引用确实有新的特色,也确实在很多地方的表现和指针有所不同,本文就是一例。使用引用,我们要把握这它最最最重要的一点,这也是它和指针最大的区别:引用一经定义,就和被它引用的变量紧紧地结合在一起,再不分开,对引用的任何操作都反映在它引用的变量上;而指针,只是访问它指向变量的另一种方式,两者虽有联系,但是并不像引用那样密不可分。:)
#include 

using namespace std;

void main()

{

 int a = 10;

 int & a_ref = a;

 int b = 20;

 

 // 定义引用时就要初始化,说明引用跟它指向的元素密不可分

 //int & b_ref ; // error C2530: ''b_ref'' : references must be initialized  

 int & b_ref = b;

 int * p;

 int * q;

 //下面的结果证明了:引用一经定义,就不能再指向其他目标;  

 //把一个引用b_ref赋值给另一个引用a_ref,其实就是把b赋值给了a.

 cout << a_ref << " " << b_ref << endl;

 a_ref = b_ref;

 cout << a_ref << " " << b_ref << endl;

 cout << a << " " << b << endl;

 cout << endl;

  //即使对一个引用a_ref取地址,取得也是a的地址。已经“恶鬼附体”了:)

 p = &a;

 q = &a_ref;

 cout << p << " " << q << endl;

 cout << endl;

 

 //下面这段代码展示了指针与引用的不同

 p = &a;

 q = &b;

 cout << p << " "<< q << endl; 

 p = q;

 cout << p << " "<< q << endl;

 cout << endl;

 system("pause");

}

下面是运行的结果,以供参考:
10 20

20 20

20 20



0012FED4 0012FED4



0012FED4 0012FEBC

0012FEBC 0012FEBC

四、声明和表达式的关系

  这里想说明的是,分析一个声明可以把它看作一个表达式,按照表达式中的运算符优先级顺序来声明。比如int (&arr)[100],你首先要找到声明器arr,那么&arr说明arr是一个引用。什么引用呢?在看括号外面,[]说明了这一个数组,100说明这个数组有100个元素,前面的int说明了这个数组的每个元素都是int型的。所以,这个声明的意思就是:arr就是指向具有100个int型元素的数组的引用。如果你觉得这种理解很晦涩,那你就不妨用typedef来简化声明中的复杂的运算符优先级关系,比如下面的形式就很好理解,其效果是和最初的那个例子是一样的:
#include 

using namespace std;

typedef int INTARR[100]; //这个,这个...也可以用表达式来理解,有点“GNU is not UNIX“的味道是吧?



void Foo(INTARR &arr)    //noh,这样看就很明白了,就是传了个引用进去

{

 cout << "pass by reference: " << sizeof(arr) << endl;

}

void main()

{

 INTARR a;            //用类型别名来定义a

 INTARR &a_ref=a;     //用类型别名来定义引用a_ref

 

 cout << "In main function : " << sizeof(a) << endl;

 Foo(a); 

 system("pause");

}

大结局

  吐沫星乱飞了半天,大家感觉还好吧,快结束了,大家再忍耐一下。看看下面这段程序:
#include 

using namespace std;

void main()

{

 int a[100];

 int * pa = a;

 int (&a_ref)[100] = a;

 cout << sizeof(a) << endl;

 cout << sizeof(pa) << endl;

 cout << sizeof(a_ref) << endl;

 system("pause");

}

  怎么样,是不是对输出结果感到很自然呢?如果是,那就好办了。我总结一下就下课哈!^_^ 数组名在表达式中,往往被当作是指向首元素a[0]地址的指针,但是在sizeof(a)中,返回的结果是数组a占用内存的大小;pa是指向a的指针,他也指向a[0],但是sizeof(pa)中,返回结果是pa这个指针所占内存空间的大小,之所以这样,因为pa这个指针和数组a的结合不够紧密,属于访问数组a的第二被选方案;a_ref这个引用,就是对数组a的引用,就像“恶鬼附体”一样,一旦附体附上了,你怎么也甩不掉它,对它的任何操作,全部都反映在a上。在看本文最初的那个例子,比这个例子所增加的操作就是函数实参到形参的传递,我们在上面说过了,从实参到形参的传递可以看作是把实参赋值给形参。所以本文最初的那个例子,其实际的操作过程就和本文最后的这个例子是一样的。所以,并非函数把数组给“降阶”了,而是它原原本本就该这样,千万不必奇怪。 :p
  意犹未尽,在PS一段:在C语言中,没有引用,是怎么解决这种问题呢。下面是常用的几种作法:
 
  1. 传递数组的时候,在增加一个参数,用来记录数组的元素个数或者长度。main(int argc, char ** args)就是这种做法;这种方法还可以防止溢出,安全性比较高。
  2. 在数组的最后一个有效元素后面作一个标志,指明数组已经结束了。C语言中用char数组表示字符串,传给相关的字符串函数,用的就是这种做法。这种方法保证了C的所谓字符串是无限长度的,因为用一个变量表示数组的长度的话,终归会受到这个变量类型的限制,比方说这个变量是unsigned byte型的,那么字符串长度就不能超过256,否则这个变量就溢出了。
  3. 对于多维数组,通常的方法是在最后一个有效维后面做一行标志,比如a[3][3]={{1,0,2},{2,2,5},{-1,-1,-1}}。如果我的程序用不到-1,我可以拿-1来填充最后一行,作为标志。这样在函数内部检测到某一维的元素都是-1,就说明到底了。

  方法是灵活多变的,关键看人怎么用了。C老爹Dennis Ritchie曾经说过:C诡异离奇,缺陷重重,却获得了巨大的成功。

注1:本文将不再引用“降阶”这个术语,原因是我认为这个“降阶”的概念有种把类似2维数组压扁到1维的意思,其实本文讨论的并不是这个问题,本文讨论的是数组形参传递过程中数组长度损失的问题(这么说也不准确,还是看文中的讨论吧)。

注2:C语言的编译器遇到数组元素arr[i],就会替换成*(arr i)的形式。

阅读(320) | 评论(0) | 转发(0) |
0

上一篇:QQ魔法表情实现原理

下一篇:C Q

给主人留下些什么吧!~~