C++/C程序中,指针和数组在不少地方可以相互替换着用,让人产生一种错觉,以为两者是等价的。但二者有着本质的区别:
数组:要么在静态存储区被创建(如全局数组),要么在栈上被创建。数组名对应着(而不是指向)一块内存,其地址与容量在生命期内保持不变,只有数组的内容可以改变。
指针:可以随时指向任意类型的内存块,它的特征是“可变”,所以我们常用指针来操作动态内存。指针远比数组灵活,但也更危险。
下面以字符串为例比较指针与数组的特性:
1.修改内容
实例1代码中,字符数组a的容量是6个字符,其内容为hello。a的内容可以改变,如a[0]= ‘X’。指针p指向常量字符串“world”(位于静态存储区,内容为world),常量字符串的内容是不可以被修改的。从语法上看,编译器并不觉得语句p[0]= ‘X’有什么不妥,但是该语句企图修改常量字符串的内容而导致运行错误。
实例1 修改数组和指针内容
char a[] = “hello”;
a[0] = ‘X’;cout << a << endl;
char *p = “world”; // 注意p指向常量字符串
p[0] = ‘X’; // 编译器不能发现该错误
cout << p << endl;
2.内容复制与比较
不能对数组名进行直接复制与比较。示例2中,若想把数组a的内容复制给数组b,不能用语句 b = a ,否则将产生编译错误。应该用标准库函数strcpy进行复制。同理,比较b和a的内容是否相同,不能用if(b==a) 来判断,应该用标准库函数strcmp进行比较。
指针应用中,语句p = a 并不能把a的内容复制指针p,而是把a的地址赋给了p。要想复制a的内容,可以先用库函数malloc为p申请一块容量为strlen(a)+1个字符的内存,再用strcpy进行字符串复制。同理,语句if(p==a) 比较的不是内容而是地址,应该用库函数strcmp来比较。
实例2 数组和指针的内容复制与比较
// 数组…
char a[] = "hello";char b[10];
strcpy(b, a); // 不能用 b = a;
if(strcmp(b, a) == 0) // 不能用 if (b == a)
…
// 指针…
int len = strlen(a);
char *p = (char *)malloc(sizeof(char)*(len+1));
strcpy(p,a); // 不要用
p = a;if(strcmp(p, a) == 0) // 不要用 if (p == a)
…
3.计算内存容量
用运算符sizeof可以计算出数组的容量(字节数)。示例3-1中,sizeof(a)的值是12(注意别忘了'\0')。指针p指向a,但是sizeof(p)的值却是4。这是因为sizeof(p)得到的是一个指针变量的字节数,相当于sizeof(char*),而不是p所指的内存容量。C++/C语言没有办法知道指针所指的内存容量,除非在申请内存时记住它。注意当数组作为函数的参数进行传递时,该数组自动退化为同类型的指针。示例3-2中,不论数组a的容量是多少,sizeof(a)始终等于sizeof(char *)。
实例3-1 计算数组和指针的内存容量
char a[] = "hello world";
char *p = a;
cout<< sizeof(a) << endl; // 12字节
cout<< sizeof(p) << endl; // 4字节
实例3-2 数组退化为指针
void Func(char a[100])
{
cout<< sizeof(a) << endl; // 4字节而不是100字节
}
4.指针参数是如何传递内存的?
如果函数的参数是一个指针,不要指望用该指针去申请动态内存。示例4-1中,Test函数的语句GetMemory(str, 200)并没有使str获得期望的内存,str依旧是NULL,为什么?
实例4-1 试图用指针参数申请动态内存
void GetMemory(char *p, int num)
{
p = (char *)malloc(sizeof(char) * num);
}
void Test1(void)
{
char *str = NULL;
GetMemory(str, 100); // str 仍然为 NULL
strcpy(str, "hello"); // 运行错误
}
毛病出在函数GetMemory中。编译器总是要为函数的每个参数制作临时副本,指针参数p的副本是 _p,编译器使 _p = p。如果函数体内的程序修改了_p的内容,就导致参数p的内容作相应的修改。这就是指针可以用作输出参数的原因。在本例中,_p申请了新的内存,只是把_p所指的内存地址改变了,但是p丝毫未变。所以函数GetMemory并不能输出任何东西。事实上,每执行一次GetMemory就会泄露一块内存,因为没有用free释放内存。
(每次执行GetMemory,_p就会申请新的内存,_p的地址就会改变,堆内存需要手动释放,而函数中没有free释放内存,所以每执行一次GetMemory就会泄露一块内存。)
如果非得要用指针参数去申请内存,那么应该改用“指向指针的指针”,见示例4-2
实例4-2 用指向指针的指针申请动态内存
void GetMemory2(char **p, int num)
{
*p = (char *)malloc(sizeof(char) * num);
}
void Test2(void)
{
char *str = NULL;
GetMemory2(&str, 100); // 注意参数是 &str,而不是str
strcpy(str, "hello");
cout<< str << endl;
free(str);
}
**p的内容是指针p的地址,&str是指针str的地址。
由于“指向指针的指针”这个概念不容易理解,我们可以用函数返回值来传递动态内存。这种方法更加简单,见示例4-3
实例4-3 用函数返回值来传递动态内存
char *GetMemory3(int num)
{
char *p = (char *)malloc(sizeof(char) * num); //返回堆中的地址
return p;
}
void Test3(void)
{
char *str = NULL;
str = GetMemory3(100);
strcpy(str, "hello");
cout<< str << endl;
free(str);
}
GetMemory3的返回值类型是char类型的指针,所以return p 返回的是指针p的地址。(char类型的指针是说指针所指向的内容是char类型)
用函数返回值来传递动态内存这种方法虽然好用,但是常常有人把return语句用错了。这里强调不要用return语句返回指向“栈内存”的指针,因为该内存在函数结束时自动消亡,见示例4-4
实例4-4 return语句返回指向“栈内存”的指针
char *GetString(void)
{
char p[] = "hello world"; //返回栈中的地址
return p; // 编译器将提出警告
}
void Test4(void)
{
char *str = NULL;
str = GetString(); // str 的内容是垃圾
cout<< str << endl;
}
char p[] 是在栈中分配内存。
用调试器逐步跟踪Test4,发现执行str = GetString语句后str不再是NULL指针,但是str的内容不是“hello world”而是垃圾。因为char p[]在栈上分配空间,一旦函数结束,所分配的空间就会被释放了。
如果把示例4-4改写成示例4-5,会怎么样?
实例4-5 return语句返回常量字符串
char *GetString2(void)
{
char *p = "hello world";
return p;
}
void Test5(void)
{
char *str = NULL;
str = GetString2();
cout<< str << endl;
}
函数Test5运行虽然不会出错,但是函数GetString2的设计概念却是错误的。因为GetString2内的“hello world”是常量字符串,位于静态存储区,它在程序生命期内恒定不变。无论什么时候调用GetString2,它返回的始终是同一个“只读”的内存块。
5.char []与 char *的区别
以下面两个变量为例:
char a[]="hello";
char *b="hello";
(1)数组对应着一块内存区域,而指针是指向一块内存区域。数组的地址和容量在生命期里不会改变,只有数组的内容可以改变;而指针所指向的内存区域的大小可以随时改变,而且当指针指向常量字符串时,它的内容是不可以被修改的,否则在运行时会报错。
数组a需要在内存中占用6个字节的空间,这段内存区通过名字a来标识。
指针b则需要4个字节的空间来存放地址,这4个字节用名字b来标识,其中存放的地址可以指向几乎任何地方,也可以哪里都不指向,即空指针。在这里,指针b指向某个连续的6字节的空间,即字符串"hello",该字符串存放在常量区,常量区的内容不能被修改。不能修改*b的值,比如b[2]='d'(将"hello"中第3个字符改为'd'),会导致程序崩溃。
(2)以a[2]和b[2]为例,二者都返回字符‘l’,但是编译器产生的执行代码却不一样。对于a[2],执行代码是从a的位置开始,向后移动2两个字节,然后取出其中的字符。对于b[2],执行代码是从p的位置取出一个地址,在其上加2,然后取出对应内存中的字符。
(3)char *b = "hello";实际上先是在文字常量区分配了一块内存放"hello",然后在栈上分配一地址给b并指向存放"hello"这块地址,然后改变常量"hello"自然会崩溃,然而char a[] = "hello",实际上"hello"分配内存的地方在栈区。在以后的存取中,在栈上的数组比指针所指向的字符串快。
(4)下面代码详细注明了各个变量所在的内存区:
//main.cpp int a=0; //全局初始化区 char *p1; //全局未初始化区 main() {int b;栈char s[]="abc"; //栈char *p2; //栈char *p3="123456"; //123456\0在常量区,p3在栈上。static int c=0; //全局(静态)初始化区p1 = (char*)malloc(10);p2 = (char*)malloc(20); //分配得来得10和20字节的区域就在堆区。strcpy(p1,"123456"); //123456\0放在常量区,编译器可能会将它与p3所指向的"123456"优化成一个地方。 }