http://sjlovechina.blog.163.com/blog/static/123368598201122025112180/
《linux wait与waitpid函数的深入分析》
已有 2050 次阅读 2010-9-30 20:01 |个人分类:LINUX系统|关键词:waitpid linux 函数 wait 子进程 fork 僵尸
一)系统调用wait
1)概述
wait函数的原型为:pid_t wait(int *status)
当进程退出时,它向父进程发送一个SIGCHLD信号,默认情况下总是忽略SIGCHLD信号,此时进程状态一直保留在内存中,直到父进程使用wait函数收集状态信息,才会清空这些信息.
用wait来等待一个子进程终止运行称为回收进程.
当父进程忘了用wait()函数等待已终止的子进程时,子进程就会进入一种无父进程的状态,此时子进程就是僵尸进程.
wait()要与fork()配套出现,如果在使用fork()之前调用wait(),wait()的返回值则为-1,正常情况下wait()的返回值为子进程的PID.
如果先终止父进程,子进程将继续正常进行,只是它将由init进程(PID 1)继承,当子进程终止时,init进程捕获这个状态.
2)僵尸进程的形成
源程序如下:
#include
#include
#include
#include
int
main ()
{
pid_t pc,pr;
pc = fork();
if (pc < 0)
printf("error ocurred!\n");
else
if(pc == 0){
printf("This is child process with pid of %d\n",getpid());
}
else{
sleep(20);
printf("This is partent with pid of %d\n",getpid());
}
exit(0);
}
编译zombie.c
gcc zombie.c -o zombie
运行生成的程序
./zombie
同时查看zombie的进程状态
ps -C zombie -o ppid,pid,stat,cmd
PPID PID STAT CMD
24233 26056 S+ ./zombie
26056 26057 Z+ [zombie]
20秒后,查看程序的运行结果,如下:
./zombie
This is child process with pid of 26057
This is partent with pid of 26056
结论:
当父进程忘了用wait()函数等待已终止的子进程时,子进程就会进入一种无父进程清理自己尸体的状态,此时的子进程就是僵尸进程.
在上面的例子中,子进程(26057)虽然执行完毕,但父进程没有调用wait(),出现子进程虽然死亡,而不能在内核中清理尸体的情况.
在sleep(20);前面加入wait(NULL);再编译运行,运行结果没有了僵尸进程,说明已经被父进程用wait()回收掉了.
如下:
ps -C zombie -o ppid,pid,stat,cmd
PPID PID STAT CMD
12051 12107 S+ ./zombie
3)关于父进程调用wait()与fork()配套使用的问题.
对上面的程序进行修改,在fork()调用前使用wait()函数,如下:
#include
#include
#include
#include
int
main ()
{
pid_t pc,pr;
pr = wait(NULL);
pc = fork();
if (pc < 0)
printf("error ocurred!\n");
else
if(pc == 0){
printf("This is child process with pid of %d\n",getpid());
}
else{
sleep(20);
printf("I catched a child process with pid of %d\n",pr);
}
exit(0);
}
编译执行:
gcc wait1.c -o wait1
./wait1
This is child process with pid of 24008
I catched a child process with pid of -1
wait(NULL)的返回值为-1.
在另一个终端查看wait1进程的状态,发现wait()并没有回收掉子进程.
ps -C wait1 -o ppid,pid,stat,cmd
PPID PID STAT CMD
23286 24007 S+ ./wait1
24007 24008 Z+ [wait1]
调整wait()的位置,如下:
else{
pr = wait(NULL)
sleep(20);
printf("I catched a child process with pid of %d\n",pr);
}
再编译执行:
gcc wait1.c -o wait1
./wait1
This is child process with pid of 24085
I catched a child process with pid of 24085
wait(NULL)的返回值为子进程PID
在另一个终端查看wait1进程的状态,发现wait()回收掉了子进程.
ps -C wait1 -o ppid,pid,stat,cmd
PPID PID STAT CMD
23286 24084 S+ ./wait1
4)wait()的参数
如果参数的值不是NULL,wait就会把子进程退出时的状态取出并存入其中,这是一个整数值(int),指出了子进程是正常退出还是被非正常结束的,
由于这些信息被存放在一个整数的不同二进制位中,所以就设计了一套专门的宏来完成这项工作,其中最常用的两个:
1,WIFEXITED(status)这个宏用来指出子进程是否为正常退出的,如果是,它会返回一个非零值.
2,WEXITSTATUS(status)当WIFEXITED返回非零值时,我们可以用这个宏来提取子进程的返回值,如果子进程调用exit(5)退出,WEXITSTATUS(status)就会返回5;
如果子进程调用exit(7),WEXITSTATUS(status)就会返回7.请注意,如果进程不是正常退出的,也就是说,WIFEXITED返回0,这个值就毫无意义.
以下面的例子说明wait()参数与宏的调用:
#include
#include
#include
int
main ()
{
int status;
pid_t pc,pr;
pc = fork();
if (pc < 0)
printf("error ocurred!\n");
else
if(pc == 0){
printf("This is child process with pid of %d\n",getpid());
exit (3);
}
else{
pr = wait(&status);
if(WIFEXITED(status)){
printf("The child process %d exit normally.\n",pr);
printf("The WEXITSTATUS return code is %d.\n",WEXITSTATUS(status));
printf("The WIFEXITED return code is %d.\n",WIFEXITED(status));
}else
printf("The child process %d exit abnormally.\n",pr);
}
}
编译并运行.
gcc wait2.c -o wait2
./wait2
This is child process with pid of 24819
The child process 24819 exit normally.
The WEXITSTATUS return code is 3.
The WIFEXITED return code is 1
解释:由于子进程是正常退出,所以WIFEXITED(status)返回非零值,也就是1,这时WEXITSTATUS(status)返回3.
把上面的程序进行调整,在子进程中增加了sleep(30),并输出子进程非正常退出的状态.
修改后的程序如下:
#include
#include
#include
int
main ()
{
int status;
pid_t pc,pr;
pc = fork();
if (pc < 0)
printf("error ocurred!\n");
else
if(pc == 0){
printf("This is child process with pid of %d\n",getpid());
sleep(30);
exit (3);
}
else{
pr = wait(&status);
if(WIFEXITED(status)){
printf("The child process %d exit normally.\n",pr);
printf("The WEXITSTATUS return code is %d.\n",WEXITSTATUS(status));
printf("The WIFEXITED return code is %d.\n",WIFEXITED(status));
}else
printf("The child process %d exit abnormally.\n",pr);
printf("Status is %d.\n",status);
}
return 0;
}
gcc wait3.c -o wait3
./wait3
This is child process with pid of 25261
在终端2终止wait3进程
ps -C wait3 -o ppid,pid,stat,cmd
PPID PID STAT CMD
23286 25260 S+ ./wait3
25260 25261 S+ ./wait3
kill -9 25261
在终端1看到如下的信息:
The child process 25261 exit abnormally.
Status is 9.
解释:我们看到在子进程非正常中断后,用wait(&status)回收子进程,将子进程的状态存到status中,status为整型变量.
二)系统调用waitpid
1)waitpid的概述:
.waitpid函数的原型为pid_t waitpid(pid_t pid,int *status,int options)
.从本质上讲,系统调用waitpid是wait的封装,waitpid只是多出了两个可由用户控制的参数pid和options,为编程提供了灵活性.
2)waitpid的参数说明:
参数pid的值有以下几种类型:
pid>0时,只等待进程ID等于pid的子进程,不管其它已经有多少子进程运行结束退出了,只要指定的子进程还没有结束,waitpid就会一直等下去.
pid=-1时,等待任何一个子进程退出,没有任何限制,此时waitpid和wait的作用一模一样.
pid=0时,等待同一个进程组中的任何子进程,如果子进程已经加入了别的进程组,waitpid不会对它做任何理睬.
pid<-1时,等待一个指定进程组中的任何子进程,这个进程组的ID等于pid的绝对值.
参数options的值有以下几种类型:
如果使用了WNOHANG参数,即使没有子进程退出,它也会立即返回,不会像wait那样永远等下去.
如果使用了WUNTRACED参数,则子进程进入暂停则马上返回,但结束状态不予以理会.
Linux中只支持WNOHANG和WUNTRACED两个选项,这是两个常数,可以用"|"运算符把它们连接起来使用,比如:
ret=waitpid(-1,NULL,WNOHANG | WUNTRACED);
如果我们不想使用它们,也可以把options设为0,如:ret=waitpid(-1,NULL,0);
waitpid的返回值比wait稍微复杂一些,一共有3种情况:
3)waitpid的返回值:
当正常返回的时候waitpid返回收集到的子进程的进程ID;
如果设置了选项WNOHANG,而调用中waitpid发现没有已退出的子进程可收集,则返回0;
如果调用中出错,则返回-1,这时errno会被设置成相应的值以指示错误所在;
当pid所指示的子进程不存在,或此进程存在,但不是调用进程的子进程,waitpid就会出错返回,这时errno被设置为ECHILD.
4)关于waitpid调用的例子:
#include
#include
#include
#include
main()
{
pid_t pc, pr;
pc = fork();
if(pc < 0)
printf("Error occured on forking.\n");
else
if(pc == 0){
sleep(10);
return 0;
}
do{
pr = waitpid(pc, NULL, WNOHANG);
if(pr == 0){
printf("No child exited\n");
sleep(1);
}
}while(pr == 0);
if(pr == pc)
printf("successfully get child %d\n", pr);
else
printf("some error occured\n");
return 0;
}
编译并运行
gcc waitpid.c -o waitpid
./waitpid
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
No child exited
successfully get child 27033
父进程经过10次失败的尝试之后,终于收集到了退出的子进程.
wait&waitpid 的区别是显而易见的,wait等待第一个终止的子进程,而waitpid则可以指定等待特定的子进程。这样的区别可能会在下面这种情况时表现得更加明显:
当同时有5个客户连上服务器,也就是说有五个子进程分别对应了5个客户,此时,五个客户几乎在同时请求终止,这样一来,几乎同时,五个FIN发向服务器,同样的,五个SIGCHLD信号到达服务器,然而,UNIX的信号往往是不会排队的,显然这样一来,信号处理函数将只会执行一次,残留剩余四个子进程作为僵尸进程驻留在内核空间。此时,正确的解决办法是利用waitpid(-1, &stat, WNOHANG)防止留下僵尸进程。其中的pid为-1表明等待第一个终止的子进程,而WNOHANG选择项通知内核在没有已终止进程项时不要阻塞。
wait&waitpid 区别 :
waitpid提供了wait函数不能实现的3个功能: waitpid等待特定的子进程, 而wait则返回任一终止状态的子进程; waitpid提供了一个wait的非阻塞版本; waitpid支持作业控制(以WUNTRACED选项). 用于检查wait和waitpid两个函数返回终止状态的宏: 这两个函数返回的子进程状态都保存在statloc指针中, 用以下3个宏可以检查该状态:
WIFEXITED(status): 若为正常终止, 则为真. 此时可执行WEXITSTATUS(status): 取子进程传送给exit或_exit参数的低8位.
WIFSIGNALED(status): 若为异常终止, 则为真.此时可执行 WTERMSIG(status): 取使子进程终止的信号编号.
WIFSTOPPED(status): 若为当前暂停子进程, 则为真. 此时可执行 WSTOPSIG(status): 取使子进程暂停的信号编号.
父进程在注册SIGHLD中,最好
防止多个子进程同时过来
sig_chld(int signo)
{
pid_t pid;
int stat;
while(pid = waitpid(-1, &stat, WNOHANG) >0);//循环防止多个子进程多来//UNIX网络编程P124
}