分类: LINUX
2015-03-29 16:02:17
原文地址:http://www.cnblogs.com/hicjiajia/archive/2011/01/20/1940154.html
一、引言
对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:它执行一次却返回两个值。fork函数是Unix系统最杰出的成就
之一,它是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果,一方面,它使操作系统在进程管理上付出了最小的代价,另一方面,
又为程序员提供了一个简洁明了的多进程方法。与DOS和早期的Windows不同,Unix/Linux系统是真正实现多任务操作的系统,可以说,不使用
多进程编程,就不能算是真正的Linux环境下编程。
二、多进程编程
什么是一个进程?进程这个概念是针对系统而不是针对用户的,对用户来说,他面对的概念是程序。当 用户敲入命令执行一个程序的时候,对系统而言,它将启动一个进程。但和程序不同的是,在这个进程中,系统可能需要再启动一个或多个进程来完成独立的多个任 务。多进程编程的主要内容包括进程控制和进程间通信,在了解这些之前,我们先要简单知道进程的结构。
2.1 Linux下进程的结构
Linux下一个进程在内存里有三部分的数据,就是"代码段"、"堆栈段"和"数据段"。其实学过汇编语言的人一定知道,一般的CPU都有上述三种段寄存器,以方便操作系统的运行。这三个部分也是构成一个完整的执行序列的必要的部分。
"代码段",顾名思义,就是存放了程序代码的数据,假如机器中有数个进程运行相同的一个程 序,那么它们就可以使用相同的代码段。"堆栈段"存放的就是子程序的返回地址、子程序的参数以及程序的局部变量。而数据段则存放程序的全局变量,常数以及 动态数据分配的数据空间(比如用malloc之类的函数取得的空间)。这其中有许多细节问题,这里限于篇幅就不多介绍了。系统如果同时运行数个相同的程 序,它们之间就不能使用同一个堆栈段和数据段。
2.2 Linux下的进程控制
在传统的Unix环境下,有两个基本的操作用于创建和修改进程:函数fork( )用来创建一个新的进程,该进程几乎是当前进程的一个完全拷贝;函数族exec( )用来启动另外的进程以取代当前运行的进程。Linux的进程控制和传统的Unix进程控制基本一致,只在一些细节的地方有些区别,例如在Linux系统 中调用vfork和fork完全相同,而在有些版本的Unix系统中,vfork调用有不同的功能。由于这些差别几乎不影响我们大多数的编程,在这里我们 不予考虑。
2.2.1 fork()
fork在英文中是"分叉"的意思。为什么取这个名字呢?因为一个进程在运行中,如果使用了fork,就产生了另一个进程,于是进程就"分叉"了,所以这个名字取得很形象。下面就看看如何具体使用fork,这段程序演示了使用fork的基本框架:
1void main()
2{
3 int i;
4 if ( fork() == 0 )
5 {
6 /* 子进程程序 */
7 for ( i = 1; i <1000; i ++ )
8 printf("This is child process\n");
9 }
10 else
11 {
12 /* 父进程程序*/
13 for ( i = 1; i <1000; i ++ )
14 printf("This is process process\n");
15 }
16}
程序运行后,你就能看到屏幕上交替出现子进程与父进程各打印出的一千条信息了。如果程序还在运行中,你用ps命令就能看到系统中有两个它在运行了。
那么调用这个fork函数时发生了什么呢?fork函数启动一个新的进程,前面我们说过,这
个进程几乎是当前进程的一个拷贝:子进程和父进程使用相同的代码段;子进程复制父进程的堆栈段和数据段。这样,父进程的所有数据都可以留给子进程,但是,
子进程一旦开始运行,虽然它继承了父进程的一切数据,但实际上数据却已经分开,相互之间不再有影响了,也就是说,它们之间不再共享任何数据了。它们再要交
互信息时,只有通过进程间通信来实现,这将是我们下面的内容。既然它们如此相象,系统如何来区分它们呢?
这是由函数的返回值来决定的。对于父进程,
fork函数返回了子程序的进程号,而对于子程序,fork函数则返回零。在操作系统中,我们用ps函数就可以看到不同的进程号,对父进程而言,它的进程
号是由比它更低层的系统调用赋予的,而对于子进程而言,它的进程号即是fork函数对父进程的返回值。在程序设计中,父进程和子进程都要调用函数
fork()下面的代码,而我们就是利用fork()函数对父子进程的不同返回值用if...else...语句来实现让父子进程完成不同的功能,正如我
们上面举的例子一样。我们看到,上面例子执行时两条信息是交互无规则的打印出来的,这是父子进程独立执行的结果,虽然我们的代码似乎和串行的代码没有什么
区别。
读者也许会问,如果一个大程序在运行中,它的数据段和堆栈都很大,一次fork就要复制一 次,那么fork的系统开销不是很大吗?其实UNIX自有其解决的办法,大家知道,一般CPU都是以"页"为单位来分配内存空间的,每一个页都是实际物理 内存的一个映像,象INTEL的CPU,其一页在通常情况下是 4096字节大小,而无论是数据段还是堆栈段都是由许多"页"构成的,fork函数复制这两个段,只是"逻辑"上的,并非"物理"上的,也就是说,实际执 行fork时,物理空间上两个进程的数据段和堆栈段都还是共享着的,当有一个进程写了某个数据时,这时两个进程之间的数据才有了区别,系统就将有区别的" 页"从物理上也分开。系统在空间上的开销就可以达到最小。
下面演示一个足以"搞死"Linux的小程序,其源代码非常简单:
1void main()
2{
3 for( ; ; )
4 {
5 fork();
6 }
7}
这个程序什么也不做,就是死循环地fork,其结果是程序不断产生进程,而这些进程又不断产生新的进程,很快,系统的进程就满了,系统就被这么多不断产生 的进程"撑死了"。当然只要系统管理员预先给每个用户设置可运行的最大进程数,这个恶意的程序就完成不了企图了。
为什么会有进程间通信?
我们应该都知道了,进程是一个程序的一次执行,是系统资源分配的最小单元。这里所说的进程一般是指运行在用户态的进程,而由于处于用户态的不同进程间是彼此隔离的,但是它们很可能需要相互发送一些信息,好让对方知道自己的进度等情况,像这样进程间传递信息就叫进程间通信。
进程间通信方式有几种?
就像处于不同城市的人之间的通信方式有手机、电脑等方式一样,进程间通信的方式有几种,就用下面的图来表示把,这样直观,并且我一直相信这时一个知识点,必须记下来!
● 管道(Pipe)及有名管道(Named Pipe): 管道可用于具有"血缘"关系进程间(也就是父子进程或者兄弟进程)的通信。有名管道除具有管道所具有的功能外,还允许无"血缘"关系进程间的通信。
● 信号(Signal): 信号是在软件层次上对中断机制的一种模拟,它是比较复杂的通信方式,用于通知进程有某事件发生。应该学过ARM或单片机中断吧,其实一个进程收到一个信号与处理器收到一个中断请求效果上可以说是一样的(注意是效果噢!)。
● 信号量(Semaphore): 主要作为进程之间及同一进程的不同线程之间的同步和互斥手段。猛一看,可能会和信号混淆,但是它们最起码英语表示就不同吧,我当时也是分不清他两个,不过没关系,不懂同步和互斥也没事,以后会详细的讲,先知道有这回事就行了。
● 共享内存(Shared Memory): 可以说这是最有效的进程间通信方式。它使得多个进程可以访问同一块内存空间,不同进程可以及时看到对方进程中对共享内存中数据的更新。这种通信方式需要依靠某种同步机制,如互此锁和信号量等。
● 消息队列(Messge Queue): 消息队列是消息的链表,包括 Posix 消息队列和 System V 消息队列。它克服了前两种通信方式中信息量有限的缺点,具有写权限的进程可以按照一定的规则向消息队列中添加消息;对消息队列具有读权限的进程则可以从消 息队列中读取消息。
● 套接字(Socket): 这个绝对是一种更为一般的进程间通信机制,它可用于网络中不同机器之间的进程间通信,应用那是相当的广泛啊。
我不想多写了,我感觉学Linux进程间通信,先宏观上认识它就行,先知道这两个问题,再逐个击破吧!
管道简介
管道是Linux中进程间通信的一种方式,它把一个程序的输出直接连接到另一个程序的输入(其实我更愿意将管道比喻为农村浇地的管子)。Linux的管道主要包括两种:无名管道和有名管道。这一节主要讲无名管道,首先介绍一下这两个管道。(特点很重要啊!)
1、无名管道
无名管道是Linux中管道通信的一种原始方法,如图一(左)所示,它具有以下特点:
① 它只能用于具有亲缘关系的进程之间的通信(也就是父子进程或者兄弟进程之间);
② 它是一个半双工的通信模式,具有固定的读端和写端,一个进程内同一个时刻只能是接收或发送一种;
③ 管道也可以看成是一种特殊的文件,对于它的读写也可以使用普通的 read()、write()等函数。但它不是普通的文件,并不属于其他任何文件系统并且只存在于内存中。
2、有名管道(FIFO)
有名管道是对无名管道的一种改进,如图1(右)所示,它具有以下特点:
① 它可以使互不相关的两个进程间实现彼此通信;
② 该管道可以通过路径名来指出,并且在文件系统中是可见的。在建立了管道之后,两个进程就可以把它当做普通文件一样进行读写操作,使用非常方便;
③ FIFO严格地遵循先进先出规则,对管道及FIFO的读总是从开始处返回数据,对它们的写则是把数据添加到末尾,它们不支持如 lseek()等文件定位操作。
无名管道及其系统调用
1、管道创建与管道说明
管道是基于文件描述符的通信方式,当一个管道建立时,它会创建两个文件描述符fd[0]和fd[1],其中fd[0]固定用于读管道,而fd[1]固定用于写管道,如图2所示,这样就构成了一个半双工的通道。
管道关闭时只需要将这两个文件描述符关闭即可,可使用普通的close()函数逐个关闭各个文件描述符。
2、管道创建函数
创建管道可以调用 pipe() 来实现,如下表
3、管道读写说明
用 pipe() 创建的管道两端处于同一个进程中,由于管道主要是用于在不同的进程间通信的,因此,在实际应用中没有太大意义。实际上,通常先是创建一个管道,再调用fork()函数创建一个子进程,该子进程会继承父进程所创建的管道,这时,父子进程管道的文件描述符对应关系如下图
此时的关系看似非常复杂,实际上却已经给不同进程之间的读写创造了很好的条件。父子进程分别拥有自己的读写通道,为了实现父子进程之间的读写,只需 把无关的读端或写端的文件描述符关闭即可。例如,图4中,将父进程的写端fd[1]和子进程的读端fd[0]关闭,则父子进程之间就建立起一条“子进程写 入父进程读取”的通道。 同样,也可以将父进程的读端fd[0]和子进程的写端fd[1]关闭,则父子进程之间就建立起一条“父进程写入子进程读取”的通道
另外,父进程还可以创建多个子进程,各个子进程都继承了相应的fd[0]和fd[1],此时,只需要关闭相应的端口就可以建立各子进程之间的的通道。
4、管道读写注意点
● 只有在管道的读端存在时,向管道写入数据才有意义。否则,向管道写入数据的进程将收到内核传来的 SIGPIPE 信号(通常为 Broken pipe错误)。
● 向管道写入数据时,Linux将不保证写入的原子性(只要写入的数据小于管道所剩的空间区域),管道缓冲区一有空闲区域,写进程就会试图向管道写入数据。如果读进程不读取管道缓冲区中的数据,那么写进程将会一直阻塞。
● 父子进程在运行时,它们的先后次序并不能保证。因此,为了保证父子进程已经关闭了相应的文件描述符,可在两个进程中调用 sleep()函数。当然,这种调用不是很好的解决方法,以后我会用进程之间的同步与互斥机制来修改它的!
●读写操作的阻塞性可通过fcntl设置
以下是本人写的例程
上面程序编译执行输出如下:
Read in Pipe From ChildProcess!
Read Message are : a0
Read Message are : a0,ret=-1
$:Write in Pipe To FatherProcess!//子进程在父进程退出后才输出