使用多线程的理由:
1.在Linux系统下,启动一个新的进程必须分配给它独立的地址空间,建立众
多的数据表来维护它的代码段、堆栈段和数据段,这是一种"昂贵"的多任务工
作方式。而运行于一个进程中的多个线程,它们彼此之间使用相同的地址空
间,共享大部分数据,启动一个线程所花费的空间远远小于启动一个进程所
花费的空间,而且,线程间彼此切换所需的时间也远远小于进程间切换所需
要的时间.
2.线程间方便的通信机制。对不同进程来说,它们具有独立的数据空间,要
进行数据的传递只能通过通信的方式进行,这种方式不仅费时,而且很不方
便。线程则不然,由于同一进程下的线程之间共享数据空间,所以一个线程
的数据可以直接为其它线程所用,这不仅快捷,而且方便。
实例:
Linux系统下的多线程遵循POSIX线程接口,称为pthread。编写Linux下的多
线程程序,需要使用头文件pthread.h,连接时需要使用库libpthread.a。顺便
说一下,Linux下pthread的实现是通过系统调用clone()来实现的。clone(
)是Linux所特有的系统调用,它的使用方式类似fork.
#include
#include
#include
#define MAX 5
void thread_child(void)
{
int i;
for(i=0;i{
printf("Thread_Child:%d\n",i);
sleep(2);
}
}
int main(void)
{
pthread_t child;
int i;
int ret;
ret=pthread_create(&child,NULL,(void*)thread_child,NULL);
if(ret!=0)
{
printf("Create pthread_child faulure\n");
exit(1);
}
for(i=0;i{
printf("Main Thread:%d\n",i);
sleep(1);
}
pthread_join(child,NULL);
return 0;
}
其中sleep(n)用于让线程睡眠,这样线程可以切换,这样才能看到并发和切换
争夺CPU资源的效果.
编译:要连接libpthread.a库
gcc test.c -lpthread -o test
./test
说明:
静态库名通过是这样的形式:
lib库名.a
在编译连接库时要这样指定:
-l(小写的L)后跟上库名(去掉lib和.a)
pthread_t为线程标识符,在/usr/include/bits/pthreadtypes.h中定义为typedef
unsigned long int pthread_t.
pthread_create用于创建一个线程,在/usr/include/pthread.h中定义原型为
extern int pthread_create(pthread_t *__restrict __threadp,__const
pthread_attr_t *__restrict __attr,void *(*__start_routine)(void*),void *__restrict
__arg);
参数说明:
第一个为指向线程标识符的指针
第二个用于设置线程属性
第三个是线程运行函数的起始地址
最后一个是运行函数的参数
这里函数thread不需要参数,所以最后一个参数设为空指针。第二个参数我们
也设为空指针,这样将生成默认属性的线程。
当创建线程成功时,函数返回0,若不为0则说明创建线程失败,常见的错误
返回代码为EAGAIN和EINVAL。前者表示系统限制创建新的线程,例如线程
数目过多了;后者表示第二个参数代表的线程属性值非法。创建线程成功后
,新创建的线程则运行参数三和参数四确定的函数,原来的线程则继续运行
下一行代码。
pthread_join用于等待一个线程的结束
extern int pthread_t (pthread_t __th,void **__thread_return);
参数:
第一个为被等待的线程标识符
第二个参数为一个用户定义的指针,它可以用来存储被等待线程的返回值
个函数是一个线程阻塞的函数,调用它的函数将一直等待到被等待的线程结
束为止,当函数返回时,被等待线程的资源被收回。一个线程的结束有两种
途径,一种是象我们上面的例子一样,函数结束了,调用它的线程也就结束
了;另一种方式是通过函数pthread_exit来实现。
extern void pthread_exit ((void *__retval)) __attribute__ ((__noreturn__));
唯一的参数为函数的返回码,
只要pthread_join中的第二个参数thread_return不是NULL,这个值将被传递给
thread_return。最后要说明的是,一个线程不能被多个线程等待,否则第一个
接收到信号的线程成功返回,其余调用pthread_join的线程则返回错误代
码ESRCH
线程属性
属性结构体:pthread_attr_t,定义在/usr/include/pthread.h中
属性值不能直接设置,必须通过相关的函数,初始化函数为pthread_attr_init,
必须在pthread_create之间调用,属性对象主要包括是否绑定、是否分离、堆
栈地址、堆栈大小、优先级。默认的属性为非绑定、非分离、缺省1M的堆栈
、与父进程同样级别的优先级.
轻进程(LWP:Light Weight Process)。轻进程可以理解为内核线程,它位
于用户层和系统层之间。系统对线程资源的分配、对线程的控制是通过轻进
程来实现的,一个轻进程可以控制一个或多个线程。默认状况下,启动多少
轻进程、哪些轻进程来控制哪些线程是由系统来控制的,这种状况即称为非
绑定的。绑定状况下,则顾名思义,即某个线程固定的"绑"在一个轻进程之上
。被绑定的线程具有较高的响应速度,这是因为CPU时间片的调度是面向轻
进程的,绑定的线程可以保证在需要的时候它总有一个轻进程可用。通过设
置被绑定的轻进程的优先级和调度级可以使得绑定的线程满足诸如实时反应
之类的要求
设置线程绑定状态pthread_attr_setscope,参数一为指向属性结构的指针,参
数二为PTHREAD_SCOPE_SYSTEM(绑
定)和PTHREAD_SCOPE_PROCESS(非绑定)
例:创建绑定线程
#include
pthread_attr_t attr;
pthread_t id;
pthead_attr_init(&attr);
pthread_attr_setscope(&attr,PTHREAD_SCOPE_SYSTEM);
pthread_create(&id,&attr,(void*)pthread_child,NULL);
线程的分离状态决定一个线程以什么样的方式来终止自己。在上面的例子中
,我们采用了线程的默认属性,即为非分离状态,这种情况下,原有的线程
等待创建的线程结束。只有当pthread_join()函数返回时,创建的线程才算
终止,才能释放自己占用的系统资源。而分离线程不是这样子的,它没有被
其他的线程所等待,自己运行结束了,线程也就终止了,马上释放系统资源
。程序员应该根据自己的需要,选择适当的分离状态。
设置线程分离状态:pthread_attr_setdetachstate(pthead_attr_t *attr,int
detachstate);
参数二为PTHREAD_CREATE_DETACHED(分离线
程)或PTHREAD_CREATE_JOINABLE(非分离线程)
这里要注意的一点是,如果设置一个线程为分离线程,而这个线程运行又非
常快,它很可能在 pthread_create函数返回之前就终止了,它终止以后就可
能将线程号和系统资源移交给其他的线程使用,这样调用pthread_create的线
程就得到了错误的线程号。要避免这种情况可以采取一定的同步措施,最简
单的方法之一是可以在被创建的线程里调用 pthread_cond_timewait函数,让
这个线程等待一会儿,留出足够的时间让函数pthread_create返回。设置一段
等待时间,是在多线程编程里常用的方法。但是注意不要使用诸如wait()之
类的函数,它们是使整个进程睡眠,并不能解决线程同步的问题。
设置线程优先级,结构体为sched_param,相关函
数pthread_attr_getschedparam和pthread_attr_setschedparam.
通常的做法是先取得优先级对取得的值修改后再存放回去。
例:
#include
#include
pthead_t id; //线程id
pthread_attr_t attr; //线性属性结构
sched_param param; //线性优先级结构
int newpriority=20;
pthread_attr_init(&attr); //用默认值初始化属性结构
pthread_attr_getschedparam(&attr,¶m); //获取默认优先级
param.sched_priority=newpriority; //设置优先级结构体成员
pthread_attr_setschedparam(&attr,¶m); //修改后再放回去
pthread_create(&id,&attr,(void*)pthread_child,childarg); //创建线程
..........
线程的数据处理
和进程相比,线程的最大优点之一是数据的共享性,各个进程共享父进程处沿袭的数据段,可以方便的获得、修改数据。但这也给多线程编程带来了许多问题。我
们必须当心有多个不同的进程访问相同的变量。许多函数是不可重入的,即同时不能运行一个函数的多个拷贝(除非使用不同的数据段)。在函数中声明的静态变量
常常带来问题,函数的返回值也会有问题。因为如果返回的是函数内部静态声明的空间的地址,则在一个线程调用该函数得到地址后使用该地址指向的数据时,别的
线程可能调用此函数并修改了这一段数据。在进程中共享的变量必须用关键字volatile来定义,这是为了防止编译器在优化时(如gcc中使用-OX参
数)改变它们的使用方式。为了保护变量,我们必须使用信号量、互斥等方法来保证我们对变量的正确使用。下面,我们就逐步介绍处理线程数据时的有关知识。
线程数据
在单线程的程序里,有两种基本的数据:全局变量和局部变量。但在多线程程序里,还有第三种数据类型:线程数据(TSD:
Thread-Specific
Data)。它和全局变量很象,在线程内部,各个函数可以象使用全局变量一样调用它,但它对线程外部的其它线程是不可见的。这种数据的必要性是显而易见
的。例如我们常见的变量errno,它返回标准的出错信息。它显然不能是一个局部变量,几乎每个函数都应该可以调用它;但它又不能是一个全局变量,否则在
A线程里输出的很可能是B线程的出错信息。要实现诸如此类的变量,我们就必须使用线程数据。我们为每个线程数据创建一个键,它和这个键相关联,在各个线程
里,都使用这个键来指代线程数据,但在不同的线程里,这个键代表的数据是不同的,在同一个线程里,它代表同样的数据内容。
和线程数据相关的函数主要有4个:创建一个键;为一个键指定线程数据;从一个键读取线程数据;删除键。
创建键的函数原型为:
extern int pthread_key_create __P ((pthread_key_t *__key,
void (*__destr_function) (void *)));
第一个参数为指向一个键值的指针,第二个参数指明了一个destructor函数,如果这个参数不为空,那么当每个线程结束时,系统将调用这个函数来释
放绑定在这个键上的内存块。这个函数常和函数pthread_once ((pthread_once_t*once_control, void
(*initroutine)
(void)))一起使用,为了让这个键只被创建一次。函数pthread_once声明一个初始化函数,第一次调用pthread_once时它执行这
个函数,以后的调用将被它忽略。
在下面的例子中,我们创建一个键,并将它和某个数据相关联。我们要定义一个函数
createWindow,这个函数定义一个图形窗口(数据类型为Fl_Window
*,这是图形界面开发工具FLTK中的数据类型)。由于各个线程都会调用这个函数,所以我们使用线程数据。
/* 声明一个键*/
pthread_key_t myWinKey;
/* 函数 createWindow */
void createWindow ( void )
{
Fl_Window * win;
static pthread_once_t once= PTHREAD_ONCE_INIT;
/* 调用函数createMyKey,创建键*/
pthread_once ( & once, createMyKey) ;
/*win指向一个新建立的窗口*/
win=new Fl_Window( 0, 0, 100, 100, "MyWindow");
/* 对此窗口作一些可能的设置工作,如大小、位置、名称等*/
setWindow(win);
/* 将窗口指针值绑定在键myWinKey上*/
pthread_setpecific ( myWinKey, win);
}
/* 函数 createMyKey,创建一个键,并指定了destructor */
void createMyKey ( void )
{
pthread_keycreate(&myWinKey, freeWinKey);
}
/* 函数 freeWinKey,释放空间*/
void freeWinKey ( Fl_Window * win)
{
delete win;
}
这样,在不同的线程中调用函数createMyWin,都可以得到在线程内部均可见的窗口变量,这个变量通过函数
pthread_getspecific得到。在上面的例子中,我们已经使用了函数pthread_setspecific来将线程数据和一个键绑定在一
起。这两个函数的原型如下:
extern int pthread_setspecific __P ((pthread_key_t __key,__const void *__pointer));
extern void *pthread_getspecific __P ((pthread_key_t __key));
这两个函数的参数意义和使用方法是显而易见的。要注意的是,用pthread_setspecific为一个键指定新的线程数据时,必须自己释放原有的
线程数据以回收空间。这个过程函数pthread_key_delete用来删除一个键,这个键占用的内存将被释放,但同样要注意的是,它只释放键占用的
内存,并不释放该键关联的线程数据所占用的内存资源,而且它也不会触发函数pthread_key_create中定义的destructor函数。线程
数据的释放必须在释放键之前完成。
互斥锁
互斥锁用来保证一段时间内只有一个线程在行一段代码。必要性显而易见:假设各个线程向同一个文件顺序写入数据,最后得到的结果一定是灾难性的。
我们先看下面一段代码。这是一个读/写程序,它们公用一个缓冲区,并且我们假定一个缓冲区只能保存一条信息。即缓冲区只有两个状态:有信息或没有信息。
void reader_function(void);
void writer_function(void);
char buffer;
int buffer_has_item =0;
pthread_mutext_t mutex;
struct timespec delay;
void main(void)
{
pthread_t reader;
//定义延迟时间
delay.tv_sec=2;
delay.tv_nec=0;
/* 用默认属性初始化一个互斥锁对象*/
pthread_mutex_init (&mutex,NULL);
pthread_create(&reader, pthread_attr_default, (void *)&reader_function), NULL);
writer_function( );
}
void writer_function (void){
while(1){
/* 锁定互斥锁*/
pthread_mutex_lock (&mutex);
if (buffer_has_item==0){
buffer=make_new_item( );
buffer_has_item=1;
}
/* 打开互斥锁*/
pthread_mutex_unlock(&mutex);
pthread_delay_np(&delay);
}
}
void reader_function(void){
while(1){
pthread_mutex_lock(&mutex);
if(buffer_has_item==1){
consume_item(buffer);
buffer_has_item=0;
}
pthread_mutex_unlock(&mutex);
pthread_delay_np(&delay);
}
}
这里声明了互斥锁变量mutex,结构pthread_mutex_t为不公开的数据类型,其中包含一个系统分配的属性对象。函数
pthread_mutex_init用来生成一个互斥锁。NULL参数表明使用默认属性。如果需要声明特定属性的互斥锁,须调用函数
pthread_mutexattr_init。函数pthread_mutexattr_setpshared和函数
pthread_mutexattr_settype用来设置互斥锁属性。前一个函数设置属性pshared,它有两个取值,
PTHREAD_PROCESS_PRIVATE和PTHREAD_PROCESS_SHARED。前者用来不同进程中的线程同步,后者用于同步本进程的
不同线程。在上面的例子中,我们使用的是默认属性PTHREAD_PROCESS_
PRIVATE。后者用来设置互斥锁类型,可选的类型有PTHREAD_MUTEX_NORMAL、PTHREAD_MUTEX_ERRORCHECK、
PTHREAD_MUTEX_RECURSIVE和PTHREAD
_MUTEX_DEFAULT。它们分别定义了不同的上所、解锁机制,一般情况下,选用最后一个默认属性。
pthread_mutex_lock声明开始用互斥锁上锁,此后的代码直至调用pthread_mutex_unlock为止,均被上锁,即同一时间只
能被一个线程调用执行。当一个线程执行到pthread_mutex_lock处时,如果该锁此时被另一个线程使用,那此线程被阻塞,即程序将等待到另一
个线程释放此互斥锁。在上面的例子中,我们使用了pthread_delay_np函数,让线程睡眠一段时间,就是为了防止一个线程始终占据此函数。
上面的例子非常简单,就不再介绍了,需要提出的是在使用互斥锁的过程中很有可能会出现死锁:两个线程试图同时占用两个资源,并按不同的次序锁定相应的互
斥锁,例如两个线程都需要锁定互斥锁1和互斥锁2,a线程先锁定互斥锁1,b线程先锁定互斥锁2,这时就出现了死锁。此时我们可以使用函数
pthread_mutex_trylock,它是函数pthread_mutex_lock的非阻塞版本,当它发现死锁不可避免时,它会返回相应的信
息,程序员可以针对死锁做出相应的处理。另外不同的互斥锁类型对死锁的处理不一样,但最主要的还是要程序员自己在程序设计注意这一点。
4.3 条件变量
前一节中我们讲述了如何使用互斥锁来实现线程间数据的共享和通信,互斥锁一个明显的缺点是它只有两种状态:锁定和非锁定。而条件变量通过允许线程阻塞和
等待另一个线程发送信号的方法弥补了互斥锁的不足,它常和互斥锁一起使用。使用时,条件变量被用来阻塞一个线程,当条件不满足时,线程往往解开相应的互斥
锁并等待条件发生变化。一旦其它的某个线程改变了条件变量,它将通知相应的条件变量唤醒一个或多个正被此条件变量阻塞的线程。这些线程将重新锁定互斥锁并
重新测试条件是否满足。一般说来,条件变量被用来进行线承间的同步。
条件变量的结构为pthread_cond_t,函数pthread_cond_init()被用来初始化一个条件变量。它的原型为:
extern int pthread_cond_init __P ((pthread_cond_t *__cond,__const pthread_condattr_t *__cond_attr));
其中cond是一个指向结构pthread_cond_t的指针,cond_attr是一个指向结构pthread_condattr_t的指针。结构
pthread_condattr_t是条件变量的属性结构,和互斥锁一样我们可以用它来设置条件变量是进程内可用还是进程间可用,默认值是
PTHREAD_
PROCESS_PRIVATE,即此条件变量被同一进程内的各个线程使用。注意初始化条件变量只有未被使用时才能重新初始化或被释放。释放一个条件变量
的函数为pthread_cond_ destroy(pthread_cond_t cond)。
函数pthread_cond_wait()使线程阻塞在一个条件变量上。它的函数原型为:
extern int pthread_cond_wait __P ((pthread_cond_t *__cond,
pthread_mutex_t *__mutex));
线程解开mutex指向的锁并被条件变量cond阻塞。线程可以被函数pthread_cond_signal和函数
pthread_cond_broadcast唤醒,但是要注意的是,条件变量只是起阻塞和唤醒线程的作用,具体的判断条件还需用户给出,例如一个变量是
否为0等等,这一点我们从后面的例子中可以看到。线程被唤醒后,它将重新检查判断条件是否满足,如果还不满足,一般说来线程应该仍阻塞在这里,被等待被下
一次唤醒。这个过程一般用while语句实现。
另一个用来阻塞线程的函数是pthread_cond_timedwait(),它的原型为:
extern int pthread_cond_timedwait __P ((pthread_cond_t *__cond,
pthread_mutex_t *__mutex, __const struct timespec *__abstime));
它比函数pthread_cond_wait()多了一个时间参数,经历abstime段时间后,即使条件变量不满足,阻塞也被解除。
函数pthread_cond_signal()的原型为:
extern int pthread_cond_signal __P ((pthread_cond_t *__cond));
它用来释放被阻塞在条件变量cond上的一个线程。多个线程阻塞在此条件变量上时,哪一个线程被唤醒是由线程的调度策略所决定的。要注意的是,必须用保
护条件变量的互斥锁来保护这个函数,否则条件满足信号又可能在测试条件和调用pthread_cond_wait函数之间被发出,从而造成无限制的等待。
下面是使用函数pthread_cond_wait()和函数pthread_cond_signal()的一个简单的例子。
pthread_mutex_t count_lock;
pthread_cond_t count_nonzero;
unsigned count;
decrement_count () {
pthread_mutex_lock (&count_lock);
while(count==0)
pthread_cond_wait( &count_nonzero, &count_lock);
count=count -1;
pthread_mutex_unlock (&count_lock);
}
increment_count(){
pthread_mutex_lock(&count_lock);
if(count==0)
pthread_cond_signal(&count_nonzero);
count=count+1;
pthread_mutex_unlock(&count_lock);
}
count值为0时,
decrement函数在pthread_cond_wait处被阻塞,并打开互斥锁count_lock。此时,当调用到函数
increment_count时,pthread_cond_signal()函数改变条件变量,告知decrement_count()停止阻塞。读
者可以试着让两个线程分别运行这两个函数,看看会出现什么样的结果。
函数pthread_cond_broadcast(pthread_cond_t *cond)用来唤醒所有被阻塞在条件变量cond上的线程。这些线程被唤醒后将再次竞争相应的互斥锁,所以必须小心使用这个函数。
4.4 信号量
信号量本质上是一个非负的整数计数器,它被用来控制对公共资源的访问。当公共资源增加时,调用函数sem_post()增加信号量。只有当信号量值大于
0时,才能使用公共资源,使用后,函数sem_wait()减少信号量。函数sem_trywait()和函数pthread_
mutex_trylock()起同样的作用,它是函数sem_wait()的非阻塞版本。下面我们逐个介绍和信号量有关的一些函数,它们都在头文件
/usr/include/semaphore.h中定义。
信号量的数据类型为结构sem_t,它本质上是一个长整型的数。函数sem_init()用来初始化一个信号量。它的原型为:
extern int sem_init __P ((sem_t *__sem, int __pshared, unsigned int __value));
sem为指向信号量结构的一个指针;pshared不为0时此信号量在进程间共享,否则只能为当前进程的所有线程共享;value给出了信号量的初始值。
函数sem_post( sem_t *sem )用来增加信号量的值。当有线程阻塞在这个信号量上时,调用这个函数会使其中的一个线程不在阻塞,选择机制同样是由线程的调度策略决定的。
函数sem_wait( sem_t *sem
)被用来阻塞当前线程直到信号量sem的值大于0,解除阻塞后将sem的值减一,表明公共资源经使用后减少。函数sem_trywait (
sem_t *sem )是函数sem_wait()的非阻塞版本,它直接将信号量sem的值减一。
函数sem_destroy(sem_t *sem)用来释放信号量sem。
下面我们来看一个使用信号量的例子。在这个例子中,一共有4个线程,其中两个线程负责从文件读取数据到公共的缓冲区,另两个线程从缓冲区读取数据作不同的处理(加和乘运算)。
/* File sem.c */
#include
#include
#include
#define MAXSTACK 100
int stack[MAXSTACK][2];
int size=0;
sem_t sem;
/* 从文件1.dat读取数据,每读一次,信号量加一*/
void ReadData1(void){
FILE *fp=fopen("1.dat","r");
while(!feof(fp)){
fscanf(fp,"%d %d",&stack[size][0],&stack[size][1]);
sem_post(&sem);
++size;
}
fclose(fp);
}
/*从文件2.dat读取数据*/
void ReadData2(void){
FILE *fp=fopen("2.dat","r");
while(!feof(fp)){
fscanf(fp,"%d %d",&stack[size][0],&stack[size][1]);
sem_post(&sem);
++size;
}
fclose(fp);
}
/*阻塞等待缓冲区有数据,读取数据后,释放空间,继续等待*/
void HandleData1(void){
while(1){
sem_wait(&sem);
printf("Plus:%d+%d=%d\n",stack[size][0],stack[size][1],
stack[size][0]+stack[size][1]);
--size;
}
}
void HandleData2(void){
while(1){
sem_wait(&sem);
printf("Multiply:%d*%d=%d\n",stack[size][0],stack[size][1],
stack[size][0]*stack[size][1]);
--size;
}
}
int main(void){
pthread_t t1,t2,t3,t4;
sem_init(&sem,0,0);
pthread_create(&t1,NULL,(void *)HandleData1,NULL);
pthread_create(&t2,NULL,(void *)HandleData2,NULL);
pthread_create(&t3,NULL,(void *)ReadData1,NULL);
pthread_create(&t4,NULL,(void *)ReadData2,NULL);
/* 防止程序过早退出,让它在此无限期等待*/
pthread_join(t1,NULL);
}
在Linux下,我们用命令gcc -lpthread sem.c -o
sem生成可执行文件sem。我们事先编辑好数据文件1.dat和2.dat,假设它们的内容分别为1 2 3 4 5 6 7 8 9 10和 -1
-2 -3 -4 -5 -6 -7 -8 -9 -10 ,我们运行sem,得到如下的结果:
Multiply:-1*-2=2
Plus:-1+-2=-3
Multiply:9*10=90
Plus:-9+-10=-19
Multiply:-7*-8=56
Plus:-5+-6=-11
Multiply:-3*-4=12
Plus:9+10=19
Plus:7+8=15
Plus:5+6=11
从中我们可以看出各个线程间的竞争关系。而数值并未按我们原先的顺序显示出来这是由于size这个数值被各个线程任意修改的缘故。这也往往是多线程编程要注意的问题。
小结
多线程编程是一个很有意思也很有用的技术,使用多线程技术的网络蚂蚁是目前最常用的下载工具之一,使用多线程技术的grep比单线程的grep要快上几倍,类似的例子还有很多。希望大家能用多线程技术写出高效实用的好程序来。
}
阅读(1174) | 评论(1) | 转发(1) |