分类: Python/Ruby
2014-09-12 08:01:13
多线程和多进程是什么自行google补脑
对于python 多线程的理解,我花了很长时间,搜索的大部份文章都不够通俗易懂。所以,这里力图用简单的例子,让你对多线程有个初步的认识。
单线程
在好些年前的MS-DOS时代,操作系统处理问题都是单任务的,我想做听音乐和看电影两件事儿,那么一定要先排一下顺序。
(好吧!我们不纠结在DOS时代是否有听音乐和看影的应用。^_^)
from time import ctime,sleep def music(): for i in range(2): print "I was listening to music. %s" %ctime()
sleep(1) def move(): for i in range(2): print "I was at the movies! %s" %ctime()
sleep(5) if __name__ == '__main__':
music()
move() print "all over %s" %ctime()
我们先听了一首音乐,通过for循环来控制音乐的播放了两次,每首音乐播放需要1秒钟,sleep()来控制音乐播放的时长。接着我们又看了一场电影,
每一场电影需要5秒钟,因为太好看了,所以我也通过for循环看两遍。在整个休闲娱乐活动结束后,我通过
print "all over %s" %ctime()
看了一下当前时间,差不多该睡觉了。
运行结果:
>>=========================== RESTART ================================
>>> I was listening to music. Thu Apr 17 10:47:08 2014 I was listening to music. Thu Apr 17 10:47:09 2014 I was at the movies! Thu Apr 17 10:47:10 2014 I was at the movies! Thu Apr 17 10:47:15 2014 all over Thu Apr 17 10:47:20 2014
其实,music()和move()更应该被看作是音乐和视频播放器,至于要播放什么歌曲和视频应该由我们使用时决定。所以,我们对上面代码做了改造:
#coding=utf-8 import threading from time import ctime,sleep def music(func): for i in range(2): print "I was listening to %s. %s" %(func,ctime())
sleep(1) def move(func): for i in range(2): print "I was at the %s! %s" %(func,ctime())
sleep(5) if __name__ == '__main__':
music(u'爱情买卖')
move(u'阿凡达') print "all over %s" %ctime()
对music()和move()进行了传参处理。体验中国经典歌曲和欧美大片文化。
运行结果:
>>> ======================== RESTART ================================
>>> I was listening to 爱情买卖. Thu Apr 17 11:48:59 2014 I was listening to 爱情买卖. Thu Apr 17 11:49:00 2014 I was at the 阿凡达! Thu Apr 17 11:49:01 2014 I was at the 阿凡达! Thu Apr 17 11:49:06 2014 all over Thu Apr 17 11:49:11 2014
多线程
科技在发展,时代在进步,我们的CPU也越来越快,CPU抱怨,P大点事儿占了我一定的时间,其实我同时干多个活都没问题的;于是,操作系
统就进入了多任务时代。我们听着音乐吃着火锅的不在是梦想。
python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点,在threading 得到了弥补,为了不浪费你和时间,所以我们直
接学习threading 就可以了。
继续对上面的例子进行改造,引入threadring来同时播放音乐和视频:
#coding=utf-8 import threading from time import ctime,sleep def music(func): for i in range(2): print "I was listening to %s. %s" %(func,ctime())
sleep(1) def move(func): for i in range(2): print "I was at the %s! %s" %(func,ctime())
sleep(5)
threads = []
t1 = threading.Thread(target=music,args=(u'爱情买卖',))
threads.append(t1)
t2 = threading.Thread(target=move,args=(u'阿凡达',))
threads.append(t2) if __name__ == '__main__': for t in threads:
t.setDaemon(True)
t.start() print "all over %s" %ctime()
import threading
首先导入threading 模块,这是使用多线程的前提。
threads = []
t1 = threading.Thread(target=music,args=(u'爱情买卖',))
threads.append(t1)
创建了threads数组,创建线程t1,使用threading.Thread()方法,在这个方法中调用music方法target=music,args方法对music进行传参。 把创
建好的线程t1装到threads数组中。
接着以同样的方式创建线程t2,并把t2也装到threads数组。
for t in threads:
t.setDaemon(True)
t.start()
最后通过for循环遍历数组。(数组被装载了t1和t2两个线程)
setDaemon()
setDaemon(True)将线程声明为守护线程,必须在start() 方法调用之前设置,如果不设置为守护线程程序会被无限挂起。子线程启动后,父线
程也继续执行下去,当父线程执行完最后一条语句print "all over %s" %ctime()后,没有等待子线程,直接就退出了,同时子线程也一同结束。
start()
开始线程活动。
运行结果:
>>> ========================= RESTART ================================
>>> I was listening to 爱情买卖. Thu Apr 17 12:51:45 2014 I was at the 阿凡达! Thu Apr 17 12:51:45 2014 all over Thu Apr 17 12:51:45 2014
从执行结果来看,子线程(muisc 、move )和主线程(print "all over %s" %ctime())都是同一时间启动,但由于主线程执行完结束,所以导致子线程也终止。
继续调整程序:
... if __name__ == '__main__': for t in threads:
t.setDaemon(True)
t.start()
t.join() print "all over %s" %ctime()
我们只对上面的程序加了个join()方法,用于等待线程终止。join()的作用是,在子线程完成运行之前,这个子线程的父线程将一直被阻塞。
注意: join()方法的位置是在for循环外的,也就是说必须等待for循环里的两个进程都结束后,才去执行主进程。
运行结果:
>>> ========================= RESTART ================================ >>> I was listening to 爱情买卖. Thu Apr 17 13:04:11 2014 I was at the 阿凡达! Thu Apr 17 13:04:11 2014 I was listening to 爱情买卖. Thu Apr 17 13:04:12 2014 I was at the 阿凡达! Thu Apr 17 13:04:16 2014 all over Thu Apr 17 13:04:21 2014
从执行结果可看到,music 和move 是同时启动的。
开始时间4分11秒,直到调用主进程为4分22秒,总耗时为10秒。从单线程时减少了2秒,我们可以把music的sleep()的时间调整为4秒。
... def music(func): for i in range(2): print "I was listening to %s. %s" %(func,ctime())
sleep(4)
...
执行结果:
>>> ====================== RESTART ================================
>>> I was listening to 爱情买卖. Thu Apr 17 13:11:27 2014I was at the 阿凡达! Thu Apr 17 13:11:27 2014 I was listening to 爱情买卖. Thu Apr 17 13:11:31 2014 I was at the 阿凡达! Thu Apr 17 13:11:32 2014 all over Thu Apr 17 13:11:37 2014
子线程启动11分27秒,主线程运行11分37秒。
虽然music每首歌曲从1秒延长到了4 ,但通多程线的方式运行脚本,总的时间没变化。
本文从感性上让你快速理解python多线程的使用,更详细的使用请参考其它文档或资料。
==========================================================
class threading.Thread()说明:
class threading.Thread(group=None, target=None, name=None, args=(), kwargs={})
This constructor should always be called with keyword arguments. Arguments are:
group should be None; reserved for future extension when a ThreadGroup class is implemented.
target is the callable object to be invoked by the run() method. Defaults to None, meaning nothing is called.
name is the thread name. By default, a unique name is constructed of the form “Thread-N” where N is a small decimal number.
args is the argument tuple for the target invocation. Defaults to ().
kwargs is a dictionary of keyword arguments for the target invocation. Defaults to {}.
If the subclass overrides the constructor, it must make sure to invoke the base class constructor (Thread.__init__()) before doing
anything else to the thread.
python中关于多线程的操作可以使用thread和threading模块来实现,其中thread模块在Py3中已经改名为_thread,不再推荐使用。而threading模块是在thread之上进行了封装,也是推荐使用的多线程模块,本文主要基于threading模块进行介绍。在某些版本中thread模块可能不存在,要使用dump_threading来代替threading模块。
threading模块中每个线程都是一个Thread对象,创建一个线程有两种方式,一种是将函数传递到Thread对象中执行,另一种是从Thread继承,然后重写run方法(是不是跟Java很像)。
下面使用这两种方法分别创建一个线程并同时执行
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
def threadFunction(): for i in range(10): print 'ThreadFuction - %d'%i time.sleep(random.randrange(0,2)) class ThreadClass(threading.Thread): def __init__(self): threading.Thread.__init__(self); def run(self): for i in range(10): print 'ThreadClass - %d'%i time.sleep(random.randrange(0,2)) if __name__ == '__main__': tFunc = threading.Thread(target = threadFunction); tCls = ThreadClass() tFunc.start() tCls.start() |
执行结果如下,可以看到两个线程在交替打印。至于空行和一行多个输出,是因为Py的print并不是线程安全的,在当前线程的print打印了部分内容后,准备打印换行之前,被别的线程中的print抢先,在换行之前打印了其它的内容。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
ThreadFuction - 0 ThreadFuction - 1 ThreadFuction - 2 ThreadClass - 0 ThreadFuction - 3 ThreadClass - 1 ThreadFuction - 4 ThreadClass - 2 ThreadClass - 3 ThreadClass - 4ThreadFuction - 5 ThreadClass - 5 ThreadClass - 6 ThreadClass - 7 ThreadClass - 8 ThreadFuction - 6ThreadClass - 9 ThreadFuction - 7 ThreadFuction - 8 ThreadFuction - 9 |
Thread类的构造函数定义如下
1 2 3 4 5 6 |
class threading.Thread(group=None, target=None, name=None, args=(), kwargs={}) group: 留作ThreadGroup扩展使用,一般没什么用 target:新线程的任务函数名 name: 线程名,一般也没什么用 args: tuple参数 kwargs:dictionary参数 |
Thread类的成员变量和函数如下
1 2 3 4 5 6 7 8 9 |
start() 启动一个线程 run() 线程执行体,也是一般要重写的内容 join([timeout]) 等待线程结束 name 线程名 ident 线程ID daemon 是否守护线程 isAlive()、is_alive() 线程是否存活 getName()、setName() Name的get&set方法 isDaemon()、setDaemon() daemon的get&set方法 |
这里的守护线程与Linux中的守护进程并不是一个概念。这里是指当所有守护线程退出后主程序才会退出,否则即使线程任务没有结束,只要不是守护线程,都会跟着主程序一起退出。而Linux中的守护进程定义正好相反,守护进程已经脱离父进程,不会随着父进程的结束而退出。
线程同步是多线程中的一个核心问题,threading模块对线程同步有着良好的支持、包括线程特定数据、信号量、互斥锁、条件变量等。
简而言之,线程特定数据就是线程独自持有的全局变量,相互之间的修改不会造成影响。
threading模块中使用local()方法生成一个线程独立对象,举例如下,其中sleep(1)是为了保证让子线程先运行完再运行接下来的语句。
1 2 3 4 5 6 7 8 9 10 11 |
data = threading.local() def threadFunction(): global data data.x = 3 print threading.currentThread(), data.x if __name__ == '__main__': data.x = 1 tFunc = threading.Thread(target = threadFunction).start(); time.sleep(1) print threading.current_thread(), data.x |
输出如下,可以看到,Thread-1中对data.x的修改并没有影响到主线程中data.x的值。
1 2 |
<Thread(Thread-1, started 36208)> 3 <_MainThread(MainThread, started 35888)> 1 |
threading中定义了两种锁:threading.Lock和threading.RLock。两者的不同在于后者是可重入锁,也就是说在一个线程内重复LOCK同一个锁不会发生死锁,这与POSIX中的PTHREAD_MUTEX_RECURSIVE也就是可递归锁的概念是相同的。
关于互斥锁的API很简单,只有三个函数————分配锁,上锁,解锁。
1 2 3 |
threading.Lock() 分配一个互斥锁 acquire([blocking=1]) 上锁(阻塞或者非阻塞,非阻塞时相当于try_lock,通过返回False表示已经被其它线程锁住。) release() 解锁 |
下面通过一个例子来说明互斥锁的使用。在之前的例子中,多线程print会造成混乱的输出,这里使用一个互斥锁,来保证每行一定只有一个输出。
1 2 3 4 5 6 7 8 9 10 |
def threadFunction(arg): while True: lock.acquire() print 'ThreadFuction - %d'%arg lock.release() if __name__ == '__main__': lock = threading.Lock() threading.Thread(target = threadFunction, args=(1,)).start(); threading.Thread(target = threadFunction, args=(2,)).start(); |
条件变量总是与互斥锁一起使用的,threading中的条件变量默认绑定了一个RLock,也可以在初始化条件变量的时候传进去一个自己定义的锁。
可用的函数如下
1 2 3 4 5 6 |
threading.Condition([lock]) 分配一个条件变量 acquire(*args) 条件变量上锁 release() 条件变量解锁 wait([timeout]) 等待唤醒,timeout表示超时 notify(n=1) 唤醒最大n个等待的线程 notifyAll()、notify_all() 唤醒所有等待的线程 |
下面这个例子使用条件变量来控制两个线程交替运行
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
num = 0 def threadFunction(arg): global num while num < 10: cond.acquire() while num % 2 != arg: cond.wait() print 'Thread %d - %d' %(arg, num) num += 1 cond.notify() cond.release() if __name__ == '__main__': cond = threading.Condition() threading.Thread(target = threadFunction, args=(0,)).start(); threading.Thread(target = threadFunction, args=(1,)).start(); |
输出如下
1 2 3 4 5 6 7 8 9 10 11 |
Thread 0 - 0 Thread 1 - 1 Thread 0 - 2 Thread 1 - 3 Thread 0 - 4 Thread 1 - 5 Thread 0 - 6 Thread 1 - 7 Thread 0 - 8 Thread 1 - 9 Thread 0 - 10 |
其实上面这个程序是有问题的,我们想打印的是0~9,但实际上10也被打印了出来,原因很简单,因为两个线程交替打印,使得num在一个线程中可能加2,从而导致10被打印出来,所以必须在打印前再次check。