Python multiprocessing 跨进程对象共享-oychw-ChinaUnix博客

雪峰磁针石测试 linux pythontesting.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

oychw

博客访问： 19990083
博文数量： 679
博客积分： 10495
博客等级：上将
技术积分： 9308
用户组：普通用户
注册时间： 2006-07-18 10:51

文章分类

全部博文（679）

@python（115）

python 标准库（1）

测试（2）

其他（17）

python核心编程（0）

python 模块（0）

python本质参考（3）

python 并发（0）

实例（24）

pexpect（5）

《使用python进行（5）

Robot Framework （43）

python 从入门到（13）
测试新闻（5）
软件水平考试（15）

教程（12）

软件评测师（2）
@network（5）

抓包工具（0）

计算机网络第四（3）
@socity（36）

地理（1）

cctv7（1）

国学（2）

散文（2）

财经（3）

健康（11）

life（2）

卡耐基人际关系学（11）

history（1）
Windows（10）

终端服务（2）

深入解析Windows（6）
@mysql（29）

mysql cluster（5）

Mysql 教程（19）
@LINUX（148）

ubuntu（2）

?哥的 Linux 私房（0）

Unix 和 Linux 自（3）

linux 内核（6）

学习bash shell （3）

shell实例（1）

sed（1）

编辑命令（0）

linux 安全（0）

文件系统（1）

硬盘相关（4）

running linux（7）

Linux 程序设计入（36）

Linux基础教程（1（8）

linux 基础（0）

linux 业界（2）

性能监控（1）

Linux 命令（11）

Linux 文件系统（7）

Linux 简介（9）

linux 使用（4）

@LINUX SERVICE（4）

高效awk编程第3版（3）

实例讲解unix she（1）

LINUX与UNIX SHEL（15）

shell（10）
test（77）

功能测试（2）

质量模型（0）

软件测试的艺术（5）

测试文档（12）

测试基础理论（11）

软件测试基础教程（0）

Jmeter（2）

测试工具（1）

Web 安全测试 Coo（3）

测试面试（1）

性能测试（9）

软件测试第2版（13）
automation（26）

sikuli（3）

selenium（0）

手册（0）

Testcomplete（2）

学习perl（1）

TCL 教程英文版（7）

实战Tcl和TK程序（5）

expect 实例（1）
computer（28）

c（8）

21天学通Java 6（4）

java（1）

Cisco IOS Cookbo（0）

network（10）
it（4）
joke（4）
linux_unix（28）

linux security （2）

硬件相关（2）

Secure Shell 2nd（1）

linux unix性能工（2）
society（84）

一夜风流（2）

@health（1）

法律（3）

sex（1）

励志（1）

english（1）

plan & summary（8）

job（2）

security（10）

economic（17）

health（9）
未分配的博文（65）

文章存档

2012年（5）

2011年（38）

2010年（86）

2009年（145）

2008年（170）

2007年（165）

2006年（89）

我的朋友

相关博文

Python multiprocessing 跨进程对象共享

分类： Python/Ruby

2010-05-04 14:54:54

原文：http://blog.ftofficer.com/2009/12/python-multiprocessing-2-object-sharing-across-process/

继续写关于Python multiprocessing的使用手记，继上次的进程模型之后，这次展开讨论一下multiprocessing当中的跨进程对象共享的问题。

在mp库当中，跨进程对象共享有三种方式，第一种仅适用于原生机器类型，即python.ctypes当中的类型，这种在mp库的文档当中称为shared memory 方式，即通过共享内存共享对象；另外一种称之为server process ，即有一个服务器进程负责维护所有的对象，而其他进程连接到该进程，通过代理对象操作服务器进程当中的对象；最后一种在mp文档当中没有单独提出，但是在其中多次提到，而且是mp库当中最重要的一种共享方式，称为inheritance ，即继承，对象在父进程当中创建，然后在父进程是通过multiprocessing.Process创建子进程之后，子进程自动继承了父进程当中的对象，并且子进程对这些对象的操作都是反映到了同一个对象。

这三者共享方式各有特色，在这里进行一些简单的比较。

首先是共享方式所应对的对象类型，看这个表：

共享方式	支持的类型
Shared memory	ctypes当中的类型，通过RawValue，RawArray等包装类提供
Inheritance	系统内核对象，以及基于这些对象实现的对象。包括Pipe, Queue, JoinableQueue, 同步对象(Semaphore, Lock, RLock, Condition, Event等等)
Server process	所有对象，可能需要自己手工提供代理对象(Proxy)

这个表总结了三种不同的共享方式所支持的类型，下面一个个展开讨论。

其中最单纯简单的就是shared memory这种方式，只有ctypes当中的数据类型可以通过这种方式共享。由于mp库本身缺少命名的机制，即在一个进程当中创建的对象，无法在另外一个进程当中通过名字来引用，因此，这种共享方式依赖于继承，对象应该由父进程创建，然后由子进程引用。关于这种机制的例子，可以参见当中的例子 Synchronization types like locks, conditions and queues，参考其中的test_sharedvalues函数。

然后是继承方式。首先关于继承方式需要有说明，继承本质上并不是一种对象共享的机制，对象共享只是其副作用。子进程从父进程继承来的对象并不一定是共享的。继承本质上是父进程fork出的子进程自动继承父进程的内存状态和对象描述符。因此，实际上子进程复制了一份父进程的对象，只不过，当这个对象包装了一些系统内核对象的描述符的时候，拷贝这个对象（及其包装的描述符）实现了对象的共享。因此，在上面的表当中，只有系统内核对象，和基于这些对象实现的对象，才能够通过继承来共享。通过继承共享的对象在linux平台上没有任何限制，但是在Windows上面由于没有fork的实现，因此有一些，因此，在Windows上面，继承方式是几乎无法用的。

最后就是Server Process这种方式。这种方式可以支持的类型比另外两种都多，因为其模型是这样的：

server process模型

在这个模型当中，有一个manager进程，负责管理实际的对象。真正的对象也是在manager进程的内存空间当中。所有需要访问该对象的进程都需要先连接到该管理进程，然后获取到对象的一个代理对象（Proxy object），通常情况下，这个代理对象提供了实际对象的公共函数 的代理，将函数参数进行pickle，然后通过连接传送到管理进程当中，管理进程将参数unpickle之后，转发给相应的实际对象的函数，返回值（或者异常）同样经过管理进程pickle之后，通过连接传回到客户进程，再由proxy对象进行unpickle，返回给调用者或者抛出异常。

很明显，这个模型是一个典型的RPC（远程过程调用）的模型。因为每个客户进程实际上都是在访问manager进程当中的对象，因此完全可以通过这个实现对象共享。

manager和proxy之间的连接可以是基于socket的网络连接，也可以是unix pipe。如果是使用基于socket的连接方式，在使用proxy之前，需要调用manager对象的connect函数与远程的manager进程建立连接。由于manager进程会打开端口接收该连接，因此必要的身份验证是需要的，否则任何人都可以连上manager弄乱你的共享对象。mp库通过 authkey的方式来进行身份验证。

在实现当中，manager进程通过multiprocessing.Manager类或者BaseManager的子类实现。 BaseManager提供了函数register注册一个函数来获取共享对象的proxy。这个函数会被客户进程调用，然后在manager进程当中执行。这个函数可以返回一个共享的对象（对所有的调用返回同一个对象），或者可以为每一个调用创建一个新的对象，通过前者就可以实现多个进程共享一个对象。关于这个的用法可以参考当中的例子“Demonstration of how to create and use customized managers and proxies”。

典型的导出一个共享对象的代码是：

view plain copy to clipboard print ?

ObjectType object_
class ObjectManager(multiprocessing.managers.BaseManager): pass
ObjectManager.register("object", lambda: object_)

注意上面介绍proxy对象的时候，我提到的“公共函数”四个字。每个proxy对象只会导出实际对象的公共函数。这里面有两个含义，一个是“公共”，即所有非下划线开头的成员，另一个是“函数”，即所有callable的成员。这就带来一些限制，一是无法导出属性，二是无法导出一些公共的特殊函数，例如__get__, __next__等等。对于这个mp库有一套处理，即自定义proxy对象。首先是BaseManager的register可以提供一个 proxy_type作为第三个参数，这个参数指定了哪些成员需要被导出。详细的使用方法可以参见文档当中的第一个例子。

另外manager还有一些细节的问题需要注意。由于Proxy对象不是线程安全的，因此如果需要在一个多线程程序当中使用proxy，mp库会为每个线程创建一个proxy对象，而每个proxy对象都会对server process创建一个连接，而manager那边对于每个连接都创建一个单独的线程来为其服务。这样带来的问题就是，如果客户进程有很多线程，很容易会导致manager进程的fd数目达到ulimit的限制，即使没有达到限制，也会因为manager进程当中有太多线程而严重影响manager的性能。解决方案可以是一个进程内cache，只有一个单独的线程可以创建proxy对象访问共享对象，其余线程只能访问该进程当中的cache。

一旦manager因为达到ulimit限制或者其他异常，manager会直接退出，遗憾的是，这时候已经建立的proxy会试图重新连接 manager – 但是它已经不存在了。这个会导致客户进程hang在对proxy的函数调用上，这个时候，目前除了杀掉进程没有找到别的办法。

另外proxy使用socket的方式比较tricky，因此和内置的socket库有很多冲突，比如 socket.setdefaulttimeout（）。在setdefaulttimeout调用了之后，进程当中所有通过socket模块建立的socket都是被设置为unblock模式的，但是mp 库并不知道这一点，而且它总是假设socket都是block模式的，于是，一旦调用了setdefaulttimeout，所有对于proxy的函数调用都会抛出OSError，错误代码为11，错误原因是非常有误导性的“Resource temporarily unavailable”，实际上就是EAGAIN。这个错误可以通过我提供的一个patch 来补救（这个patch当中还包含其他的一些修复，所以请自行查看并修改该patch）。

由于以上的一些原因，server process模式作为一个对象的共享模式，能够提供最为灵活的共享方式，但是也有最多的问题。这个在使用过程当中就靠自己去衡量了。目前我们的系统对于数据可靠性方面要求不高，丢失数据是可以接受的，但是也只用这种模式来维护统计值，不敢用来维护更多的东西。

阅读(34229) | 评论(0) | 转发(0) |

上一篇：自动化测试中Python与C/C++的混合使用

下一篇：Linux vi命令手册

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6