perl 语言编程实例－多进程篇-wenzk-ChinaUnix博客

ELM's&nbsp;Blogwenzk.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wenzk

博客访问： 7808814
博文数量： 637
博客积分： 10265
博客等级：上将
技术积分： 6165
用户组：普通用户
注册时间： 2004-12-12 22:00

文章分类

全部博文（637）

程序设计（9）
Solaris系统（22）
数码相机（8）
IT新技术（11）
DNS相关（16）
Office相关（13）
OpenVPN（2）
供电系统（9）
工作相关（79）
BSD杂谈（46）
数据库相关（35）
乱七八糟（31）
Linux系统相关（224）
自娱自乐（19）
邮件系统相关（39）
计算机网络（73）
未分配的博文（1）

文章存档

2011年（1）

2010年（1）

2009年（3）

2008年（12）

2007年（44）

2006年（156）

2005年（419）

2004年（1）

我的朋友

最近访客

推荐博文

perl 语言编程实例－多进程篇

分类：

2006-01-15 19:35:35

作者：linux宝库 ()
来自：linux宝库 ()
联系：linuxmine#gmail.com

作者：horsley

perl 语言编程实例－多进程篇

perl 语言是一种非常强大的脚本语言，其应用遍及系统维护，CGI，数据库编程。
以下是我遇到的一个具体问题，应用perl获得圆满解决。

问题提出：
某数据库应用。需要检索一批数据（A表，数据量12万左右）。对该批数据
将进行逐一核对，期间将关联三个千万级的表（C,D,E表，分别有近亿条数据），
并将检索状态插入一张新表(F)。

传统解决方案：
编写存储过程。打开一个cursor，对A表遍历，逐一检索C,D,E表。
判断状态写入新表。编程过程十分简单，顺利完成。但执行时效率低下，耗时在
8小时左右，不能满足要求。

分析：
C,D,E表建有极其完备的索引。对单条数据检索极其快速。同时执行时主机CPU

，
内存等资源十分空闲。查询单条记录耗时：8×3600/12万＝0.24秒，也是在合理的

范围。
同时主机数据库在业务高峰期时可以支持500－600用户同时登陆（telnet方式）。

以上
说明性能瓶颈不在主机，数据库上。

结论：以上所有都合情合理，采用单进程方式无法进一步提高性能。为提高速度，

只能
采用多进程。

快速构造原型:

原型一：
#!/usr/bin/perl

my $maxchild=20;
foreach $item (1..500) {
while ( `ps -ef|grep $0|wc -l` > $maxchild) { select undef,undef,undef,0.1; };
if ($PID=fork()){
print "Starting Sub_Process:$PID\n";
} else {
print "I will handle data:$item\n";
sleep 1;
exit 1;
};
}

执行以上，正常，子进程控制在20。

以上述脚本为基础，添加数据库部分：

#!/usr/bin/perl

use DBI;

my $dbh=DBI->connect(...);
my $sth=$dbh->prepare(qq/select * from A/);
$sth->execute();
$sth->bind_column(undef,.....);

while ($sth->fetch()) {
while ( `ps -ef|grep $0|wc -l` > $maxchild) { select undef,undef,undef,0.1; };
if ($PID=fork()) {
print "Starting Sub_Process:$PID\n";
} else {
query(B,C,D); #执行数据库操作
insert(E);
exit 1;
}
}
$sth->finish();
$dbh->disconnect();

确保无语法错误，执行。处理一两条数据后脚本报错，中断。具体错误略。

分析：程序框架没错，但是在fork子进程时，$dbh同时被子进程继承，导致该数据

库连接反复使用。
由于数据库底层的某种原因，对该种操作是不允许的。结论：以上简单的多进程方

式不可行。数据库
连接部分必须同 fork 分离。

######################################

考虑很久，设计如下原型：将打开A表的cursor单独提出，结果传给另外一个进程

。
12万数据较大，作为参数传递似乎不妥，考虑利用管道通信。

原型二：
############################

分成 getdata，setdata两个程序。首先建立管道 : mknod data.pipe p

cat getdata:

#!/usr/bin/perl

use DBI;
open(DATAPIPE,">./data.pipe") or die "$!\n";

my $dbh=DBI->connect(...);
my $sth=$dbh->prepare(qq/select * from A/);
$sth->execute();
$sth->bind_column(undef,.....);

while ($sth->fetch()) {
print DATAPIPE data.....;
}
close(DATAPIPE);

######################

cat setdata:

#!/usr/bin/perl
use DBI;
open(DATAPIPE,"<./data.pipe") or die "$!\n";

my $pipecount=0;
my $maxlines=2000;
my @lines=();

while($record=) {
$pipecount++;
push @lines,$record;

unless ($pipecount % $maxlines) {
if ($PID=fork()){
print "Starting Sub_Process:$PID\n";
@lines=();
}else{
my $dbh=DBI->connect(...);
foreach (@lines) {
handle_data($_);
}
$dbh->disconnect();
exit 1;
}
}
}

my $dbh=DBI->connect(...);
foreach (@lines) {
handle_data($_);
}

$dbh->disconnect();

以上脚本运行正常，执行时启动：12万/$maxlines= 60个子进程。
处理完所有数据耗时在 10分钟左右，效率提高几十倍。

脚本执行方式：./getdata&./setdata

不明白？欢迎到参加讨论!

阅读(5370) | 评论(0) | 转发(0) |

上一篇：发现FC4的Clamav包升级不够快，所以改用这个了

下一篇：FC4下无线网络配置参数

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6