这里所说的“大型”应用不是说像Google、eBay、Yahoo这类大型网站的具体实施,我也没有意图劝说读者放弃自己的概念和信仰,只是希望大家的系统可以运行得更快更流畅,可以承载更多的用户在线,希望可以给PHP的初学者一点帮助。
关于PHP的执行效率,网上的专题文章很多,多以PHP、Java几个阵营的争论开始,以一个不确定的期待结束,很少看见一个明确的结论。确实,程序的执
行效率是很难从比较中得出的。应用的方面不同,执行环境不同,效率的差别会差得比较大。而且效率也是需要权衡的,大家都知道汇编语言很底层,可以写出非常
高效的程序,但是我还很少,应该说是几乎没看过有人用汇编做Web开发,而且有能力用汇编写出高效程序的人似乎都是值得大家仰视的,哈哈~我们没有必要去
讨论PHP和汇编到底差多少,只要知道自己的PHP和别人的PHP差多少就可以了。
首先,先要明确这篇文章的前提:必须有一台或更多的可以被自己操纵的服务器,而不是虚拟主机空间。毕竟可以在虚拟主机上运行的通用系统已经有了很多经典的
作品和成熟的框架,效率挖掘已经被前辈们做得非常出色了,它们的很多理念也被现在很多PHP用户继承和发展,越来越多的所谓“框架”也像满天繁星一样,我
也不想再去写那个,因为第一我自己的水平也不怎么样,写不出什么新鲜玩意来,写出来也招人笑,第二是写这个的文章太多了,说法也太多了,混乱是造成很多富
有激情的未来天才程序员夭折的最大元凶。
在独立服务器上执行的程序和在虚拟主机上可以运行的程序在效率优化方面有着很大差别。您当然可以把一套discuz不加修改地安装在一台甚至一堆独立服务器上,不过,它真的得到最大的性能优化吗,您真的对得起这一堆服务器吗?
独
立服务器指的是,使用者对这台机器有完全的控制权,包括安装、删除软件,配置系统参数甚至修改源代码。基于这样一个开放的硬件平台,性能也不仅仅是体现在
速度上,还包括安全性、稳定性等。和虚拟主机不同,用户必须自己配置Web服务器参数,安装和配置PHP、数据库,以及安装各种乱七八糟的东西(我喜欢这
么说),当然还要对它们负责。
首先提出几个名词:执行时间、模板、数据库封装、Cache、Buffer、Hash、守护进程、crontab。
执行时间,谁都知道,就是一个程序从执行开始到执行结束所用的时间。因为Web是瞬时的、无状态的,所以执行时间是Web程序执行效率的一个指标,它并不
适合衡量C/S程序或者后台守护的程序,因为它们很多都是持续运行的。页面执行时间的一个典型例子就是Discuz论坛页面最下方的时间显式,通常
Discuz都是几毫秒到几十毫秒,和所用的平台、数据量和当前系统压力有关。
模板大家再熟悉不过,虽然有很多人只是在用,但是不知道为什么在
用。模板在传统上来说是划分逻辑层的一种途径,在MVC上结构里,它把表示层和下层分离,在实际使用中,它方便程序员和界面设计人员分工合作。然而,现在
很多场合中,由于模板的不当使用,它非但没有起到促进程序员和界面设计人员分工合作,反倒成为程序员和美工互相仇视的罪魁(我好像在以前的帖子里这样说
过),很多人在抱怨他们不得不花很多时间在整理模板上。
数据库封装似乎和Java的关系更大,它对多种数据库系统提供一个统一调用接口,通常是一些封装好的类,这些类有时也完成一些比如SQL检查、过滤等工作。PHPLIB里的DB封装、PEAR DB、Adodb等都很有名,用的人也很多。
Cache
和Buffer看起来好像是一种东西,Cache叫做缓存而Buffer叫做缓冲。在硬件概念中,Cache的用途是连接两种速度不同的设备,比如寄存器
和内存、CPU和PCI-Bus、IDE总线和硬盘。Buffer的原意是类似弹簧的一种缓冲器,用来减轻或吸收冲击的震动的东西。Buffer是一种数
据预存取的方式,它用于临时存储数据并以与接收速度不同的速度传输。Buffer的更新方式可以是按时间间隔自动刷新,而Cache则更讲究“命中率”,
将当前时间段使用频繁的少量数据放到高速设备中方便读写。在程序开发中,固然没有什么高速、低速设备,不过数据源是可以有不同读写效率的。对于少量数据,
文本文件的读写通常就要比数据库存取效率好,而同样是文本文件读写,在tmpfs上的效率就要比直接的磁盘IO效率好。Buffer更多地体现在进程通信
和队列上,很多时候并不是因为接收方没有能力更快地读取,而是没有必要更快地读取。
守护进程是一种在后台连续执行的程序,它通常是起到监视、控制流程、对外提供服务等作用。比如Apache本身就可以被理解成一个守护进程,虽然它实际上是由很多个经常更新的进程组成(主进程是固定的)。
Crontab是UNIX/Linux的定时程序,有点像Windows的“计划任务”,它设定在多少个时间间隔后或者是某一个时间点执行特定的程序。它通常用来完成自动更新、清除临时数据等一段时间自动执行一次的操作。
另外一个比较特别的概念(说它特别是相对于习惯了通用系统开发的人来说),是当我们拥有了一台独立的服务器之后,完全没必要把自己局限在PHP所能提供的
功能范围内,当我们不知不觉地成为系统的主人后,要努力发现到这一点,我们有很多东西可以用的。PHP不是万能的(这简直是一定的),对于它的功能上的不
足,完全可以用Perl来弥补,Perl做为一种通用语言,可以提供更多的功能选择,砂砾一样密的模块给这个随意得有些变态的语言提供了无穷的能量。对于
PHP性能上的不足,完全可以用C来补充。PHP的根本就是由C继承来,PHP本身也是由C开发,用C来做PHP的扩展是完全合理的。
Linux
本身就是由C和Perl在支撑(我这样说完全不是为了夸大Perl的地位,大家可以去看看一个标准的Linux中有多少Perl脚本,离开Perl之后这
个系统是不是觉得像个残疾人)。PHP从C中继承了大部分的语法,从Perl中学习了大部分Web特性、函数和那个貌似与开源很矛盾的“$”符号(PHP
早期就是一个Perl脚本)。
我发现我很能写废话,哈哈……
下面来分析我在使用的一些代码(注:Linux独立服务器适用。我好像已经放弃对Windows和虚拟主机做大型开发很长时间了)。里面使用了一些也许很
熟悉也许很陌生也许很变态的方法。我的系统是RedHat
AS3,没有什么特别的,PHP版本是4.4.0,MySQL是4.1。我从来没有刻意地去写一些必须用到PHP5的新特性的代码,除非真的必须用到。
我的Web根目录在/www下,Apache、PHP都是默认安装在/usr/local/下,MySQL是下载的编译好的二进制版本,我也一样把它丢在
那里。因为只是用于测试,我不想它看起来很乱,至于在实际项目中,尤其是多台服务器的情况下,需要好好地部署一下你的系统。
为了使系统的结构清晰一些,我把需要使用的文件都放在了二级目录下面。
下面是通用头文件/includes/kernel/common.inc.php的一些片断:
if (!defined('IN_BSG')) {
exit;
}
?>
上面的代码保证它只能被合法的程序所调用,而不会被其它的文件include。如果正在执行的程序没有定义一个'IN_BSG'常量,它在include这个common.inc.php之后程序会终止。
list($usec, $sec) = explode(" ", microtime());
$page_time_start = $usec + $sec;
?>
这两行大家可能都会比较熟悉,这是计算程序的开始执行时间的。在程序结束之前,还会再计算一下这个,为的是得出程序执行所耗费的时间。如果你不在意这些,可以放心地把它注释掉。
error_reporting(E_ERROR | E_WARNING | E_PARSE); // This will NOT report uninitialized variables
//error_reporting(E_ALL);
set_magic_quotes_runtime(0);
// Be paranoid with passed vars
if (@ini_get('register_globals')) {
foreach ($_REQUEST as $var_name => $void) {
unset(${$var_name});
}
}
?>
上面这些,是一些基本的设置,包括错误提示级别。如果你的php.ini中打开了register_globals(它常会带来危险并使人感到困惑),我们要把它随便设置的那些全局变量删掉。
if (!get_magic_quotes_gpc()) {
if (is_array($_GET)) {
while (list($k, $v) = each($_GET)) {
if (is_array($_GET[$k])) {
while (list($k2, $v2) = each($_GET[$k])) {
$_GET[$k][$k2] = addslashes($v2);
}
@reset($_GET[$k]);
}
else {
$_GET[$k] = addslashes($v);
}
}
@reset($_GET);
}
if (is_array($_POST)) {
while (list($k, $v) = each($_POST)) {
if (is_array($_POST[$k])) {
while (list($k2, $v2) = each($_POST[$k])) {
$_POST[$k][$k2] = addslashes($v2);
}
@reset($_POST[$k]);
}
else {
$_POST[$k] = addslashes($v);
}
}
@reset($_POST);
}
if (is_array($_COOKIE)) {
while (list($k, $v) = each($_COOKIE)) {
if (is_array($_COOKIE[$k])) {
while (list($k2, $v2) = each($_COOKIE[$k])) {
$_COOKIE[$k][$k2] = addslashes($v2);
}
@reset($_COOKIE[$k]);
}
else {
$_COOKIE[$k] = addslashes($v);
}
}
@reset($_COOKIE);
}
}
define('STRIP', (get_magic_quotes_gpc()) ? true : false);
?>
上面的一陀,显而易见,它在做转义过滤所有来自客户端的输入。
下面的部分是对系统的初始化。之前的部分,可能和普通的程序没什么两样,但是下面这一段,我保证你没见过。
// Init System
require('../../includes/kernel/config.inc.php');
// First Startup? Init the tmpfs
if (!is_dir ($data_root) || !is_dir ($includes_root)) {
if (!is_writable ($tmpfs_root))
die ('TMPFS FAILED!!!');
require_once('../../includes/kernel/pkg.inc.' . $phpEx);
@mkdir ($data_root);
@mkdir ($includes_root);
$pkg = new BsmPkg ();
$pkg->target_dir = $data_root;
$pkg->filename = $tmpfs_pkg_data_filename;
$pkg->unpack_into_dir ();
$pkg->target_dir = $includes_root;
$pkg->filename = $tmpfs_pkg_includes_filename;
$pkg->unpack_into_dir ();
}
?>
包含一个config.inc.php看起来很正常,它里面有一些关于系统的设置参数(这个文件后面会有),然后它会检查$data_root
和$includes_root目录是否存在,并检查$tmpfs_root目录是否可写。这里的$data_root和$includes_root按
照规定,是属于$tmpfs_root的下一级目录,而$tmpfs_root是整个系统使用的tmpfs根路径,它负责保存我们系统的临时数据,其
中$includes_root用来保存那些需要被执行体包含的include文件,$data_root用来存放Cache、模板编译结果等数据文件。
tmpfs是Linux里的一种特殊分区格式。区别于ext3等,tmpfs创建于内存和交换区上。Linux有一个默认的shm就是tmpfs类型,通常mount在/dev/shm上。tmpfs和ramfs有些相似,不同的是它会用到交换区。
tmpfs的最大好处是IO速度。毕竟纯粹的物理磁盘操作效率无法和内存相比,而且tmpfs使用起来也很方便,它基本不需要做什么其它设置就可以像普通的物理硬盘一样使用,它对程序来说是透明的。
tmpfs的使用方法与Linux挂载其它类型的分区格式一样,可以用mount命令来挂载,也可以在fstab中设置。
* * * * * *
当系统检测到$tmpfs_root确实存在且可写,而$data_root和$include_root不存在,表示这是系统第一次在运行,它会用内置
的一个压缩/解压文件的一个类来把事先准备好的data和includes压缩文件解压到$tmpfs_root中,这个类处理的格式是我自创的,它保持
了源目录结构,并保存了文件的属性。它也会对每一个文件做文件长度和MD5校验。这个类位于/includes/kernel/pkg.inc.php
这里提及一个细节,我学习了PHPBB中的$phpEx的概念,整个系统中除了调用common.inc.php和config.inc.php外,其它
调用php文件的地方都没有写“.php”扩展名,而是用了一个$phpEx变量代替,这个变量的值在config文件中可以修改,这样做的好处是我们随
时可以把系统中的php程序改换扩展名。比如我们修改了Apache配置,让php解释器来解释一种叫做.hello的文件,就可以方便地把整个系统的所
有被include的php程序扩展名改成.hello,再把config中的$phpEx的值改成“hello”,这样你的系统看起来就像是使用一种没
人见过的Hello语言编写的了,哈哈……
includes这个压缩文件中包含了/includes目录中的所有内容,它被解压到$tmpfs_root(我的系统中是/opt/tmp/)中,这
样,在/opt/tmp/includes中就有我们想要的所有include文件了,调用它比直接调用/includes要快很多。
下面的部分就是调用已经解压好的一些include文件
// Include Kernel file
require($includes_root . 'db/' . $global_db_dbms . '.' . $phpEx);
require($includes_root . 'kernel/constants.inc.' . $phpEx);
require($includes_root . 'kernel/template.inc.' . $phpEx);
require($includes_root . 'kernel/session.inc.' . $phpEx);
require($includes_root . 'kernel/cache.inc.' . $phpEx);
require($includes_root . 'kernel/log.inc.' . $phpEx);
require($includes_root . 'kernel/shm.inc.' . $phpEx);
require($includes_root . 'function/basic.function.' . $phpEx);
require($includes_root . 'function/file.function.' . $phpEx);
?>
接着创建一个通用的数据库连接$db,它的属性也都在config.inc.php中设置。
// Init the DB Connection
$db = new $sql_db;
// Connect to DB
$db->sql_connect($global_db_host, $global_db_user, $global_db_pass, $global_db_name, $global_db_port, false);
?>
创建成功后,记得把密码清空
// We do not need this any longer, unset for safety purposes
unset($global_db_pass);
?>
创建日志对象
// Init Log
$log = new BsmLog ('bsg');
?>
这又是一个精彩部分,创建一个共享内存对象
// Init the Shared Memory
$shm = new BsmShm;
if ($shm->shm_id) {
define ('SHM_SUPPORT', true);
}
?>
如果系统是第一次运行,则在共享内存中标记一个运行标志SHM_VAR_SYS_RUN = true(系统的constants.inc.php是常量表,里面定义了系统要使用的常量)
if (defined ('SHM_SUPPORT') && !@$shm->get_var (SHM_VAR_SYS_RUN)) {
$shm->put_var (SHM_VAR_SYS_RUN, true);
}
?>
我写了一个Session类,也许它的效率并不很好,我只是写来玩玩……如果你觉得它的效率不行,可以使用系统Session,或者使用Sky同学的SessionD,哈哈——做个广告……
// Init the User Defined Session
$mSession = array ();
$sess = new BsmSession;
$sess->mSession_Start ();
?>
一长串乱七八糟的代码,只是为了获得访问者IP:
// Proc clients' IP address'
if(getenv('HTTP_X_FORWARDED_FOR') != '') {
$client_ip = (!empty($_SERVER['REMOTE_ADDR']) ) ? $_SERVER['REMOTE_ADDR'] : ( (!empty($_ENV['REMOTE_ADDR']) ) ? $_ENV['REMOTE_ADDR'] : $REMOTE_ADDR);
$entries = explode(',', getenv('HTTP_X_FORWARDED_FOR'));
reset($entries);
while (list(, $entry) = each($entries)) {
$entry = trim($entry);
if (preg_match("/^([0-9]+.[0-9]+.[0-9]+.[0-9]+)/", $entry, $ip_list) ) {
$private_ip = array('/^0./', '/^127.0.0.1/', '/^192.168..*/', '/^172.((1[6-9])|(2[0-9])|(3[0-1]))..*/', '/^10..*/', '/^224..*/', '/^240..*/');
$found_ip = preg_replace($private_ip, $client_ip, $ip_list[1]);
if ($client_ip != $found_ip) {
$client_ip = $found_ip;
break;
}
}
}
}
else
{
$client_ip = (!empty($_SERVER['REMOTE_ADDR'])) ? $_SERVER['REMOTE_ADDR'] : ((!empty($_ENV['REMOTE_ADDR'])) ? $_ENV['REMOTE_ADDR'] : $REMOTE_ADDR);
}
?>
获得环境参数的Cache,并返回它的值。环境参数是什么内容要看具体做的是什么,比如它是一个普通网站,参数中可能会包括站点名称、作者、首页布局、使
用的模板、几个模块、每个模块显式几行、每行显式几个图片这些值。这些值一般都是在后台中可以修改然后存入数据库中的。cache.inc.php中的
obtain_config函数负责在第一次执行时把它们从数据库中取出,并放到一个可以被更快地访问到的地方,比如shm中,或者是tmpfs上的一个
文件,优化它是非常有必要的,因为这批数据被使用得太频繁了。
// Grab global variables, re-cache if necessary
$CONF = obtain_config();
?>
然后是处理gz压缩。下面这些内容是明显通用化的,甚至包括检查php版本。前面我已经说过,我们是在控制自己的独立服务器,所以你完全可以把它简写成你自己需要的样子甚至完全删掉它。
// Setting the ob_gzhandler
if ($CONF['gz_compress']) {
$phpver = phpversion ();
$useragent = (isset ($_SERVER["HTTP_USER_AGENT"])) ? $_SERVER["HTTP_USER_AGENT"] : $HTTP_USER_AGENT;
if ($phpver >= '4.0.4pl1' && (strstr ($useragent, 'compatible') || strstr ($useragent, 'Gecko'))) {
if (extension_loaded ('zlib')) {
ob_start ('ob_gzhandler');
}
}
elseif ($phpver > '4.0') {
if (strstr ($HTTP_SERVER_VARS['HTTP_ACCEPT_ENCODING'], 'gzip')) {
if (extension_loaded ('zlib')) {
ob_start ();
ob_implicit_flush (0);
$mSession['do_gzip'] = true;
header ('Content-Encoding: gzip');
}
}
}
}
else
ob_start ();
?>
下面是初始化模板类,这个模板类~~似乎没人见过,我也没拿出来给人看过,呵呵……
// Init the Template Object
$tpl = new BsmTpl ('../../templates/', $tpl_c_root);
$tpl->set_tpl_name ('seepic'); //seepic是我临时写的一个模板名字,实际使用时应该用的是$CONF里的值。
?>
初始化模板之后是确认语言,因为有可能会用到多语言的语言包文件。
// Confirm Accept Language
$langMeta = isset ($_COOKIE['langMeta']) ? $_COOKIE['langMeta'] : $_SERVER['HTTP_ACCEPT_LANGUAGE'];
if ($_GET['lang']) {
$langMeta = trim ($_GET['lang']);
setcookie ('langMeta', $langMeta, time() + (60 * 60 * 24 * 365), $cookie_path);
}
?>
把最终确认的语言赋值给模板对象,common文件的任务完成了。
include $tpl->set_language ($langMeta);
?>
?>
下面来看看config文件里有什么,我会逐段解释:
// BSM Configuration File.
// Para_DB_Global:
$global_db_dbms = 'mysql4'; //全局数据库连接类型(支持mysql/mysql4/oracle/mssql/odbc/access/pqsql/sqlite等)
$global_db_host = 'localhost'; //数据库服务器地址
$global_db_port = ''; //端口
$global_db_name = 'g'; //数据库名
$global_db_user = 'root'; //数据库用户名
$global_db_pass = 'root'; //连接密码
$global_db_prefix = 'bsg_'; //数据表前缀(我都不知道我写它干什么……整个服务器都是我的)
// Para_DB_Member:
$member_db_dbms = 'sqlite'; //可以再定义一组数据库连接,用了sqlite,比如保存个人信息什么的……呵呵
$member_db_host = 'member.db'; //sqlite的服务器地址就是数据库文件名了
$member_db_port = '';
$member_db_name = '';
$member_db_user = '';
$member_db_pass = '';
$member_db_prefix = 'bsg_';
// Para_DB_Session;
$session_save_handle = 'system'; //也许更多人还是喜欢用mysql的HEAP表保存session
$session_life_time = '60*15';
$session_db_dbms = 'mysql4';
$session_db_host = '';
$session_db_port = '';
$session_db_name = '';
$session_db_user = '';
$session_db_pass = '';
$session_db_table = $global_db_prefix . 'sess';
// Para_Local_Sites: //这是定义的一些绝对路径变量,你可以随便写点什么
$global_site_root = '/www/mine/site/global/';
$member_site_root = '/www/mine/site/member/';
$admin_site_root = '/www/mine/site/admin/';
// Para_Global_Local_Dir
$tmpfs_root = '/opt/tmp/'; //tmpfs的挂载根,具体要看你在mount的时候或者fstab中把它挂到什么地方了
$data_root = $tmpfs_root . 'data/';
//临时数据保存目录
$tpl_c_root = $data_root . 'template/';
//模板编译文件保存目录,可以看见它位于/opt/tmp/data/template/下
$cache_root = $data_root . 'cache/';
//缓存目录
$includes_root = $tmpfs_root . 'includes/';
//include文件保存目录
$tmpfs_pkg_data_filename = '/www/g/dev_tools/start.data.tmpfs.pkg';
$tmpfs_pkg_includes_filename = '/www/g/dev_tools/start.includes.tmpfs.pkg';
//这两个是预先做好的压缩包,包含data和includes需要的文件和目录结构,你可以把它们放在web目录外面
// Para_Runtime_Environment:
$phpEx = 'php'; //这就是$phpEx,哈哈
// Para_Template
// Para_BSM_Session:
$user_sess_base_dir = $data_root . 'user_sess/';
//Session文件保存根目录(如果你用了我的Session类),Session文件在保存时会自己Hash的
$cookie_sess_id_varname = 'BSG_sid';
//在Cookie中的SessionID变量名
$sess_lifetime = 60 * 15; //Session存活时间
// Para_Log:
$log_record_method = 'file'; //日志保存方式
$log_base_dir = $data_root . '/log/';
//日志保存点。虽然它在tmpfs下,不过我们可以有一个守护进程每隔一段时间把它写到磁盘上。或者干脆就把它直接写到磁盘上。因为系统崩溃前夕的Log才最有价值
// Para_Cookie //Cookie设置(如果你需要用它)
$cookie_domain = '';
$cookie_path = '/';
?>
这两个文件基本确立了系统的运行环境,可以看见,里面使用了一些在通用系统中不会有的技术,包括共享内存、tmpfs等。当然还可以根据需要加入memcached支持等。
提及一下我所用到的数据库封装类包,它源自PHPBB3,很遗憾我没有和作者打招呼。使用它并不是因为它比Adodb和PEAR
DB好很多,只是因为我熟悉它。其实它的结构很清晰,功能也很简单,不过简单的才是我想要的,我不希望一个类中藏着一大堆我不知道在干什么的代码(比如
Smarty……)
下面举一个例子,来说明tmpfs和shm是如何被系统用到并做缓存来用的。这里是cache.inc.php中的obtain_cache函数:
function obtain_config ()
{
global $db, $global_db_prefix;
$config_cache_file = '../../data/cache/config.cache';
if (defined ('SHM_SUPPORT')) {
global $shm;
@$CONF = $shm->get_var (SHM_VAR_PARA_CACHE);
if ($CONF['cfg_end'] !== 0) {
$sql = "SELECT * FROM {$global_db_prefix}config";
$res = $db->sql_query ($sql);
$CONF = array ();
while ($r = $db->sql_fetchrow ($res)) {
$CONF[$r['config_varname']] = $r['config_value'];
}
$CONF['cfg_end'] = 0;
$shm->put_var (SHM_VAR_PARA_CACHE, $CONF);
}
}
else {
if (!@file_exists ($config_cache_file)) {
$str = "// Config Cache File...DO NOT MODIFY THIS FILE PLEASE!!!rnif (!defined('IN_BSG')) {rntexit;rn}rn" . '$CONF = array (' . "rn";
$sql = "SELECT * FROM {$global_db_prefix}config";
$query = $db->sql_query ($sql);
while ($r = $db->sql_fetchrow ($query)) {
$value = "'" . addslashes ($r['config_value']) . "'";
$str .= "t'" . $r['config_varname'] . "'ttt" . '=> ' . $value . " ,rn";
}
$str .= "t'cfg_end'ttt=> 0rn";
$str .= ");rn?>";
if (!@$fp = fopen ($config_cache_file, 'w'))
return false;
fwrite ($fp, $str);
fclose ($fp);
}
include ($config_cache_file);
}
return $CONF;
}