Chinaunix首页 | 论坛 | 博客
  • 博客访问: 639951
  • 博文数量: 102
  • 博客积分: 7242
  • 博客等级: 少将
  • 技术积分: 1440
  • 用 户 组: 普通用户
  • 注册时间: 2005-06-06 14:59
文章分类

全部博文(102)

文章存档

2011年(1)

2010年(12)

2009年(6)

2008年(83)

分类: LINUX

2008-11-18 13:42:22

 

PC 服务器的核心竞争技术-可用性

国家高性能计算机工程技术研究中心 历军
2000/12/17

         基于intel 体系结构的服务器(简称PC服务器),具有成本低廉,使用方便,易于维护的特点,受到广大用户的普遍欢迎。随着网络技术在经济生活中的地位不断提高,大量中小型企业上网已经成为一个必然趋势。PC服务器以其自身的优势理所当然地成为中低端服务器市场的主流。今天的PC服务器在处理性能上已经有了显著的提高,在一些无需大量浮点运算的场合其性能价格比已经超过了传统的基于RISC处理器的服务器,但是PC服务器自身的一些弱点也限制了PC服务器的应用领域,例如在可用性方面PC服务器就存在一些问题,要提高PC服务器的核心竞争力一方面从性能上要不断提高,另一方面在系统的可用性设计上也必须有所突破。这是目前提高PC服务器竞争力的核心问题。

        系统的可用性指标可以用两个参数进行简单的描述,一个是平均无故障工作时间(MTBF),另一个是平均修复时间(MTBR)。系统的可用性可用下式表示:

系统可用性= MTBF / MTBF+MTBR

也就是说,如果系统的可用性达到99.9%,则每年的停止服务时间将达8.8小时,而当系统的可用性达到99.99%时,年停止服务时间是53分钟,当可用性达到99.999%时,每年的停止服务时间只有5分钟。

        对于网络时代的企业任何服务停止带来的损失无疑是巨大的,据国外权威机构对400家企业的调查,普通企业一次关键应用的停机平均损失达每小时1万美元,而对于一些金融企业每小时的停机损失竟达到100万美元,通过调查发现,造成系统停止服务的主要原因有三个:其一,硬件故障,在整个停机原因中占30%,其二,操作系统和应用软件故障,占整个停机原因的35%,其三是由于操作失误,程序错误和环境故障,占整个停机原因的35%。如图所示:
 
        可以看到,要提高系统的可用性必须从硬件和软件两个方面入手,对于硬件产品而言,其故障发生的概率与其投入运行的时间成正比,运行的时间越长则出现故障的概率越大,提高硬件系统的可用性必须要在故障出现时能够保证系统继续服务。硬件冗余技术可以很好的解决这一问题,通过对关键部件的冗余设计可以做到当系统中出现故障硬件时由冗余部件自动接替服务,不致造成系统停机。而对于软件系统而言,故障的产生难以进行有效的预测,于是如何减少软件恢复的时间是提高系统可用性的一个重要课题,通过快速地恢复软件系统降低平均平均修复时间(MTBR)也可以达到提高可用性的目的。

       下面以曙光天阔I220S为例,分别从硬件冗余和软件快速恢复两个方面讨论提高系统可用性的方法。

        服务器系统是一个由高速电子电路和精密机械组成的复杂系统,电子部件和机械部件之间存在着可靠性的差异。电子电路的可靠性根据其工作状态不同也存在一定的差异,通常工作在高压大电流情况下的部件可靠性较低,而工作在低压小电流状态的部件可靠性较高,工作温度较高的部件可靠性低,工作温度较低的部件可靠性高。例如服务器电源是工作在高压大电流开关状态的部件,其可靠性远低于工作在低压小电流状态下的其他板卡,CPU工作时发热量较大,系统不得不专门为它配置风扇,当风扇出现故障以后,在相当短的时间内CPU就会出现错误,可以认为系统中CPU的可靠性依赖于为其提供冷却的风扇的可靠性。机械部件存在着磨损,它们的平均无故障工作时间大大低于电子部件,例如目前广泛使用的服务器硬盘,通常以每分钟10000RPM的速度高速旋转而且硬盘自身的温升较大,自然其出现故障的概率较大。

        通过分析可以看到,提高MTBF值和降低MTBR值对系统可用性设计具有相同的意义。

        系统硬件的可用性在很大程度上取决于那些MTBF值较低而能对系统正常运行造成重大影响的部件,如硬盘,风扇,电源等。在系统设计中对关键部件进行冗余设计,可以大大提高系统的可用性。冗余技术的基础是合理有效地对系统运行状态进行监控,在及时发现故障的前提下启动冗余部件。曙光天阔I220S PC服务器采用了大型计算机的一些监控管理技术,具备一套完整的硬件监控系统,可以对系统的工作状态和一些关键的物理状态信息实时监控,监控信息可以通过面板上的LCD显示屏显示出来同时完成硬件故障监测和冗余部件切换,下面以曙光天阔I220S PC服务器所采用的系统冗余策略为例介绍一些PC服务器主要采用的冗余技术。
 

  • 磁盘系统冗余:冗余磁盘阵列(RAID--Redundant Array of Inexpensive Disks)技术,通过对多个硬盘进行条带化处理,数据被均匀分布在多个硬盘中并加入校验数据,当有硬盘损坏时,通过校验数据恢复损坏硬盘中的数据。在恢复过程中,不影响系统的服务。同时RAID系统可提高系统磁盘数据I/O的性能。通过配置热插拔硬盘并使用RAID系统,可以完全避免由于硬盘损坏造成的系统故障。

 

  • 电源系统冗余:热插拔冗余电源,正常工作时,两台电源各输出一半功率,从而使每一台电源都工作在轻负载状态,利于电源稳定工作。当其中一台发生故障,短时由另一台接替其工作,并报警。系统管理员可在不关闭系统的情况下更换损坏的电源。采用热插拔冗余电源可以避免系统由于电源损坏而造成的停机。

 

  • 网络系统冗余:采用自动控制的冗余网卡,当系统正常时多网卡自动分摊网络流量,使系统网络通讯带宽提高,而在有网卡损坏或出现线路故障时,其工作自动切换到其他网卡。不会由于网络通道故障或网卡故障影响正常服务。

 

  • 冷却系统冗余:自动切换的冗余风扇,对风扇转速实时监测,发
阅读(1525) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~