在本周三的Google I/O会议上,Jeffrey Dean略微透露一点,在Dean眼里,1,800台的服务器集群根本是小菜一碟: Dean说,更多的硬件并不意味着可靠性更高,你还需要在软件层次上提高可靠性。“如果你运行1万台机器,肯定每天都会有问题发生。”
Dean用了一个计算机集群来说明硬件故障频率,他说,“在一个集群上线的第一年,会有1000台独立的机器发生故障,数以千计的硬盘故障,一个分布式电力单元出问题,500到1,000台机器下线6小时;20个柜式服务器会出现问题;每次会导致40到80台机器从网络中消失;5个柜会变得不可靠,通过其中的一半信息包会丢失;集群需要更换一次连接的电线,每次会影响5%的机器停止工作两天。”Dean还称,一个集群有50%的几率过热,不到5分钟内整个服务器瘫痪,需要花1到2天时间去恢复。
--------------------next---------------------