分类: IT业界
2010-11-13 16:24:49
云供应商 |
发生时间 |
故障时间 |
影响范围 |
原因及总结 |
微软Azure |
2009年3月 |
中断近22个小时 |
测试阶段,试用期的测试应用 |
发生在测试期,令其管理者学会了应对灾难与宕机的处理方法 |
Rackspace |
2009年6月 2009年11月 |
不详 |
服务器停机 |
跳闸后备份发电机又失效。 透明、持续地在博客上更新服务中断的原因及修复进展,得到用户的充分谅解 |
Salesforce |
2010年1月 |
1小时 |
68000名Salesforce.com用户 |
数据中心的“系统性错误”。 |
Heroku |
2010年1月 |
1小时 |
4万4千个运行服务中断 |
依赖的Amazon EC2实例出现瘫痪。 教训:全部运行实例都运行在一个单一的可用区域,容易发生服务中断故障 |
Terremark |
2010年3月 |
7小时 |
2%的Terremark用户服务瘫痪 |
“连接丢失”导致。 用户对供应商的故障处理方式极为不满,没有提供状态报告和服务预警。 |
Intuit |
2次:2010年6月、7月 |
2天、数小时 |
包括Intuit自身主页在内的线上产品瘫痪 |
原因不详及停电 |
Amazon |
2009年6月 2010年4月、5月 |
5小时、6小时、8小时…… |
服务中断、整机架服务器断电等 |
雷雨影响、UPS故障、电力短路、车撞电线杆…… Amazon一次比一次处理成熟,AWS状态页面提供背后原因相关的信息以及解决方案 |
从以上事例可以看出,2009年至2010年 “云计算”概念喧嚣尘上的这段时间,全世界不同的云供应商发生了大大小小多次故障,原因有三类:电力系统、网络连接、自身软件问题,而其中电力系统占了多数。事情并不是到此为止,可以肯定的是,往后的日子里,这些大大小小的云朵,还会遇上风雨,甚至随风而逝。云计算并非生而完美,必定要经历一系列挫折,而 在这个过程中,供应商们需要做的就是研究这些故障产生的原因,及时改进,同时与用户充分沟通,达成谅解。唐太宗讲以史为鉴可以知兴替,这些前车之鉴,是我们很好的镜子,帮助我们避免重复犯相同的错误。 而云也不是解决一切问题的万能药,对天上飘着的云的朵,不能只看到它的美丽光鲜,也要看到其背后隐藏着的雷电。从结构设计上就可以考虑周全的,千万不要重复这些IDC停电、UPS故障、互联网出口单点之类的低级错误。