2008年(8065)
分类: 服务器与存储
2008-07-29 16:13:29
随着国外圣诞节的临近,存储经理和IT专家们无疑都计划着度过一个完全应当的休息和恢复假期,但是如果没有正确的计划,这个假期很快就会让数据中心从暂时停运快速的变成瘫痪。于是国外媒体初级了一些行业专家的建议,帮助管理者们在休假期间确保他们的数据中心持续运转。 不要做大规模的变动
"我们设置了一种模式,我们只有在数据中心出现核心问题时才启动这种模式,尤其是在每年的最后几个星期。"美国俄勒冈州数据中心管理员Mark Reyer表示。
这位管理员解释说,由于在放假期间数据中心会减少工作员工,所以用户基本上不要考虑能够在这段时间内对他们的存储硬件和软件进行大规模的升级更新工作,他谈到:"我们将处于"变革休眠期",除非会遇到紧急事件或是核心工作。"
和上面的这个位于俄勒冈州的数据中心一样,美国内华达州克拉克县的政府官员采取了同样的减少工作的做法,克拉克县高级系统负责人Rich Taylor表示,"我们只做了一件事,那就是在假期期间不做计划或是大的项目,虽然在这个周六我们会做一些升级工作,但是在假期期间,我们不会在圣诞节期间做这些事情。"
仔细考虑你的备份
即使因为在这一年中的其他时候备份工作的运行都是完美的,但并不代表备份工作在假日会依旧完美运行,Maxell技术支持经理Al Dripchak这样提醒道,美国著名的墨菲定律的内容就是"如果一件事情有可能向坏的方向发展,就一定会向最坏的方向发展(Anything that can go wrong will go wrong)"或者说就是"有可能出错的事情,就会出错。"
他建议到,用户应该注意基础设备,比如说要充分准备好执行备份工作所需要的一切准备工作,以防止系统管理员在放假期间不在时系统备份出现问题,"你应该保证有足够的磁带在你进行日常备份工作时是可用的。"他对此补充到,大多数情况下,在假期中,负责磁带运输装卸的员工将会离开他的工作。
Dripchak提出了自己对此问题的警告,他表示,虽然这些可能的问题很容易被消除,但是如果用户没有恰当的为假期期间的问题进行安排的话,这些很难发生的"周密问题"也都是会发生的。他谈到,"我听说过很多类似的问题,他们都是小问题引发了系统的故障,并且出现了很大的问题,应该随时做好准备,如果在假期期间你的手下的员工比平日要少的话,那就最好能够保证在假期期间你能够有更加专业的资深的员工在现场。"
考虑员工的工作热情
随着IT员工的工作负荷越来越多,假期对他们意味着欢快的幸福时光,也是恢复精力的时间,并花费更多的时间与家人在一起,Taylor表示,大多数员工放假之前做的最后一件事就是检查存储阵列和升级更新软件。
"你肯定不希望员工们围绕在数据中心进行各种操作,但是却在想着别的地方。"他谈到,企业应该高度精确的计算整个公司需要多少员工在这期间工作,这些人应该是在这个假期中间你真正需要的那些。
不要怕向供应商求助
"与其他机构一样,我们也非常需要更多的技术人员。"Taylor还解释说,他的机构缺乏足够的资源来对员工进行系统的培训。在休假期间,资深的关键员工可能不在工作岗位上,这时厂商方面的工作人员就可以帮助企业机构解决各种故障问题。
"如果技术人员已经离开这个镇甚至是这个州去休假了,我们就不得不给厂商打电话寻求帮助。如果一台EMC的设备出了问题,我们就可以给EMC工作人员打电话,他们很快就会赶来解决故障;如果交换机有什么问题,我们将给博科公司打电话。"
Maxell公司的Dripchak也统一这种应对假期发生故障时解决人员紧缺问题的解决办法。他说:"如果你找来解决故障的人技术不太熟练的话,一定要确保他们有足够的工具和资源来应对可能出现的紧急情况,比如有硬件和软件厂商的技术支持等等。用户通常会首先确认厂商的技术支持能力,保证可以在故障发生时马上得到帮助。"
"用户应该提前确认他们的供应商的支持是可用的。"这位Maxell的管理员表示。
不要让员工消失不见
当然,修养与恢复是很重要的,但是如果数据中心出现令人恐慌的问题,而不得不叫起IT管理员,尤其是从他或她的假期中叫醒他们,那么在你们之间是否有畅通的通信连接就显得非常重要了。
"所幸的是我们的员工住处离公司都不远,系统管理人员都配备了可以在家里进行工作的VPN连接,他们在接下来的几个星期都将手机保持在开机状态。"
想想存储之外的事情
Dripchak提醒到,即使来自存储厂商方面的支持是可用的,但这并不意味着用户就可以在故障发生时从厂商那来调来所需的零部件。"一些IT部门会储存备用零件,但是他们有备用的驱动器吗?"Dripchak提醒用户应该确保圣诞节期间快递公司能够及时送到需要替换的零部件。"数据中心会在人们休假期间暴露出许多潜在的危险,IT部门应该提前找出根源所在,并确保故障发生时可能实施有效的应对策略。"
"休假期间系统可能会一片混乱:设备管道漏水、冷却系统发生故障、所有设备温度过高等。我甚至听说曾经有工作人员被一根电源线绊倒,带动另一端服务器上的插头脱落而导致服务器当机,其实不可能的事总会发生。"