业内专家 各抒己见
在多年处在存储行业中的人身上,我们总能看到一些因工作环境而打上的烙印,就像任何一个把好几年光阴花在数据中心的人都总会有一些难以忘怀的经历。许多存储界内的专家在本篇文章中讲述了过去几年中各自身边都发生了什么,他们都学到什么,或当再次遇到同样问题时会采取怎样不同的做法。
让人感到出乎意料的一点是,在诉说各自经验的过程中,这些专家大多认为经验教训并不是来自于技术上的。例如很少有人会说“嘿伙计,我们在实施FC SAN时真的低估了I/O队列深度吗?”
反而许多IT精英都是从用户体验(不愉快的经历)到厂商天性(过度宣传)的角度来讲述他们的一些常识性错误或尴尬的遭遇。他们倾诉了要如何学会掌控风云变化和内部政治局面的不稳定因素;如何被那些产生误解分歧或彼此难以沟通的老板、高层主管或是部门领导折磨得苦不堪言。当然,也会有一些难缠的技术问题和基础设施上的小故障作祟。这些小问题总是会长期潜伏,直到总体规划启动升级更新的时候才会凸现出来。
任何存储界的精英都不会忘记那些让人记忆犹新的时刻,在存储界摸爬滚打中他们学到了宝贵的经验教训。下面就让这些专家逐一为我们传授其经验吧。
戒律一:不昂贵并不意味着最廉价
第一位专家讲述了他五年前的一段经历,当时SAN首次开始在全球风靡。他召回了公司所推出的RFP系统。那时候他正在为一个过滤产品供应商工作。像大多数企业一样,这家公司希望使其存储资源得到集中化,并且应对其数据库和ERP系统中所出现的数据“失控增长”情形。
EMC、HDS、IBM和Network Appliance对此纷纷响应。他表示他们与这些厂商间共历经了三个回合的谈判。“首先销售人员来进行大体的产品演示,我们以用户的角度来观看演示。然后我们会制作一份财务分析表,其中包括我们需要的所有信息、预计的开支和如何进行系统升级。”这位专家现在已经是另一家非营利性保健服务公司的信息技术主管。他说:“那部分最终也没人能够成功地完成。”
最终EMC和HDS成功入围。但后来EMC降低了高端Clariion的价格。这位专家表示合适的价格再加上EMC临近麻省Hopkinton的总部让那家过滤器生产商做出了最终的选择。
正如这位专家所描述的那样,这或许是整个过程中唯一令人愉快的一部分。他表示:“SAN的运作不佳,RFP系统中的许多此前已承诺的特性很快变成了附加选项”。然后随之而来的就是磁盘更换成本问题。它大约是NetApp的filer或日立的Thunder磁盘更换费用的两倍。同时他更换了具有足够的内存和速度的EMC高端模块。然而“这却导致了十万美元的附加费用,”他痛苦地回忆道。
他表示:“我们期望得到更大的回报”。至于他的建议,“尽管EMC的产品价格不菲,但我们仍会与他合作。因为他们有强大的实力、总公司之间的密切联系和很好的售后支持水平。”
具有讽刺性的是这位专家离开公司后,听说他的接班人放弃了他所引进的SAN.
戒律二:彼此信任的基础上不忘审查检测
现在很少有IT专家会轻信厂商的花言巧语了。确实,根据SNIA最新的研究表明,厂商在IT用户心中的可信度相当低。
但不幸的事情还会时有发生。第二位IT专家介绍了他所经历的一次,也是最后一次推销经验。现在他已经是某家公关管理公司的存储专家。
“我发现在这个领域你真的需要为你所设想的产品设立标准或建立概念,”他说:“厂商只会说你爱听的话。”
他以前的雇主有一个巨大的客户网,其中包括一些重要的IT厂商,例如Brocade、日立、惠普、3PAR、NetApp、微软和Sun.他的老板决定实施一家名为AppIQ的初创存储资源管理(Storage Resource Management,SRM)厂商的软件。这家初创公司后来被惠普公司所收购,并将他们的存储产品集成到了自己的产品线中。(记住,这是在许多年以前)
“这个产品的用途给我们留下了深刻的印象,因此未经过测试我们就决定购买了,” 二号专家说道。正是他的老板作出了最后的决定。
用户和厂商事前都没有进行审查评测,于是安装软件时一些令人不愉快的意外发生了。这表明二号专家所在的公司对交换器,HBA驱动以及Oracle数据库并没有严格的软件审核标准制度。
要是他们事先知道需要花多长时间修改校正的话,合作双方就不会如此过早决定或投入过多了。“我们很失望,”二号专家说道:“我们买进了一个可以帮助我们监控SAN的产品,但我们却无法使它运行起来。”
最后,投资回报被迫滞后了。因为小组历经长达数月的计划停工,来进行安装补丁和硬件更新以支持所购买的SRM工具。虽然它最终可用了,但这位专家永远记住了这个教训:测试或被测试。
戒律三:事前谨慎计划
第三位存储专家发出了自己的提醒:即使最大规模的存储实施都可能被最小的细节所颠覆。
他描述了最近在一家大型咨询公司的项目中发生的混乱情况。他说:“我们有一个SAN-to-SAN的复制项目。当我们到那去安装的时候才发现无法建立起SAN架构到LAN架构之间的路由。”
尤其是这家公司的LAN网络交换架构中并没有一个单独的RJ45头铜缆连接。尽管铜缆连接往往是在网络中相比较为昂贵的光纤网连接而言更低廉的选择,但显然这位客户更加青睐于光连接。
这位专家坦言RJ45接口的消失使他困惑不解。他说:“在过去的几年我做了不下一百次的SAN复制,但这样的情况却是第一次遇见。我当时甚至怀疑是不是每个人都在用光缆端口连接。”
他考虑在交换器上增加一个光纤收发器,但这个想法很快被否定了。“与我们合作的SAN硬件厂商并不支持我们的这种想法。”
尽管这有些令人失望,但这位专家和他的小组最终还是在客户的交换设备上增加了铜缆连接。他说“我们当时并没有所需模块,这个小小的细节使我们工程的完成进度推迟了大约一个星期。”
据介绍,在客户的架构中建立铜缆连接要花去大约工程总费用(25万美元)的百分之一。
对第三位专家来说,这次经历更加说明了存储实施前谨慎计划的重要性。他说:“你必须有备而来,对你想要连接到新架构的设备有充足的准备。”他又补充道,现在他十分重视询问客户铜缆连接的详细情况。
戒律四:凡事不要想当然
出场的第四位专家是一位总闲不下来的人。他是某家棒球队的网络部经理。网络部在八个月中经历了三次因为基础设施检修而停工,其中最主要包括通过增加EMC的CX400阵列将其SAN容量扩增到8TB; 26台服务器(其中19台通过VMware进行了虚拟化)、IBM的多重远程工作站、CommVault备份工具以及来自Overland的D2D2T视频备份系统。
这家棒球队在2004年安装了印度的数字化视频系统,用来记录他们球队每名球员的出场击球情况。
但这只球队最惨痛的教训并不是被对方投手三振出局,而是其电子邮件方面所出现的混乱情况。这位专家说:“尽管总有一些事情需要去学,但我记得在修复Exchange时,我们完全是从零做起的。”他当时需要安装一个微软的更新程序。所以在安装服务器补丁以前他用虚拟化服务模块(Virtualization Sevices Module,VSM)记录了Exchange的状况。更新应用之后,他在对数据快照进行恢复时却发生了错误。
“补丁安装完后,我们在转移数据快照时发现节点中断,数据存储文件已破损。我们不得不导出所有的数据然后重新应用原来的VM.我们彻底否定了数据快照,放弃了现有的大多数备份。”这位专家这样回忆道。
这位专家认为Email的log文件会安全的备份到虚拟化的环境中,而问题就发生在这。“我知道你不要在像SQL和Exchange这些基于事务应用上面来做VSM数据快照。”
也就是说,凡事不要想当然。
戒律五:控制问题的发生
在大多数人眼中,出场的第四位专家可谓一个老古板。他从不为额外未被开发的容量而购买存储设备。“过去我并没有这样的想法‘用钱来解决问题,然后扩大、扩大、再扩大’”这位来自纽约某制造企业的IT运营总监这样说道,“当时我们需要对信息采取内部控制。”
也就是说,在服务器上限制每位用户可以存储的数据量,并规定数据类型和可接受的适用策略(强制规定,但为数不多)。这位专家为220位现场用户和大约8个远程用户进行支持。
在许多年前其所在的公司从NAS开始转向SAN.“我们购买了HP EVA1000.但具有讽刺意味的是,也许你认为硬件问题可能会是最大的困难,但我却从未遇到这样方面的问题。”他表示硬件只需要三年更换一两次驱动器而已。
“我的失误是起初没有使内部控制。”他说:“我们不得不放弃了内部控制,也就是对存储或未存储的配额和限制。我们不需要对每个人同样的文件、电影和五六兆的邮件保留许多副本,困难的是我们如何能去除网络上过多毫无意义的东西。”
为什么如此棘手?回答是在购买和使用SAN之前主文件服务器就已经被塞满了。他说:“我们只好解释重建一直在进行,在我们修复系统期间他们不得不耐心的等待。”他和他的员工工作到凌晨一点才使网络恢复正常。
自从SAN于 2004年投入使用以来,公司就制定了两条规定。第一,SAN只处理电子邮件和档案服务数据,至于较小的应用数据则保存在直连存储中。第二,所有的员工数据资料将被保存在网络驱动器上,而不得保存在外部存储设备上。“我必须常常和人事经理来检查,旧的习惯确实很难一下子根除。”
2005年8月,这位专家发现公司SAN中的音乐文件的存储容量增加了150%。随后他立即规定每位用户可有500MB的自由配额。“配额制度轻易地就改变了这个情况。”他说,如果用户需要更大的存储空间,他们就必须经过一个升级申请的过程。
在电子邮件上我们并没有配额,但希望在明年我们会为其设立配额。Damadeo说:“我们没有像处理普通用户数据那样对部门共享或非项目基础数据确定具体时间和严格规定。我们将对其启用归档和冗灾系统。这样做是为了避免继续负担那些十年以来都没有使用过却仍然重要的陈旧数据。”
进行IT更新升级的大宗购买极富挑战性,但这并不是第五位专家遇到的最棘手问题。“困难的是要取得那些要求我们实行强制措施的人的支持。你认为会支持你的人往往是暗中阻碍你的人。”
戒律六:卖家与买家的利益关系
第六位介绍的专家可谓曾经身陷困境——他选错了厂商。他所在的公司安装了新的BPA(Business Process Automation)系统。“我们的RFP系统很不稳定,”这位技术服务经理这样回忆道:“他们极力向我们推销产品。”
但这不完全是他的错。现在这位专己已是微软的一名内部联络员,他坚信这样公司就能够有效地运用来自微软的技术。通过微软的推荐他得到了与这家BPA厂商的联系。新厂商在其他信息技术方面为这位专家提供了可靠的解决方案。他也为其想建立的系统推出了明确的要求,该系统可以在商业应用的范畴内采集信息,从 Exchange和Sharepoint应用到主机的财务项目。
“这家厂商来了一名销售人员和几名工程师,几个涉世未深的年轻人忙着向我推销产品。”这位专家回忆说。
然而在就安装软件的时候出麻烦了。“他们没有说实话,而且根本不知道如何去做,一直为第一行代码而急得焦头烂额……真是一次糟糕的经历。”
当他试着安装东西时事情变得更糟了。尽管其所在的公司有专门的人员来帮助厂商进行调试,但是最终的结果还是那个厂商在三个星期后撤出了他们的产品。“当你试图脱离一个厂商时,那种反反复复的矛盾斗争实在是太糟了,我经历了那段暗淡的时期。”
自从这位专家和他的小组下了订单,他们就开始官司不断。他表示,“有许多中伤和诽谤”。最后他不得不付一笔未透露数目的钱来解决这场纠纷。“我不想与他们在法庭上对峙,他们已经完全失去理智。”
虽然这位专家知道他的名誉扫地,但他决心重整旗鼓。他找到了一个可能合作的厂商。“他们一进来并没有进行花哨的展示和苛刻的批评,他们只是说‘无需多说,以行动表示吧。’”
这位专家也向他的同事表达了自己想法,“他说‘给我一次机会,我已经抓住这个机会了。’”他对第二家厂商说:“我需要一个可以长期与我并肩作战的合作伙伴。我一定会成功,如果现在你以公平待我,将来我会向你证明一切。”
时过境迁,新的解决方案吸引众人目光。两三个月后律师不再打来电话。当他拜访微软总部并与微软的人谈起这件事时,后者都赞许“真是个好厂商,你做了正确的选择。”
戒律七:交流越广泛越好
登场的第七位专家是一位高级IT工程师。当他的女儿即将上大学的时候,他把最新型号的处理器、主板、芯片和内存进行组装,使他女儿在大学里有了一台令人艳羡的个人电脑。
“我们打开它,一台电脑呈现眼前。我问她感觉如何,她有点满不在乎的耸耸肩说:”还可以吧‘“。现在回想起来他笑笑说:我从中认识到一点,用户不会因为处理快速出色而感谢你。”多数用户对此的反应会是’又慢又经常死机‘或’还可以吧‘。我女儿的回答更加证实了我的看法,那就是人们不会为电脑运行正常而称赞你。“
那在数据存储中心又会是怎样的呢?在这位专家看来,除非你把Oracle DBA的管理平台、DBA系统和存储结构整合到一起,否则你将面临满腹牢骚的用户和漏洞百出的设计。
“我的工作就是在架构设计中将这三个层面整合到一起。无论我们个人如何表现,如果不作为一个统一团队来实施大型应用程序的话,那我们就不会得到比‘还可以’更高的评价了。”
这位专家了解关于“实施大型应用程序”的一些情况。除了查看医药学校和旗下三家医院对信息技术的需求以外,他还和超过10000多名终端用户和大约500 个IT部门相互合作。他拥有四个数据中心和实施中的500TB的数据量。这些设备致力于为重症医疗、财务、会计程序及其它辅助程序提供相关数据。
关于一些基础问题的开放式讨论同样重要,比如SAN、数据库和系统之间如何处理数据分段(Data Striping)等等。“如果他们不交流,你会有25%的成功率,但如果他们彼此交流你将有接近90%的成功率。”种种的可能性都值得一谈。
戒律八:开源——潘多拉的盒子
最后一位IT专家表示在进行一个主要的依赖于开源软件的存储配置时,他得到了最惨痛的教训。这位某高校的网络系统主管说道:“但是我们正在实施一个大型的复杂的硬件和服务项目。此前这个方案特别要求开源,结果表明这无法达到此前期望的水平。”
特别是要在学区内建立数千个从Macs到应用Samba开源软件的Linux档案服务器之间的连接。然而说比做要容易得多。“当我们让五千或六千名用户同时通过Samba验证时,计算机就会发生停机故障。”Harif说。
不用花费配置微软的Active Directory(活动目录)费用就可共享文件的想法推动了系统的进一步升级。“我们一直努力做的就是节省Windows用户许可,我们有大约12000个苹果桌面。”
尽管会有潜在的成本效益,但这位专家很快就意识到开源并非完美无缺。“如果你在并不存在的系统特性上下赌注,那么开源很可能是一种冒险。”他还补充道,开源组织还需要一段时间来改进改进。“每当你向开源软件中加入新特性时,你并不能肯定开源组织会将其接受。”
开源也会对涉及其中的厂商提出许多挑战。“这次项目实施的进度比预期多花了两年时间,其中很大程度上就是因为厂商自身并不具有专业技能来解决相关问题。”于是需要有第三方厂商介入来解决问题。
他们的方案一共花费了一百多万美元。这位专家表示最大的问题之一就是其他先前的IT结构所产生的连锁反应。“有其他一些我们想做却不能做的方案,因为有限的时间都花在这上了。”结果桌面管理方案和SSO实施都被迫延期了。“
最终他们还是与厂商间保持了良好的关系。“因为他们全身投入,所以我们一直维持伙伴关系并且仍将他们看作重要的合作伙伴。”
最后这位专家奉劝IT经理们不要在开源项目上好高骛远。“如果一个公司想在配置中以开源作为一个亮点的话,那么他们应该只围绕所能得到的开源特性进行策划。”
除了这些经历以外,他还表示有许多存储领域已经转向开源。“现有很多的开源平台用于SAN的身份管理,”他解释道。他们已经开始运用开源的Nagios监控软件了。
阅读(721) | 评论(0) | 转发(0) |