Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1253956
  • 博文数量: 727
  • 博客积分: 10011
  • 博客等级: 上将
  • 技术积分: 8320
  • 用 户 组: 普通用户
  • 注册时间: 2008-07-13 15:42
文章分类

全部博文(727)

文章存档

2011年(1)

2008年(726)

我的朋友

分类: 服务器与存储

2008-07-15 14:11:54

  各位朋友下午好,我是集团大中国区高级产品经理张忠民,我代表SNIA,在从1997年成立之初到现在一直都很关注最终用户端产品的方案的感受,SNI
A每年都有面向基于最终用户的调查,在2006年的时间这项调查所关注的一个重点就是关于互操作性以及管理的问题,这是整个课程的一个背景,这个课程在美国SNIA会议中存储论坛的主席带领了另外两位存储业界人士主持了一个小型的论坛,谈论小型虚存储方式的问题。

    在今天的讲义当中会关注几个问题,在座的有来自最终用户还有来自存储业界的朋友,存储管理到底是什么?我们对存储管理是否有一个定义?它是一种单纯的规则还是一种操作方法,或者两者都是。当我们谈到存储管理的时候,当我们部属大量存储方案的时候,真正困扰我们的问题又是什么呢?另外对于SNIA来讲也希望跟最终用户尽可能参与到和最终用户和产品方案的调研和讨论当中,也希望大家作为一个用户端我们能够看到SNIA面向存储管理的需求或者说意见。

    我讲的内容还包括在一个公司当中或者机构组织当中,存储管理起到了什么样的作用,带给我们什么样的价值,以及我们会遇到什么样的问题,最后看一下其中的一些变化过程。

    首先来看一下什么是存储管理,可能有不同的理解,用最通常的理解来讲,存储管理能够帮助你审核并认识你所具有的设备以及资源的概念,或者说一个行为,能够帮助你了解我的存储到底是什么样的,可能是一个设备,也可能是一种资源,或者是一个方案。另外你能够对这些资产有效的进行掌控。对配置资源的改变也是存储管理当中很重要的。

    在存储管理过程中有些用户并没有独立的人员负责存储管理,在我们看到很多专业大的企业里面,实际上都是有独立的人员关注于存储设备和交换设备,这样他能够为系统管理提供更清晰的成见,包括在资源的协调上来讲都能做到资源的有效优化。中国人在做存储管理的时候追求的就是不要出事情,一个设备由一个人来管可能是一个极端的事情,还有一个就是一个人管所有的设备。专业的存储管理人员,能够利用他的观点和软件的系统管理员有效的协调好把这个工作做好。

    在2002年的时候有一个新的标准叫做SMI,作为管理通用的界面,实际上像我们日常生活中的语言沟通,所有的厂商之间都在制订自己的规范,从内部代码的书写或框架结构的设计,更多的都是根据自己对产品的认识做规划,这在短期上来看并没有很大的障碍,但从产业的长远角度来看,相互就会影响到在最终用户端受到威胁,因为技术在不断的变化而用户需要不断的随着更新这些变化,但是对于一些关键的业务,对于一些大型的机构,业务上线之后就不在允许短时间的协调,这样带来的困扰就尤为明显。实际上国外有个调查,在1999年一直到2001年连续三年中,对大型IDC系统管理员的调查问卷当中表示,他们碰到最大的问题就是对新的设备功能的学习。所以在SNIA成立之初一直致力于能够把这个问题应用大厂商的预见性和磨合把这个问题解决好,应该说SNIA这个标准在以往的IT当中很快的被所有的厂商接受了,并且达成了共识。

    在一些标准的使用规范上,很多厂商都因为各自的利益并没有达成一致规范,但是SNIA却在很多厂商当中很快的达成了规范。那我们看大的磁盘阵列的厂商,包括、等等这些厂商,都在底层的框架上一级上层的结构上参加SNIA的标准。这个标准是由厂商达成的,但对最终用户而言有什么样的收益?今天我们在使用所有存储阵列的软件都是由厂商来提供的,因为现在的用户还没有大到我的数据中心有很多的设备,那你就看不到SMI这个标准的优势。实际上我前段时间在上海的一家企业使用的是美国DMC厂家的管理设备,可以通过一个页面实现完整的管理,跟现有所有的设备都是基于SMI这样一个标准来开发的。就像在设计软件产品的时候,现在大家都在遵循SMI这个语言去通信。这样对最终用户而言,不需要面对不同的窗口,不可能做更多的设计,然后了解主机与设备之间的关系,然后在做主机与系统之间的映射,这些都随着SNIA的SMI的推出,实现了在单一的页面下完成较多的管理。

    对用户而言,在做自己的存储系统的时候一定会考虑能够满足自己的需求,并且希望未来随着厂商产品的升级换代做相应的调整,而厂商更多是基于自己的产品去做些规范和定义,这里就存在着一个问题,我在设计产品或者规定术语的时候能不能适应客户,就像大家如果看了您所拥有系统管理员用户手册的时候,其中有一个术语解释,解释这个厂商对于这个名称的定义有什么样的规范,管理界面得到了有效的统一之后,厂商共识的高度逐渐提升之后,对用户而言就不再需要学习不同的定义。

    下面也讲到一个问题,关于SMI,实际上到今天为止它已经经过了五年的开发,从最初的版本1.0到现在的1.3,应该说在完整性和一致性上来讲已经做的很好,在后续的发展上相信能够在其他方面带来更好的提升。

    最后说的就是eri,主要是致力于发展面向企业级产品的管理的软件架构的产品。这是SMI这个标准所起到的作用,在这张图里面用了很大的概念涵盖了跟管理有关的定义,所能实现的包括跟安全有关、完成资源的配置、资源的提供、完整的操作等等,实际上在座各位在真正操作一台存储设备的时候,无论是哪家厂商的都会有一个管理页面,这个页面有的厂商做的好一点,有的厂商做的差一点,在多个窗口面向大家的时候,当你要做一次存储的部署或者修改的时候,先要经过一番思考先要做哪个方面,实际上我们要把精力浪费在界面的切换以及界面的熟悉当中。但最致命的一点是什么,我遇到过一个客户他跟我讲,他在做集中部署的时候,他一共拥有两套系统,他在需要用的时候不得不做两套系统的切换,他在高度疲劳的情况下都常常会混淆两边的概念,因为这两套系统都有很多概念上的不同,所以他跟我讲就一个字“晕”。

    实际上SMI标准已经实现了跨平台的多厂家产品管理,能够看到相应的配置,并且还能做到相应的管理,这对最终用户是一个很大的受益。在这张图里面我们可以看到,这个SMI-s所能包含的平台已经包含了当今最主流的技术和产品,像磁带库、主机适配器、虚拟磁带库等等这些设备,如果大家有兴趣的话可以登陆SNIA的网站,现在最新的1.3版本已经通过了最新的测试标准。

    这张图是2006年SNIA做的面向最终户的调查,主要访问的问题是对于用户所需要面对的厂商或者说设备的供应商结构的问题,在这张图当中一共涉及到,第一个是基于磁盘的存储设备的架构,另外是这边,还有主机适配器,另一个是磁带库,还有存储介质。左边这一列反映的是2005年所面临厂商的情况,右边这一列的情况反映的是2006年的变化。分为五个小块,对于一个用户所面对基于磁盘的产品是1个供应商还是5个供应商,甚至是大于5个供应商,这里有这几个比例的分配。2005年基于磁盘的分配,绝大多数用户所应用磁盘的厂家基本上都在2-3家左右。2006年的时候面向一个运营商的基于磁盘的产品的用户已经在逐步的减少。这样他就不得不去管理和使用2家、3家、4家的产品。对于服务器这边也可以看到已经把面向1家的状态减少到了很少的程度,其它的产品也都呈现了这样的趋势,在大趋势的层面来看绝大多数用户所使用的主机适配器、光纤连接设备等等设备,绝大多数用户应用的都是大于2家不同的运营商。这样跨平台的管理对用户而言是一个问题,另外相互支架的互操作性对用户而言也是一个风险。

    还有一个调查,在2006年的时候存储业界讲的最多的实际上是关于CGB的应用,SNIA也做了相应的调查,分了五个等级,问的就是对于新技术影响用户推动的障碍是什么,有多个选项,基于某个选项里面分为五个级别,里面列出的柱状图就是整个五个选项占的最大的白色部分是表示同意。第一个问题就是对于新的厂商的预警,更多的讲就是当我引入一个新的厂商的时候所面临挑战的问题。2005-2006年的时候对这个表示同意其实有20%的增加,2005年的时候有36%的人认为是个障碍,2006年已经到了56%。在美国“911”的时候,有很多公司因此而倒闭了,但也有些公司仅仅在三个小时之后就恢复了业务,因为有些公司做了相应的容灾,在南楼和北楼相应有两个机房,然后做数据的同步,他认为这样做比较可靠,其中的两家银行就是应用的这种方式,但谁也没有想到两栋楼都倒掉了。信息对于很多企业业务可延续的价值几乎就是他生命的根本,基于这样的原因我们选择新设备厂商的时候都会有很谨慎的态度。像我们给国内用户推销我们方案的时候,国内的用户对我们首先产生的也是不信任。第二个是基于产品规划的一个路线路的相关性,这个比例只有14%。

    第三个是关于互操作性的支出,像中石油、中石化这样的大用户而言,整个系统都是基于当前所规划硬件的平台、软件系统所设计的,当你想到应用心技术的时候就会带来两个问题,要做升级能不能根据现有系统做完整的兼容,如果兼容那就没有问题,可能只是各个点的问题,所以来自于内部的兼容性也是影响到新技术应用关键的因素。后面两项一个是对于供应商对新技术方案整合的因素所产生的影响。最后一项是跨、跨应用平台的支持的问题。实际上这五个大因素占到了行业当中新技术推广的五大因素。

    是什么样的原因造成系统的宕机,这里是被大家评出来的排名靠前的五项原因。第一个是错误的配置,因为在整个调查当中是面向从大型企业用户和中小型企业用户,在其中详细的区别了大型企业拥护和中小型企业用户的需求,在接近400位受访者当中,只有人为这个原因超过了9%。另外是跟业务中断有关的因素,更多的是来自于系统管理员人为的配置使用,或者是非专业人员错误的操作等原因。我在早先做售后支持的时候有用户给我打来电话说我的磁盘阵列出现了什么样的问题,不能做任何的服务和操作,在这个时候我们通常会请售后工程师到现场看到底出现了什么状况,通常会先问客户几个问题,你回答以下以便我判断服务器是否有故障,这就是通过收集用户信息的反馈来判断问题。这就有一个风险,用户可能并不是很了解相关的情况,这就可能会影响到我们判断错误的方向。所以对于人为的错误操作很多时候会造成损失甚至是致命性的错误。

    整个的曲线图里面大家可以看到,人为的排在了第一,硬件非磁盘的因素排在了稍后些的位置,但是也没有绝对说一定是人的因素,还是什么因素,都是上下相差不多的。

    跟用户够的时候往往都会强调性能多好,不能强调这款产品的缺陷是什么。对数据的保护来讲,除了设备本身要提供设备运行的可靠性乃至业务运行的延续性以外,还要提供数据的保护的方案。对于备份来说是特别关键的业务,因为在很多时候是需要停掉一些备份工作的,好多时候像7×24小时的业务要在业务的最低点做备份。之前我有一位客户是政府行业做财务的集中支付,在上午8:30到下午5:00一定不可以中断,实际上对这个时间来讲是可以有很好的备份时间来考虑的。另外的情况就是把所有的业务在正常运作的情况下,每个月做一次全备份,而且这个全备份要保存10年以上的。实际上跟备份有关的问题还很多,包括备份的恢复和备份的可靠性的问题。备份的方式方法不同对恢复就会产生不同的影响,一个是在恢复的时间能不能有一个最短的时间能够把整个系统做恢复。另外是可靠性,我们说备份到磁盘或者磁带,这都是一种介质,这对备份本身也存在着一定操作的风险,举个最简单的例子,备份了以后形成了一个备份放在那,但你要把这个备份恢复,遇到某种情况恢复不出来,这就是一种风险。所以要做备份的时候如果是1小时,那你就要预留出1小时15分钟来做,因为你还要留15分钟,能够对第二次备份留出余地。

    再看关于磁盘的操作,这实际上是一个很具体、很大的概念,我们用存储的第一个功能就是容量的需求,解决数据量不断膨胀的问题。零用的功能是完成性能的优化以及可靠性的问题。我经常跟他们说,不要吹你的系统的性能有多牛,真的是你的系统性能有多好吗,现在大家现在已经提的不再是几年前的万亿次了,而是千万亿次。那么现在除了应用直接访问的技术增加相互节点的通信带宽以外,更多的是通过后端的存储系统提供优化,为什么能够提供优化呢,因为能够把多个磁盘捆绑起来形成一个大的群,同样也可以把这些做分散,如果大家研究测试的一些资料的话就会了解掉,前面都是把跟存储的节点分开来测试的。今天在服务器当中使用的SATA带宽能够达到多少,理论带宽能够达到320M,但实际带宽远远达不到这个速度。对于以太网很多时候有效的速率只有40-60%。

    对于磁盘的操作或者磁盘的管理所体现的价值,就是关于性能的优化,为什么说管理显得尤为重要,这可能是数据的日志,要求的是可靠性和可用性同时兼备,我们需要一个不同的Rade级别,那也需要做相应的规划,可能要做些大数据的访问,需要把逻辑块分配成一些块,这都是有学问在里面的,都是存储管理需要做的一些操作。

    后面是关于的管理,这对于还是处于入门的用户还涉及不到,SAN不是针对于光纤产品而言,而是针对存储、区域、网络,就是说你一台服务器、一台交换机、一台存储,在我看到得有些相对专业的用户,除了做SAN还做存储系统的逻辑卷以外,仍然会做更全面的工作,能够保证存储设备和服务器之间真正做到有效信息的屏蔽和逻辑的管理,以保证数据的安全。因为我们知道在很多存储设备上是在设备端提供逻辑的计算关系,但如果你没有做到很好的设置控制,这就形成了潜在的风险。

    在我遇到一个客户身上发生的情况是什么样的,在一个SAN上,所有逻辑卷可以被所有的服务器所访问,就像在一个会议室当中本来规定好了要做一对一的讨论,完成点对点信息的交流,那么这样的情况就是我在讲话周围的人也都在传递和接收信息,很可能我接收的是来自于别人的信息。这也就是说访问的一致性是有比较苛刻的要求的,是不允许交叉的。

    另外是应用存储,我们看到整个在客户端的方向来讲,更多的不是着眼于设备的管理,而是基于归档或者以太网空间提供的服务,跟这些有关的也是应用服务很关键的部分。

    当我们回顾了跟存储管理有关的概念,我们曾经得意技我们现在遇到的问题是什么,也就是说在做存储管理的时候怎么样能够做的更加有效,无外乎就这么几点。第一个是能够有效的发现机制,我们会发现所有今天的系统在网络当中部署的时候都需要一种制度发现机制,一方面来自于在部署的初期,另一方面来自于在部署的期间运行。举个简单的例子,一台笔记本上装了存储设备,那我需要发现在这个机房当中哪些设备是可供我管理的。第二当我对这个做出重新设计的时候要及时反馈给所有的管理软件。另外已经建了服务器A和服务器B的关系,这个关系要能够很快的体现出来,如果不能对应用系统和管理系统也是一个障碍。

    第二是关于配置的,实际上配置在整个存储管理当中是需求最大的一部分。从最底端来讲,基于RADE创造一个逻辑空间,为这个LAN创建完全的物理复制或者异地、本地的镜像,但我们面临的一个问题突然发现这个服务器的空间不够,怎么样能够把LAN的空间扩大又不影响到现有的系统,怎么做一个有效的调整,这都是跟LAN有关的。

    随着应用需求的变化,随着设备的增加,我会做出相应的调整,这都是在存储管理系统中做的。除了这些还有一个安全的问题,我的设备处于无秩序的体系中显然是不行的,所以要建立安全的管理体系。

    另外还有报告、备份和自动化。对于报告来讲,我要能够去跟踪和发现这种趋势,一方面我要跟踪的可能是一个性能管理,在现在的存储系统里面除了能够对设备基本运行状态监控以外,还要求能够提供的信息是什么,要有一个数据量分配100TB的数据量,可能在前一两个月里面增长是平缓的,但在后面两个月里面增长曲线是很陡的,这个信息就要反馈给我,以做到我对整个系统情况的预测。

    对于备份来讲,主要是对备份存储介质的发现,过去仅仅只有磁带这一种,到现在对于备份介质有很多种选择,像高密度的磁盘,这些介质在使用的初期往往会发现,备份软件能够看到有这些备份设备可以使用,这里面放的这盘磁带已经为上个月的业务做了全面的备份,这都是为了有效的春地信息,能够方面做出相应的管理。

    自动化,能够通过重复的过程以非人工干预的行为完成,去降低我们对系统的干预,节省相应的成本。系统管理员不需要每天登陆到上面有没有报警或者有没有故障,当系统有情况的时候马上发出一封邮件给系统管理员,然后系统管理员就可以作出有效的管理。对于事件的管理它的作用是什么呢,可能一个大的机房当中有多个存储设备,又有多个系统管理员管理,那么就可能出现重复管理,有些系统管理员做出这样的设计是为了做存储系统的优化,突然我在做这个修改之前发现之前有一个我做的设计已经被人改变了,这样的话我只能不停的检查这个系统的情况,也就是说在系统上,存储系统能够提供一种机制,更主动的汇报运行状态的配置的管理。

    后面这是对今天整个内容做的总结,我希望大家能够思考一下我们对于存储管理的理解和认识,希望通过今天我带来的分享给大家带来更多的信息,能够给大家在将来做存储管理的时候更多的启示。第二,不知道大家有没有更深刻的感受,像之前我在做存储管理的时候碰到的问题,甚至是灾难性的状况,以及未来我需要的存储管理产品拥有什么样的特性。包括SNIA也希望得到最终用户端对存储管理产品的期望以及需求。

    我们怎么样帮助一些厂商或者行业组织更好的改进我们在存储方面的产品以及方案,在这方面的努力不管是对于最终用户还是厂商都是多方受益的行为。第一,希望大家能够广泛的参与SNIA  EUC的调查,在SNIA官方网站上面有一个链接,去年参与EUC调查的获奖者获得的是一款30GB的的播放器。

    另外希望大家能够有效考虑到存储管理的问题,因为说实话所有产品买回来都是要用的,这就需要做存储管理。实际上对存储管理这方面SNIA一直都希望跟最终用户端有清晰、明确的沟通,以便了解用户的需求。最终用户可以跟厂商跟SNIA做直接的沟通。另外对已经发布的定义大家都可以查看,然后提出自己更多的设想和需求。

阅读(705) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~