建立基于ITIL标准的IT管理和服务体系
-xx银行IT管理建议书
一、IT营运管理方法论
现今的企业为了强化自己在这个新世纪的竞争力,导入了ERP系统、供应链系统、CRM系统、决策支持系统、知识管理系统等等,这些系统最后都要进到企业的IT营运体系中。当我们透视解决方案生命周期时,可以看到,所有的解决方案最后都要进到企业的IT营运体系中,为企业员工所使用。
如果IT的整个营运管理做得不好,那这些花大钱建置起来的系统再好功能再强也没有用,因为使用者根本无法顺利地使用它们。某大型电子公司,共运行了四十多个应用系统,当他的信息主管被问到,哪一个系统最重要时,他回答:「IT的营运与管理最重要!唯有好的IT营运管理,才能让公司上上下下好好的用每一个系统。」这个见解实在是一针见血。
既然IT营运管理非常重要,那么如何提供好的IT 服务,对IT 主管或CIO 而言当然是非常重要的课题。答案是采用更新的技术或添购功能更强的设备吗?在1999 及2000 年Gartner Group 广泛访问企业CIO 有关服务或应用程序无法使用(downtime) 的原因。结果大家最常认定会出问题的技术或产品(包括硬件、软件、网络、电力失常及天灾等),其实只占了20%,那么占大宗的是什么呢?我想你已经猜到了,作业程序(Process) 失误就占了40%,另外作业人员(People) 疏失也占了40%。作业流程失误包括变更管理(Change Management) 没有做好、超载、没有测试等等程序上的错误或不完整。作业人员疏失包括忘了做某些事情、训练不足、备份错误或安全疏忽等等。
Gartner Group 这份访查结果正是80/20 法则的再次印证。我们常想要把系统的可用度提高,当然就是要花大钱购买标榜可提高可用度的硬件或软件。孰不知这个部分事实上只占了系统停机原因的20%。如何做好IT 服务管理,首要工作当然是加强流程和作业人员管理,因为那才是造成系统无法使用的主要原因- 两个原因加起来共占80%!我们常听人家说大型主机(Mainframe) 的
系统比较稳定可靠,所以经过了这么多年还是有许多企业愿意花大钱继续一年年采用。其实真的是它的系统软硬件更好吗?恐怕并不尽然。我们知道,大型主机系统
有着一套完整清楚的系统运作规范可遵循,人员在训练时花在运作程序方面的心力绝对不亚于系统软硬件,甚至是更多。有了严谨的程序,加上完整的人员训练,自
然就可以把那80%的系统停机风险降到最低。
那么是否有方法论,可以用来建构企业内IT 服务管理而且是主要IT 厂商都支持的呢?
二、什么是ITIL?
ITIL(Information Technology Infrastructure Library)是信息系统运营与服务管理标准,用于定义IT部门管理工作中需要的各个工作程序(Process),以及各个工作程序之间的相互关系。在跨国公司IT经理中素有"IT界MBA"之称。
80年代中期,英国政府部门发现提供给其的IT服务质量不佳,于是要求当时的政府计算机和电信局(CCTA),启动一个项目对此进行调查,并开发一套有效的和可进行财务计量的IT资源使用方法以供本国的政府部门和私有部门使用。同时,这种方法还应该是独立于厂商的并且可适用于不同规模、不同技术和业务需求的组织。这个项目的最终成果是一套公开出版的IT服务管理指南,即ITIL(Information Technology Infrastructure Library)。
虽然ITIL当初只是为英国政府开发的,但是在90年代初期,它很快就在欧洲其它国家和地区流行起来。到90年代中期,ITIL成为了事实上的欧洲IT服务管理标准。90年代后期,ITIL又被引入到美国、南非和澳大利亚等国家和地区。2001年英国标准协会(BSI)在国际IT服务管理论坛(itSMF)年会上正式发布了以ITIL为基础的IT服务管理英国国家标准BS15000。2002年BS15000被提交给国际标准化组织(ISO),申请成为IT服务管理国际标准。国际标准组织已接受这个申请,并为此设立了一个专门工作组。该标准有望在2006年前后生效,可以说,ITIL已是事实上的国际IT服务管理标准。
ITIL的目的是帮助企业降低IT运营管理成本,并且提高IT服务水平,提高业务部分的满意度。
三、ITIL的核心思想
ITIL它并不是一套理论模式,它所根据的是最佳的实际经验。其中的许多经验不但广为人知,而且有无数的IT机构都是采用它来提升IT服务的效率及加强IT部门间的横向沟通。这套方法论历经了十数年的考验,证明它是最被IT业界广为接受的一套经营IT经验指南,等于是IT管理的业界标准。
ITIL将IT的工作分为两大类:分别为《服务支持》(《Service Support》)和《服务提供》(《Service Delivery》)。Service Support针对的是一般系统的运作部分,目的是让使用者可以顺利存取到IT服务。其中包括Service Desk、事件处理与追踪、问题处理与追踪、系统变更、系统配置设定的记录与维护,以及版本的发行与控管。第二大类Service Delivery则是针对IT部门对客户提供信息服务时应有的工作程序。其中包括服务层级的约定与管理、IT服务的财务管理、系统可用度管理、系统容量的测量与未来规划、灾难情况的业务持续运作规划与系统复原。
《服务支持》(《Service Support》包括如下流程:
1. 事件管理(Incident Management): 识别偶发的事件。
2. 问题管理(Problem Management):对服务台识别的偶发事件的潜在原因加以诊断,安排改正IT基础设施的错误并进行问题预防指导。
3. 变动管理(Change Management):变动管理过程确保使用标准方法和规程有效且迅速处理所有变动。变动管理旨在提高组织的日常运作水平。
4. 配置管理(Configuration Management):识别、控制、维护和检验现有的包括基础设施和服务在内的IT资产。
5. 发布管理(Release Management):通过控制软件、硬件的发行和版本确保信息系统资产的安全,并消除不同版本引起的潜在问题。
《服务提供》(《Service Delivery》)包括如下流程:
Service Level Management):服务水平管理的目标是通过协调IT用户和提供者双方的观点,实现特定的、一致的、可测量的服务水平,以为客户节省成本、提高用户生产率。
2. 可用度管理(Availability Management):可用性管理的目标是优化IT基础设施的性能,它的服务和支持的组织。可用性管理导致成本节省的、持续的服务可用性水平,这种服务可用性确保业务满足其目标。
3. 能力管理(Capacity Management):使组织在危机出现时管理资源并提前预测需要的额外的能力。它描述了计划、实施和运行该过程必需的规程。
4. 持续性管理(Continuity Management):在尽量少的中断客户业务情况下,提供IT服务,并在IT系统出现问题时,以可控的方式恢复。
5. 财务管理(Financial Management):确定IT服务的成本核算,设定预算,监督预算执行情况,根据提供的服务收取费用。
针对ITIL管理流程的具体实现,ITIL标准又将实现工具分为三类:
Process Management Tools—过程管理工具
Analysis Tools—分析工具
Execution Tools—执行工具
四、XX银行IT管理规划建议
全面实施ITIL模式对任何IT企业都至关重要,但在实施时通常需要循序渐进,并且要从最急迫需要解决问题处入手。最重要的是要采用统一的符合ITIL标准的信息架构。另外,在实施前,切记先记录下现有环境数据,以便随着时间的流逝来衡量成效。
我们建议xx银行将规划分为:短期目标,中期目标,长期目标三个阶段实施,从而构建符合ITIL标准的IT服务和管理平台。
短期目标:
达到目的
1) 立符合ITIL标准的统一的信息架构(altiris notification server)
2) 保证统一的配置管理数据库(Configuration Management Database)
3) 实现变更管理、配置管理、问题管理
变更管理(Change Management)
为何要做变更管理呢?这里举两个因为变更管理没做好而蒙受重大损失的例子来说明。2001 年6 月,NASDAQ当机长达半天,原因是操作人员做了一个未经测试的变更动作,结果导致整个系统停机。同样也是在2001年6月,NYSE在半夜做了一个软件变更的变更动作,导致部份系统当机,无法完成股票买卖交易。这两件事都上了报纸及新闻头条,包括华尔街日报、CNN 及CNBC等等。这反映出了变更管理真的很重要,一旦没有做好它,企业的关键任务(Mission Critical)系统就会受到影响。以银行业为例,只要是IT部门当机一小时,其导致的结果可能是全体员工要花上数倍或甚至是数十倍的时间来补救,而且因为分行里客户大排长龙,负面报导上了晚间新闻及报纸,企业形象受损的损失更是无法估计。这也可以说明为何企业CIO 把变更管理视为第一要务。
为进行变化管理,IT组织中应该有变更管理员(Change Manager)及CAB(Change Advisory Board)的编制。变更管理员是全程负责监督RFC从提出到结案整个过程的人。CAB代表是变更咨询委员会。
配置管理:
在公司内,通常会做所谓的资产管理(Asset Management),也就是把每项公司资产是何年何月何日购入、哪一个会计科目、负责人是谁等信息记载在数据库中,这是一般传统的资产管理方式。但是实际经验显示,如果用这种方式来管理IT相关资产,包括硬件、软件、网络等等,结果会因为记录的信息太过简化而衍生出许多问题。IT资产的管理所必须记录的信息要比一般资产多得多。
目前有经验的IT部门都有一套方式来记录IT资产。但是IT资产的管理难道就只是详尽记录它的型号版本等等这些规格信息而已吗?其实这是不够的,还要包含该项资产所有的配置设定,以及它与其它IT资产之间的相互影响关系。这些配置都会输入到所谓的「配置管理数据库」(CMDB,Configuration Management Database)中。准确而完整的CMDB是相当重要的。因此要有一个机制来提供这个信息,这个机制就是配置管理(Configuration Management)。配置管理可存取并提供IT资产正确信息和这些资产间的关系,还能提供对系统的影响及趋势分析,降低未经授权软件的使用情形,以及控制所使用的IT资产。
问题管理
问题管理的目标就是要找出事件或问题发生的真正原因,并找出对策或步骤来解决问题。我们常说要对症下药。没有针对原因来解决问题,可能可以让服务暂时还可以使用,但如果错误原因没有被消除的话,将来还是会发生问题,事件还会再重复发生─ 进而再度影响IT服务的提供。
这
也就是为什么要有问题管理的原因。唯有找到原因,才能解决问题,避免同样的问题一而再,再而三的发生。问题管理分成两个部分,一个是被动的部分─等事件通
报变成问题,再来分析问题,找出问题发生原因,加以诊断,再提出解决方法及步骤。一个是主动的部分,分析趋势,事前先找出可能潜在的问题,主动提出解决方
法及步骤,预防问题将来发生。
4) 对应altiris工具
配置管理Configuration Management |
过程管理工具/分析工具/执行工具 |
Altiris Architecture- altiris notification server |
建立统一的信息管理架构 |
Altiris Inventory solution |
资产管理 |
Altiris web reports |
报表分析功能 |
Asset Control solution |
固定资产管理,建立最完整统一的资产信息及相关联信息 |
变化管理Change Management
|
分析工具 |
Altiris Inventory solution |
资产管理 |
Asset Control solution |
固定资产管理 |
Altiris web report |
报表分析功能 |
Application Metering Solution |
应用软件管理 |
执行工具 |
|
Altiris software delivery |
软件部署与升级管理 |
Altiris client management suite |
客户端操作系统部署、升级;软件的部署与升级;微软补丁自动安全管理;远程控制等。 |
问题管理Problem management及事件管理 Incident management |
分析工具 |
Altiris Inventory solution |
IT 资产管理 |
Asset Control solution |
固定资产管理 |
Altiris web report |
报表分析功能 |
Application Management Solution |
应用管理 |
执行工具 |
Altiris Deployment Solution |
系统部署、升级和管理 |
Application Management Solution |
应用管理 |
Carbon Copy Solution |
远程控制 |
中期目标:
达到目的:实现事件管理、持续性管理(Continuity Management)、可用度管理
在现今全球化经济社会下,可用度及IT服务持续性管理可说是最举足轻重的两个重要程序。营运服务能否持续每天24 小时,一周7天地正常运作,变得愈来愈重要。可用度能左右顾客满意度,并且能快速的影响企业整体声誉及业务是否成功。IT服务持续性管理程序是要确保正常可用的解决方案发生问题后,依然能够持续提供另一个等级的IT服务给客户。
从这个观点来看,可用度管理及IT服务持续性管理的关系非常密切。这两个管理程序都是试图减小IT服务的可用度危机。可用度管理的焦点主要是集中在处理日常可能出现会影响到可用度的危机,如果无对应的反制措施或反制措施没有办法完全涵盖或应付时,这些危机就由应变计划及IT服务持续管理程序来处理。
IT服务持续管理程序分做3 个步骤。
第一步是取得Service Level Agreement,然后分析及找出每层的危机,将IT服务分成下列层级:服务、应用软件、中介软件、操作系统、硬件、网络、环境、外在影响因素。
第二步是提出这些紧急状况的解决方法;这包括两个部分:第一个部分是Failover,第二个部分是Recovery。Failover 包括有几种选择:Cold Standby、Warm Standby 及Hot Standby。
第三步则是制作应变计划。
对应altiris方案:
服务水平管理(Service Level Management)
|
过程管理工具/分析工具/执行工具 |
Altiris helpdesk Solution |
建立统一的service desk |
持续性管理(Continuity Management) |
分析工具 |
Altiris Site Monitor Solution |
网络站点监控模块 |
Altiris Monitor Solution |
服务器监控模块 |
Application Metering Solution |
应用监控模块 |
执行工具 |
Altiris Recovery Solution
|
恢复模块 |
长期目标:
达到目的:IT财务管理分析(Financial Management)
IT财务管理分析Financial Management) |
过程管理工具/分析工具/执行工具 |
Altiris Contract Management Solution |
合同管理 |
Altiris TCO Management Solution
|
IT 总体拥有成本分析 |