分类: 系统运维
2016-08-22 11:38:10
IT服务管理的质量直接影响业务的质量,进而影响企业的市场声誉和客户满意度。信息技术基础架构库(IT Infrastructure Library, ITIL)为企业的IT服务管理实践提供了一个严谨、客观、可量化的标准和规范,是一套以流程为导向、以客户为中心的管理方法,对IT基础架构进行全面而集中的管理,以确保企业业务的平稳、高效运营。企业的IT部门可参考ITIL制定其IT服务管理流程,从而确保企业能够高效地实现IT服务管理,为企业的运作提供更好的支持。
基于ITIL的IT服务管理由服务台、事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理组成,事件管理是整个支持系统中的首要环节,具有应用广、重要性大的特点。目前,我国实施IT服务管理的企业中绝大部分已执行了事件管理流程。事件管理往往以快速解决表征现象为目的,而不在于查找根本原因,因此,时效性成为评价企业事件管理水平的重要标志。
事件管理是IT服务管理中的一个核心流程,提升事件管理时效性、回归事件管理本身属性,可以提高IT服务的质量,有效改变目前我国企业普遍存在的重开发、轻运维的现象,真正践行以服务为导向的ITIL理念,通过切实有效的IT服务管理为企业创造价值。
一、事件管理的目的
事件是指引起或可能引起服务中断和服务质量下降的事件,也可以是一种为个人提供特殊服务的请求。事件管理是负责解决IT服务过程中的突发事件、问题以及客户需求等内容的运维管理。事件管理中的事件是一个广义的概念,不是狭义的故障,它可能是软件、硬件问题,也可能是服务需求事件。
目前,很多公司IT运维管理部门没有建立事件处理的优先级和解决时限关联,不能保障事件解决的实效性和IT资源的有效利用,事件发生后没有明确而唯一的责任人,缺乏有效的对事件监控和跟踪的机制,没有统一的IT服务管理应对事件受理的界面、完整的记录和及时反馈,缺乏事件监控和诊断等技术工具,事件不能在技术工具的支持下得到主动、快速处理。IT人员工作被动,只能像救火队一样,不知道什么时候、什么地方会出现“火”情,只有当事件发生并且已造成业务影响时才能发现和着手处理。这种被动“救火”不但使IT服务人员终日忙碌,也使IT服务本身质量很难提高,导致IT和业务部门的满意度都不高。因此,将IT服务管理的理念和方法应用到企业信息技术的服务管理中,是确保企业IT工作发挥效益的重要举措。企业在实施IT服务管理的过程中采取的方式和进程并不相同,有的全盘开展ITIL所有流程,有的仅从建立服务台开始,循序渐进。事件管理流程是服务支持中的第一项流程,是在IT系统遇到问题之后,解决问题的第一个环节,与其他流程相比,它的应用最广、重要性最大。
事件管理的目标就是对组织及用户在尽可能小的影响情况下,使IT系统尽快恢复到服务级别协议所定义的服务级别,以确保最好的服务质量和可用性级别。也就是说,迅速解决问题,将不利影响降到最低,提高追踪和事件升级的效率,更好地控制整个管理过程。为了实现这个目的,事件管理流程必须最佳地利用资源支持业务、开发和维护有效的事件记录以及设计和应用统一的事件报告方法。事件管理侧重于恢复服务,为了能够有效地解决问题,事件管理还必须对不同的事件进行分类和排队,分类就是要分成不同的优先级,排队就是要识别它们。因此,事件管理的主要活动有两个,一是对事件进行优先级分类;二是记录事件,把记录下来的内容形成一个资源库,为将来分析挖掘知识储备资源。
事件管理的主要任务是及时识别并跟踪发生的事件;对事件进行分类并提供初步支持;对事件进行调查分析,识别引发事件的潜在原因;解决事件并恢复服务;跟踪和监督所有事件的解决过程,并随时进行沟通。因此,研究事件管理对解决目前IT运维中存在的服务问题具有重要的意义,事件管理的时效性将直接影响整个企业的IT服务质量和整体运营状况。
二、事件管理的基本流程
事件管理流程大概如下:当一个事件输入的时候,首先要对事件进行检查、定位。检查事件的时候要与它不断交互,明确它的影响范围和紧急程度,还要进行初步的归类评估。服务台(ServiceDesk)是事件的唯一入口,它接收事件后,操作人员通过查阅CMDB〔配置管理数据库)进行处理。具体流程如图1所示。
▲图1事件管理的基本流程
1.事件的查明和记录
服务台记录一些标识客户的基本信息,如姓名、工作地点、电话号码等,而事件管理记录详细的事件信息,如事件发生的时间、受事件影响的服务等。这样做的目的是便于确认事件的影响,问题管理可以根据这些信息查找事件原因,密切跟踪事件进展。
首先,当用户、服务台工作人员或其他IT部门人员发现或系统检测到某系统发生事件时,就将其报告给服务台,服务台将基本信息输入事件数据库并报告给事件管理人员。通常所有的事件都是先报告给服务台,再由服务台工作人员将其输入事件数据库,服务支持小组是不允许直接记录事件的。
其次,事件管理人员给事件一个唯一的编号(事件单号),记录一些基本的事件分析信息(时间、症状、位置、用户、受影响服务、硬件等),并补充其他的事件信息(与用户的交互信息和配置管理数据库等。
再次,事件管理人员根据服务台提供的信息和事件数据库信息判断此类事件是否与已有的事件相同或类似,如果有就更新事件信息或建立原事件的从属记录,并在必要时修改原事件的影响度和优先级,如果没有则创建新事件记录。最后,事件管理需要判断事件是否严重,如果严重就先向管理层报告并告知用户有关情况,再采取进一步行动,如果不严重就直接进入下一步的事件初步归类和支持。
2.初步归类和初步支持
经过第一步的事件查明和记录,可从用户处获取的事件信息基本上已得到,事件管理数据库已经根据这些信息进行更新,接下来就是事件的初步归类和初步支持。这里强调初步,就是为了能够尽可能快地恢复用户的正常工作,尽量避免或者减少事件对IT服务质量的影响。
归类的目的是发现事件原因以便采取相应行动。一般来说,许多事件是重复出现的,因此,当某个事件再次出现时,只需要根据已有的经验和措施采取行动即可:,当新的事件出现时,就有一个与其问题和知名错误(知识库)相匹配的过程,如果匹配成功就可直接用已有的方案将其解决,而不需要进一步调查,否则就要继续进行下面提到的其他几个步骤。
服务台如果没有成功解决事件,就将事件转交给二线、三线支持处理,然后负责记录事件并联系各支持小组,采取必要的措施以确保用户满意。如果碰到未出现过的事件或事件解决过程非常复杂,就必须对事件进行调查和分析。
3.事件调查和分析
事件在第一阶段和第二阶段没有圆满解决时,专家支持小组应介入处理过程,对其进行调查和分析。
一旦事件被分派给某个支持小组,他们应当完成以下工作:确认接收事件处理任务,同时指定有关日期和时间以保障正常更新事件状态和历史信息,经过服务台及时通知客户事件最新进展,说明事件当前所处的状态;尽可能快地把发现的权宜措施提供给服务台和客户;参考知名错误、问题、解决方案、计划的变更和知识库等对事件进行评审;必要时要求服务台根据协议的服务级别,重新评价事件影响度和优先级,并在必要时对其进行调整;记录所有相关信息,包括解决方案、新增的或修改的分类;将所有相关事件的更新、花费的时间以及处理结果反馈给服务台以让其终止此类事件。
4.解决事件和恢复服务
在分析和调查事件后,支持小组根据更新的事件信息,提议的权益措施和解决方案以及有关的变更请求,解决事件并恢复服务,同时更新有关事件信息
5.事件终止
解决事件和恢复服务后,事件到达终止阶段。这个阶段输入的是上一阶段更新后的事件记录和已解决的事件,采取的行动主要是和客户一起确认事件解决是否成功,输出的结果为更新的事件信息和事件记录。在事件解决后,服务台应该确保以下内容:有关用于解决事件的行动的信息是准确的、易懂的;根据事件产生的根本原因对其归类;客户同意事件解决方案和方案的执行及最终结果;详细记录事件控制阶段的所有相关信息,如客户是否满意和满意度如何,处理事件所花费的时间,事件终止的日期和时间。
6.事件处理过程的跟踪和监督
服务台负责跟踪和监督所有事件的解决过程。在这个过程当中,服务台要做到以下儿点:监督事件状态和事件处理最新进展及其影响服务级别的状况;特别注意事件处理责任在不同专家支持小组间的转移,因为转移往往因支持人员的责任不明确而发生拖延;更多注意高影响度的事件;及时通知受影响的用户关于事件处理的最新进展;检查相似的事件,有助于保障每个事件在规定的或者最短的时间内得到解决。我们在实际工作中还要尽量避免支持人员把过多的时间用于调查和分析而忽视用户比较急切的需求.即本文后面将提出的事件管理问题化现象。
三、提高事件管理时效性的措施
根据事件管理的基本流程,可以从流程的每个衔接环节入手,主动管理,提高事件管理时效性,具体措施如下。
1.减少进入事件管理流程的事件数量
服务台作为IT服务管理的一个基本流程,包括呼叫中心(Call-center)和帮助台(Helpdesk)以及邮件系统等,其主要职能是受理客户需求,记录并跟踪事件、向客户反馈其服务需求以及事件的进展情况,根据服务级别协议对客服需求做出初步评估,尽力解决或将其安排给有关人员解决等。服务台是服务提供方和日常联络处,一般作为事件的一线部门,负责报告事件和处理服务需求,同事件管理流程联系最为紧密。服务台要跟踪和记录各种事件,并负责协调二线、三线支持小组处理和解决事故。服务台应利用既有资源,通过匹配知识库等方法努力解决所受理的事件,提高事件的一线解决率,减少进入事件管理流程的事件数量,减少事件的不必要流转,提高事件管理的时效性,从而提升事件管理效率。
2.准确评定事件级别,提高事件的解决效率
在日常企业IT运维过程中,有时必须同时处理数个事件,但受时间、人力、物力等条件的限制,必须对事件处理顺序进行排列。这里就必须对事件进行分级,通常可以按照受影响的用户数、系统数以及事件的严重性等因素来确定事件的影响程度和紧急程度,然后根据影响程度和紧急程度来确定事件级别(见图2),事件级别是根据事件影响程度和紧急程度而制定的处理事件的先后顺序。
首先,事件管理部门可以根据事件级别的不同,优先处理高级别事件,减小其对业务的影响,避免客户投诉等问题。
其次,可以根据事件级别的不同,针对不同级别事件建立具体的时效性指标,要求二、三线支持部门在指定时间内完成事件的处理,并及时向客户反馈处理结果,确保事件解决。对于服务已恢复、原因无法确定的事件应及时转至问题管理流程处理。
3.监控事件处理过程,适时进行事件升级管理
服务台可以成立一个专门的事件监控小组,承担跟踪和监控事件处理过程的工作。当事件处理进展不尽如人意时,服务台可以根据已经定义好的升级程序进行事件升级。
▲图2事件级别确定途径
事件升级是指一线处理部门(服务台)在规定时间内不能解决或没有解决某个事件时,将事件转二线、三线支持部门处理。事件升级是根据上文提到的事件级别和事件解决时间确定的,事件升级具体过程如图3所示。
4.避免事件管理问题化
企业在事件管理过程中通常会出现的一个误区是未能分清事件管理同问题管理的区别,在处理事件过程中注重事件具体原因和解决力、法,未将恢复因此中断的服务放在事件管理的首位,将事件管理问题化。
问题管理的主要目标是要查明事件发生的潜在原因并找到解决此事件的方法或防止其再次发生的措施,而事件管理的主要目标是在事件发生后尽可能快地恢复客户服务,可能采取的是一些应急措施而不是永久的解决方案。事件管理强调速度,而问题管理强调质量,把速度放在第二位。为了发现事件原因和防止事件再次发生,问题管理可能需要花费更多时间解决事故且可能推迟恢复服务。
5.不断推动事件管理工具建设事件管理依赖于知识库的建立
维护和相关管理工具的支持,在事件处理过程中,应尽可能发挥工具的作用,根据事件管理工作需要推动开发部门开发相关工具,将事件的跟踪管理工作自动化,提高事件处理效率。例如,对于停留在单个支持部门时间过长的事件,可以根据事先制定好的时间阑值对该部门事件处理人员自动发出提醒,要求其尽快处理相关事件,借此提高各个部门事件处理的时效性。6.建立健全事件管理制度,规范事件管理流程
各个企业在开展IT服务管理过程中,应重视自身的制度建设,完善制度中不合理的内容。提高事件管理的时效性,在一定程度上依赖于事件管理制度的建立和健全,通过制度约束规范企业事件管理流程,树立事件管理时效性意识,从而更好地为业务部门提供IT服务。
图3 事件升级过程