第四章 服务管理产品介绍
4.2一个服务管理人员的一天
4.2一个服务管理人员的一天
2004
年9月10日,一个普通的星期五,ABC公司的IT服务中心(Service
Desk)工程师小朱早早的来到了办公室。今天是本星期的最后一个工作日。小朱除了完成手头的工作和每天必须的日常工作外,还必须按照服务中心的规定,在
下班后,对所有生产系统进行一次全备份;同时,小朱需要对这个星期所发生的所有IT系统事故和所有IT服务请求的完成情况进行整理,作一个汇总报告。
小朱打开计算机,输入自己的用户名和密码,进入了自己在服务中心的电子邮箱。电子邮箱里一共有7封新邮件。其中5封是企业IT基础服务监控系统于昨天晚上
发出的报警邮件。这些邮件记录了在12小时内必须处理的事件。在这些进行事件报警的邮件里,记录了事件发生的时间,引起报警的IT系统,事件的描述,以及
相关IT系统的负责人等等。
4.2.1报警事件处理
小朱打开第一封邮件,并通过邮件系统里的链接,直接进入了事件管理系统中的相关事件描述。由于单点登录系统的实施,小朱在公司内部进行系统访问时,都只需
要输入一次用户名和密码,便可以访问所有自己拥有访问权利的系统。
计算中心使用的事件管理系统是一个集中企业事件管理平台(Enterprise
Console)。这个平台对小朱服务的IT服务中心来说,有着非常重要的意义和作用。在ABC公司这样复杂的IT环境中,网络、设备、各种分布式的系
统、数据库系统、中间件、各种应用程序都会产生各自的事件。对管理人员来说,分别接收并处理这些根源于不同应用的事件是一个繁重而混乱的工作。而事件管理
系统则整合了所有的这些系统事件,并帮助服务人员对事件进行了整理。因此,每当有故障在IT环境的某一角产生时,相关的IT设备总会把事件通过各种方式,
例如邮件,短信等,把警报信息发送到事件管理系统中,从而为公司的IT服务人员提供了一个集中,统一的处理平台。

当小朱在事件管理系统中打开相关事件记录的同时,事件管理系统记录了服务管理员开始处理该事件的时间,这些信息会成为以后评价服务效率等评估工作的依据。
第一封邮件是与内部办公系统相关的,监控程序提示:办公系统所使用的数据库系统出现预警提示,有一个表空间的数据容器还剩下不到5%的容量。
小朱马上打开存储管理系统,从存储池里为办公系统数据库追加分配了20G的硬盘空间,然后执行了扩充数据容器的命令。小朱仔细检查了数据库系统前后的记
录,确保只有这一个问题后,详细记录了处理该事件的的过程和结果。
下图描述了问题出现到解决问题所经历的过程。办公系统里面安装的存储系统监控程序总是定期检查办公系统系统对存储的利用状况,并及时把捕捉到的系统信息提
交给监控服务器。当监控服务器发现传来的消息表明系统的存储空间紧张时,马上发出报警信息给事件管理系统。事件管理系统根据已经定义好的业务规则发出邮件
向服务中心提出了服务请求。服务中心的工作人员接收到邮件后,对问题进行处理。而服务中心处理事件的过程和结果也都被记录了下来。这些记录有可能被用来作
为对服务中心所提供服务水平的评价依据。

从
处理这一报警事件的过程中,可以看出IT服务中心使用的存储管理系统也是象小朱这样的IT服务器人员的得力助手,它可以监控到计算机,甚至计算机上的应用
程序对存储设备的使用情况,例如利用率,数据分布情况等。当它发现某些问题可能会出现时,例如某一个应用所需要的存储空间只剩下5%;或者某一个硬盘的访
问频率太高,而另一个硬盘访问频率太低时,都会自动发出警报信息。而服务人员可以根据需要在控制中心发出修改配置,增加硬盘等命令,这些命令会传达到被监
控的计算机上,由被监控计算机上的软件自动执行。
小朱继续处理剩下的工作。第二封邮件是企业安全系统的报警,事件显示,到昨天晚上10:20为止,有一个外地帐户TJ001,反复5次去打开企业信息系统
中一个需要密码才能访问的共享文件夹,但均因密码输入错误而失败。最后该帐户访问系统的权限被锁定。
小朱查看了该帐户的信息,确定该帐户是天津分公司的员工。小朱给天津分公司的服务管理员发了一个邮件,请对方调查事件发生的原因。如果只是因为误操作,天
津分公司的服务管理员需要发送一封申请邮件,小朱可以重新开放该帐户的访问权限。
第三封邮件是数据库管理系统的报警,数据库系统的监控程序发现数据库的一个数据缓冲区频繁出现写满的情况。小朱认真查看了数据库的日志,发现是企业库存程
序在访问数据库所引起的。现在快到季度末了,库存系统的信息变化量的确很大。小朱及时修改了缓冲区的设置,并给库存系统的操作人员发去了电子邮件,告诉他
们发生的修改。
第四封邮件和第五封邮件都是广州分公司的网络管理系统发出的。第四封邮件中,事件管理系统报告说,分公司的一台交换机有几个端口出现了故障,需要安排工程
师进行修理。该邮件同时也发给了广州分公司的系统管理员。第五封邮件则报告说,值班管理员已经及时排除了这一故障,并关闭了这一事件的处理过程。
小朱长长的出了一口气,对ABC这样在全国10个大城市都有分公司的企业来说,今天的IT状况还算是正常。小朱不禁想起刚进公司的日子,那时公司还没有按
照ITIL标准对IT服务进行统一,正规的管理,更缺乏完善的IT环境管理系统,那可真是一段忙得鸡飞狗跳的日子,几乎所有的系统管理员和IT服务人员都
疲于奔命。
4.2.2 集中的管理模式
小
朱看了看剩下的新邮件,一封是人力资源部发来的IT服务请求,下周一有六个新同事要进公司,有三个是总公司的,三个在外地,分别在不同的部门,需要不同的
访问权限。小朱统计了一下,这些新同事一共需要在公司的十四套系统上拥有不同的访问权限,其中有四个系统位于外地分公司。
在过去,完成这样的工作需要下面的步骤:
1. 用系统管理人员的身份登录到一个系统;
2. 在该系统中,创建六个新的用户,并赋予不同用户以相应的权限;
3. 退出系统;
4. 重复以上三个步骤十三遍。
一共需要四十二个步骤!这可真不是一个轻松的工作。
但是这样的悲惨境遇已经成为了过去。改变发生在IT服务中心引进企业用户认证和管理系统之后。
现在,所有的工作都可以在一个集中的平台上完成。而完成的步骤变成了这样:
1. 用系统管理员的身份登录统一的用户管理系统;
2. 在系统中完成六个新用户的定义,并为每个用户赋予他们在十四个系统中的应有权限;
3. 完成定义,退出系统。
剩下的都是用户管理系统的工作了,它会自动在十四个系统中完成相应的定义操作。
完成同样的工作从四十二个步骤变为了三个步骤。这还算一个轻松的工作。
当完成相应的操作后,小朱关闭了这个IT服务请求,小朱接到请求的时间,完成工作的时间,和所提供的服务都被服务管理系统记录了下来。
还剩下最后一封邮件了,是安全部门发出来IT服务请求的,又一种新型的木马病毒出现了,专门攻击Windows
2000操作系统的“后门”,安全部门要求全公司所有安装Windows2000操作系统的计算机在下周一之前全部安装上最新的补丁程序。下周一之前?那
就是这周五?今天!安全部门的同事总爱有这种故弄玄虚的紧急服务。全公司安装了Windows
2000操作系统的计算机至少有1000台,分布在全国10个大城市里。在过去,这样的要求几乎是不可能完成的任务。但现在,自从有了企业软件分发系统之
后,这已经不再是一个难题。
事不宜迟,小朱立即登陆上微软的网站,下载了最新的补丁程序。然后把补丁程序放到了企业软件分发系统中,小朱在系统中定义好策略,对所有安装有
Windows2000操作系统的计算机进行定时的软件分发和安装。每台接受分发和安装的计算机无论是成功完成安装,或者安装失败都会反馈一条信息,标明
自己的状态。
完成这一工作后,小朱看了看表,已经快到中午了。预计所有安装工作完成后的时间是今晚12:00,下周一小朱可以从事件管理系统的反馈信息中获知所有计算机安装补丁程序的情况,并处理一些安装不成功的意外。
4.2.3紧急事故的处理
午
饭后,小朱回到办公室开始开始整理制作自己的报告。报告分两个,一个是IT事故处理报告,一个是IT服务请求处理报告。由于整个IT服务管理系统中记录了
所有的相关信息,例如事故发生的时间,影响的程度,接受事故的管理员,接受的时间,完成处理的时间,事故处理过程等等,所以报告的制作工作并不复杂。
突然,电脑提示收到一封事件警报邮件,几乎同时,另外三封事件报警邮件也发到了小朱的信箱。桌上的电话也突然响起,是营业部的同事打过来的,反映说无法接收邮件。小朱迅速查看了事件管理系统和业务管理系统。
事件管理系统中记录了故障发生前后,企业内部所有的故障信息和警报信息,并提供了综合的故障根源智能诊断工具。而业务管理系统则把公司内部的业务营运系统
和IT系统进行了紧密的整合,从而服务人员可以从一个直观的拓扑图上看出,IT系统的故障对企业业务运营的影响。因此综合利用这两个系统可以帮助服务人员
更快,更准确的确定问题发生的根源,并了解故障发生可能对企业的哪些业务造成影响。
经过紧张的排查,小朱得出结论是:网络中心的一台交换机出现了故障。由于该交换机上连接着公司的营业部邮件服务器,库存数据库服务器和人力资源的数据库服
务器,所以将直接影响到公司内营业部,生产部和人力资源部的正常生产。小朱迅速联系网络中心,并安排网络工程师到现场启用了备用的交换机。20分钟后,网
络恢复正常,一场紧张的一级生产事故就此解决。
在事件管理系统里,IT小朱记录了事故发生的事件,原因,解决事故所花费事件和处理经过。同时,小朱在IT服务管理系统里记录了向网络中心工程师提出服务
要求的时间,以及完成服务的时间,完成效果等等。这些信息以后将会用作对网络中心所提供IT服务效率和水平的评价。
小朱继续整理自己的报告,并把今天处理的事件,今天响应的服务请求等都写进了报告。报告上清楚的记载了每一次事件发生和结束的时间,相应的处理经过,和很
多统计数据,例如本周服务效率相对上周而言所发生的变化等等。下午四点,小朱长长的舒了一口气。报告做完了,本周的工作顺利结束。
接下来是一个轻松愉快的周末。