当今的IT运维剖析与管理
詹兴斌 , 2011/07/06 11:06 ,
运维经验谈 ,
评论(0) ,
阅读(1056) , Via 本站原创
| |
引用地址:
注意: 该地址仅在今日23:59:59之前有效
传统被动的、孤立的、分散的“救火队”式IT运维管理模式,让IT部门疲惫不堪。而且,随着公司业务模式的复杂化和多样化,更带来IT运营环境的复杂性和不确定性。在IT运维系统时,IT部门普遍面临多种问题。主要有以下几个方面:
(1)运维人员被动救火,工作效率低下
在IT运维过程中,IT员工工作太被动,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”不但使IT服务人员终日忙碌,也使IT服务本身质量很难提高,导致IT和业务部门的满意度都不高等诸多问题。
其中比较典型的例如IT部门响应服务需求时没有相应的时间记录工具,或者因为各种原因导致工作人员不愿使用工具记录工作情况,这样不仅不利于知识的积累和知识库的完善,更不利于处理过程的跟踪。
(2)流程规范不足,没有形成闭环跟踪
在运维流程方面,IT部门一直处于原始的状态。例如在事件处理流程上,存在以下几种典型的问题:①没有明确的事件升级标准,例如满足怎样的条件后,事件必须从一线转到二线支持工程师,再转到三线研发工程师处理。②没有事件的有限级定义标准,没有建立优先级和解决时限的关联关系,从而不能保证事件解决的实效性和IT资源的有效利用。③事件产生后没有明确而唯一的责任人,从而缺乏有效对事件监控和跟踪机制。④没有统一的IT服务管理对事件受理的界面,没有事件完整记录、没有及时反馈。
这些都使事件/服务请求处理过程中没有形成严格的闭环管理;没有建立明确的重大或紧急事件处理流程,从而不能保证在相应事件发生后有效及时地处理。对事件处理过程的记录比较分散,随意性很大,没有控制。更没有严格规范的流程政策和控制手段,使之存在太多的漏洞。整体运行维护情况无法一目了然,不能够清楚地知道各位员工的工作情况和工作状态,从而缺少对流程有效的监控和跟踪。
(3)缺乏运维技术工具
企业缺乏诸如事件监控和诊断工具等技术工具,事件不能在技术工具的支持下得到主动、快速处理。事件和工作任务在分派过程中没有相应的技术工具记录所有历史信息,不便于跟踪和分析;配置管理信息没有相关工具支持,以便为配置元素建立复杂的关系、状态等属性和提供相应查询功能。
总的来说,目前诸多企业在IT系统运维方面并没有高度重视,前期规划仅为解决短期IT建设问题。但随着企业规模的不断扩大,IT系统涉及的设备种类越来越多,对全系统的运营和维护管理提出了近乎苛刻的要求,而相对的则是IT运维的原始和落后的手段。
建立运维制度,关键在于规范
我们可以看出,在企业信息化发展到一定阶段,建设重点应该要从系统实施转向以应用运维提升为主,运维质量保障、安全机制变得重要起来,这时除了技术的保障以外,制度保障越显得重要。
作为CIO,应首先是一位管理专家,其次才是技术专家。由此,建立完善的IT运维制度是最主要的工作内容,是企业信息化有效执行和监督的立足点。IT部门本身管理不好,就不可能为业务部门提供满意的IT服务,业务部门对IT部门的满意度就会低,满意度低又会影响IT投资及新项目的开展,使IT部门陷入困境。所以建立高效规范的IT运维机制,是CIO走向战略管理的第一步。对于IT部门来说,可从以下几个方面来进行IT运维制度化。
(1)转变运维观念,树立规范化意识。树立只有建立制度化的IT运维意识,才能在日常繁杂琐碎的工作中有效的区分任务的优先级,将有限的资源投入到最能满足“客户”需要的工作中。
天下大事必作于细。那么,如何保证运维工作的“无微不至”呢?方法是把运维工作和制度化紧紧地捆绑到一起。没有规矩,不成方圆,运维工作很琐碎,关键在于规范而不是创新。只有各级运维技术人员一丝不苟、老老实实按规范做,才能够把事情做好。
(2)建立事件处理流程,强化规范执行力度。首先需要建立故障和事件处理流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。建立每种事件的规范化处理指南,减少运维操作的随意性,在很大程度上降低故障发生的概率。
同时,建立IT运维制度非常重要,但是有了制度还要有人去执行,要强化执行制度比建立制度更重要的观念和意识。因此,对于IT部门来说,即使由于人力、财力非常有限,难以系统建设ITIL(Information Technology Infrastructure Library, ITIL,信息技术基础架构库)流程,但是制度化的ITIL运维思想的引入仍然是必要的。
(3)设立ITIL服务台,引入优先处理原则
设立服务台以确定服务要求和IT运维目标,ITIL指南要求企业定义服务台的关键流程,不仅仅定义流程是什么,还包括它们是如何运作的,还要指出每个流程对企业有什么影响和意义。当应用ITIL中的IT服务台及服务级别协议思想,例行的事就有人处理了;有了服务级别协议,制定事件处理优先级次序,就可把事件再细分为例行事件和例外事件。
(4)最后要引入SLA管理。SLA(Service Level Agreement即服务水平协议),IT部门应该自发给自己负责管理的系统或者客户服务建立一个能够量化的运维目标,这样不仅能够务实地提高服务质量和管理水平,也能够在目标达成后作为团队工作改进的成绩得到肯定,提高IT人员的工作成就感。
IT运维制度化难以逾越的两大难题
在信息化的建设中,制度建设是一道必要的保障。信息化不能一蹴而就,一化就灵,信息化不是万能的,还要靠制度去保障、去规范使用者的操作行为。换一句话说,只有用严格的制度去约束人的行为,才能杜绝随意性。
但从IT运维制度实际情况看,IT运维制度在企业中并不受高度重视,面临着很多问题。IT运维制度的不完善,造成企业信息化发展不均衡和高失败率高,也是企业信息化不能深入开展的重要原因之一。目前企业在IT运维制度化存在难以逾越的两大难题:
(1)运维制度不完整、缺乏规范
从总体上看,目前企业信息化管理制度内容,侧重硬件和网络方面的制度管理,而缺乏对软件、IT流程管理、IT资源的内容管理,IT运维制度不能科学全面的覆盖各项信息管理工作,从而容易造成信息管理上的漏洞。
(2)IT运维制度流于形式,缺乏必要的约束力
由于IT运维制度体系不健全,IT运维制度多数成为企业项目建设档案保存或作为应付对企业相关检查的材料,IT运维制度只是形式。另一方面,对于违反制度的行为和相关人员没有直接处罚和约束,也影响到IT运维制度工作的权威性,从而制约着IT运维工作的深入开展。
参照ITIL建立成功运维系统的三要素
从IT运维的现状和发展趋势来看,ITIL(信息技术基础设施库)已经成为推进IT运维体系建设和日常操作管理的首要标准和“最佳实践”参照。ITIL是起源于英国政府自身IT管理需求开发的标准。对照ITIL的九层评估模型,可以发现许多企业目前在人员、流程、技术等三个方面存在很多问题。也就是说,在进行IT运维管理时,要在这三个方面齐头并进才能从总体上提升IT运维服务管理。
(1)人员组织:在IT运维中人员因素应该是首要考虑的因素。因为ITIL的应用实际上是一个管理活动,特别依靠人的积极参与来完成。在管理过程中,可能涉及到人员的职能、利益、思维模式、工作方式等的转换,产生的误解、消极和阻力不容忽视。因此,除了在制度安排、企业文化方面的工作以外,更要积极采取多方面措施诱导和疏通,包括服务意识培训、ITIL运维技能培养、发展规划和激励等方式。
(2)管理流程:运维流程设计是ITIL实施核心之一,它必须结合现状,既不是现有管理流程的直接转述和电子化,也不是完全依照最佳实践的照搬拷贝。①流程是分阶段的目标定义、设计、固化、评价和改进过程。②ITIL作为IT部门内部管理的流程,存在和外部流程的接口整合衔接的问题,需要在运维流程设计和流程自动化处理等环节中妥善解决。另外,还应该充分了解:运维流程既有需要严格执行的僵化一面,也有面向效果灵活变通的一面。
(3)技术工具:管理工具是指在IT运维管理过程中能够借助的用来提高服务质量和效率的所有工具的总称。对于企业来说,要特别关注两类工具:①IT运维监控和诊断优化工具;②流程自动化工具。这里需要提醒的地方是,许多企业特别重视IT运维工具本身,而常常忽视了ITIL所倡导的通过流程等制度约束和引导,才能更好的发挥效益。因此,即使没有引入ITIL运维流程以及电子化平台,也应该利用建立一些必要的运维纸质流程和制度,否则难以得到很好的应用。
总之,CIO想在IT系统运维过程获得最佳的效果,不是简单的单纯通过项目建设能够达到的,高效IT运维系统是需要一个持续改进、不断优化的长期过程。
转载自:
阅读(683) | 评论(0) | 转发(0) |