分类: 系统运维
2017-11-30 15:04:45
我们不要试图通过改变一个企业的运维流程,甚至是一个企业的运维部门的组织架构,这是不现实的。自动化运维工具或平台必须能够匹配现有企业的运维组织架构和运维流程;本文结合嘉维蓝鲸平台给出了自动化运维场景梳理的方法论。
【正文】
我们做自动化运维解决方案的3年,交流了非常多的传统企业客户,有些客户不惜重金从互联网公司挖了很多技术大牛,雄心万丈的准备实施自动化运维,但是最后能够达到目标,发挥自动化运维价值的客户却寥寥无几。为什么?传统行业客户的IT比互联网行业复杂,业务对自动化运维的要求也和互联网行业不一样,这些用户更多的关注在技术,而忽视了客户的系统架构和运维流程,忽视了自动化运维场景的详细的梳理。
那么应该如何梳理企业的自动化运维场景?我们结合成功客户的最佳实践和嘉为的经验给出梳理场景的方法;
一、 清楚了解用户信息系统架构
随着IT技术的发展,大多数客户的数据中心中有两种类型的应用系统和基础架构,包括传统的SOA架构和基于互联网云架构;参考下图;
传统SOA架构的特征,基础设施可能采用物理服务器或虚拟化技术,存储可能采用的是传统的光纤存储;应用架构是基于SOA的传统应用架构,包括Web前端,中间件及数据库,数据库的高可用采用Oracle RAC等;
互联网云架构的特征,基础设施采用的是IaaS云平台,如Openstack,存储采用的是软件定义的存储等;应用采用的是基于容器的微服务技术框架,如Dubbo和Spring Cloud等;
通过调研某制造行业客户,其应用系统全景图如下:
二、 调研用户自动化运维需求
1. 首先调研客户现有的运维管理系统,通过调研分析客户的运维成熟度情况;大多客户的运维管理系统包括:备份管理系统、容灾管理系统、监控系统、堡垒机系统、防病毒系统、批量作业系统、配置及资产管理系统、ITSM及服务台等;
2. 调研客户的自动化运维的整体需求,整体需求调研主要从以下四个方面:希望提升运维的效率;希望提升信息系统运行的稳定性;希望能够标准化IT基础架构;希望降低运维的成本,希望提升运维的安全性等等;
3. 自动化运维场景调研:针对客户特定的应用系统,特定的问题现状,调研自动化运维的场景;如数据库运维自动化,测试环境IT资源交付自动化;
三、 自动化运维场景分析方法论
1. 明确自动化运维的边界;
大多企业IT分为运维线和研发线,运维线和研发线交叉的任务是应用发布,如下图所示:
我们目前谈论的自动化运维,大多都聚焦在运维线的工作的自动化上;
2. 明确客户的运维流程,如金融行业(证券、保险、基金、银行)都有非常严格的运维流程的要求;其他行业也会有通用的流程要求,如ITIL,ISO20000,ISO27001等;
3. 分析客户自动化运维场景的方法(OASR模型);
通过OASR模型具体分析运维场景,首先了解运维对象,应用系统或基础架构;针对这些对象,有哪些常见的运维操作(运维操作类型,以及如何操作都是由运维对象决定的,例如针对Oracle数据库,我们有新建表的操作等);然后我们结合对运维人员调研的需求结合流程,形成对运维操作的编排和执行,就形成了运维的场景;
四、 经典场景阐述
1. IT工单自动化场景;
通过对ITSM运维工单分析,发现有很多的工单任务可以自动化去执行,如VPN权限申请,文件服务器权限申请,某应用系统权限申请,开通互联网访问;应用域名变更、磁盘空间扩容申请、应用开通防火墙策略;
2. IT资源交付自动化场景;
应用研发部门经常需要找运维部门申请资源,如何提高IT资源的交付效率,保障应用系统的快速上线?
我们梳理客户需要交付资源的场景,通过嘉维蓝鲸实现资源自动化的交付。
3. 告警处理自动化场景
通过对用户告警平台数据分析,大多数告警信息用户去解决过程中都有固定的操作流程,如重启进程、重启服务器、日志清理,表空间扩容等;自动化运维平台通过分析告警信息,自动化的进行告警的处理,并把处理的结果通知到用户;
五、 自动化运维带来的价值
自动化运维带给用户的价值主要从四个方面衡量:质量、效率、成本、安全;参考下图所示: