分类: 系统运维
2020-11-18 14:49:09
“维基百科”是这样定义事件管理(Event Management)的,事件管理是项目管理在大型活动创新和发展中的应用,如节日、会议、庆典、婚礼、聚会、音乐会等。这里面包含了品牌研究、目标受众确定、活动概念设计,以及活动实际发生前的技术协调。
如果我们把这个概念投射到IT领域,事件管理就是为了实现某个特定的业务诉求,将事务状态变化信息与人员响应进行联动的一系列过程。
事件管理的目标是检测并记录这些事务状态的变更,以便获得对业务风险和商业机会的完全可见性。例如:用户登录,转账失败,业务系统版本升级,数据备份,服务器维护完成,这些都是团队需要跟踪的变更。尽管这些变更并不直接反映服务质量的下降,但它们可能会暗示存在影响用户体验的潜在风险。因此,全面的收集事件信息,确定响应优先级,并采取相应的措施,就变得非常关键。
随着商业模式和IT支撑环境复杂性的增加,团队需要管理的事件规模也呈指数级增长,但管理事件的人员数量却没有得到增加。现在,许多团队每天都在和成千上万甚至数百万事件打交道,受限于资源投入,几乎不可能有效地将高价值信息与噪音从海量事件中分离出来,以洞察风险和机会。
而这正是事件管理解决方案的核心能力所在。事件管理平台通过集成能力对接和汇聚事件,过滤噪音,识别风险,并通知适当人员进行相应的操作。随着企业数字化转型的加速和IT交付风险的增高,通过集成化的事件管理平台提升事件和关联行动间的处理效率,比以往任何时候都更加重要。
事件相关概念的定义
在深入事件管理这个话题之前,我们需要对三个概念进行简要的剖析,以便后续更准确的理解事件管理的含义和价值。
这三个概念分别是Event(事件),Alert(告警)和Incident(事件集)。其中,事件和告警比较容易理解和区分,但是Event和Incident在中文语境中通常都被翻译为事件,容易造成混淆,为了对二者加以区分,我们将Event称作事件,Incident称作事件集。下面是这三个名词的具体定义和说明:
l Event 事件,是事务状态在某个时间点的客观描述,没有好坏之分。它由一个或多个相关指标的状态信息组成,这些指标状态可被监控、分类和变更。例如:2020/5/6 13:27:34,10.1.1.1,磁盘空间利用率为51%。2020/5/1 09:29:32,13900000000,充值100元成功。
l Alert 告警,是主观判定的事务异常状态的描述。它由监控(或其他)工具产生,反映事物指标的异常。例如:2020/5/6 17:25:18,10.1.1.1,磁盘空间利用率为64%,高于60%,警告级别告警。一般来说,事件和告警本身并不影响客户体验和业务运行,不需要人员进行介入处理。
l Incident 事件集,是由一个或多个相关事件和告警组成,反映业务运行或用户体验问题。例如:我们将10.1.1.1服务器的几个磁盘相关告警(磁盘空间利用率高于60%,磁盘空间利用率高于80%,磁盘空间已满)组成一个事件集,这个事件集反映了业务服务质量持续下降,影响了客户体验。事件可能不是事件集,因为事件也许并没有任何实际的客户影响,但是所有事件集都是事件,因为事件提供了正在发生的事情集的原始上下文。
事件管理最高效的方式是以人为中心,将人和反映业务故障的事件集进行结合,而不是人员将时间浪费在处理海量的邮件和电话轰炸上,在大量的原始事件中发现和诊断问题。
为什么事件管理如此重要
虽然我们的企业准备了非常详尽的业务连续性保障计划和应急预案,但是业务环境复杂度的不断攀升和行业竞争的进一步加剧,对业务风险和商业机会的应对效率也提出了更高的要求。收集更加全面的信息,运用智能化的手段,帮助团队实时评估风险和收益,提升反应速度和准确性,就变得至关重要。事件管理平台运用事件流处理和人工智能技术将这一过程自动化,充分挖掘海量事件中的核心高价值信息,并将风险和机会与人员进行关联,运用现代化的通讯和协作工具,提供更加便捷、全面、准确的事件评估和响应。
事件管理的价值还包括:
l 更主动的风险防范
l 更快速的业务恢复
l 更高效的团队协作
l 更敏捷的实时响应
事件管理可帮助组织定义检测和催化对任何会影响服务管理和性能的事件的正确正确响应的外观。
事件管理的核心能力
事件是对事务状态的客观描述,有效的事件管理计划和战略是一个跨场景、端到端的处理流程,能够降低或消除风险带来的影响,挖掘和拓展新的商业机会,提升团队的响应速度,并优化产出结果。
事件管理包括以下三个方面能力:
l 集成化
收集和获取更加全面的事件数据,是更加精准的进行风险评估和商机挖掘的前提。与企业数字化生态广泛的建立连接,实现实时的事件接收和消息推送,确保事件在系统和人员间进行快速的流转。
l 智能化
结合丰富的上下文数据,主动对风险和机会进行分类、筛选、检测,并将该信息与资产、人员相关联,在损失真正造成前预判,帮助团队成员准确的掌握业务状态和威胁,避免误漏,更好的进行决策。
l 流程化
无需大量人工参与,自动化的处理流程帮助团队在风险和机会尚未确认前自主开展工作。在问题处理过程中,事件按照既定的分派策略和通知方式在团队成员中自动进行流转,进一步提升应对效率,确保行动的有效性。
典型的事件管理流程
1.事件接入
事件和告警由特定的工具检测生成,并集成到统一的处理平台。
2.事件处理
针对不同事件源产生的事件,通过数据格式化,自定义数据提取和数据内容丰富进行数据治理,并将重复和冗余的噪音剔除,再通过规则或算法生成反映业务问题的事件集。
3.事件分派
根据事件集的特征,将通知在第一时间动态路由到个人、组、协作团队,并通过流程化管理确保事件信息和人员间无缝衔接。
4.事件响应
事件处理人员根据自身的条件,在PC端、移动端、协作工具中对事件进行认领、指派、协同、转发、关闭等操作。
5.事件解决
在问题解决后,将处理过程记录到事件解决方案中,沉淀知识以指导后续类似场景的处理。
事件管理的应用场景
l 智能运维 AIOps
智能事件管理整合 IT 监控工具告警信息,智能化降低95%告警噪音,自动化事件管理流程,加强团队协作,加速故障定位和修复,将业务影响降到最低。
l 安全信息事件管理 SIEM
汇聚企业内、外部安全事件,通过规则引擎和事件流处理引擎,实时洞察安全风险,并利用灵活的事件处置流程,帮助团队主动应对安全事故。
l 物联网应用 Internet of Things
将智能设备、传感器的事件信息在物联网边缘节点和核心节点实时进行汇总、加工,通过事件流式处理,捕获和发现新的数据模型,挖掘更多高价值应用场景。
l 业务分析 Business Analysis
打通业务运营和 IT 支撑的数据边界,从系统中实时获取更多的业务数据,帮助团队对影响业务的事件做出快速、正确的反应。在危机时刻,掌控混乱局面。