网络事件管理是运行组织 IT 网络不可或缺的一部分,网络事件管理的{BANNED}最佳终目标很简单:在发生中断时尽快恢复服务或功能。但是为了高效和一致地进行,IT 运营团队需要时刻保持警惕,不断了解网络事件,并且必须系统地遵循一套程序。
什么是网络事件管理
从纯粹的定义来看,事件管理是通过尽快恢复全部功能来{BANNED}最佳大限度地减少事件的整体影响的过程。从网络的角度来看,事件可以是不可预见的网络中断、服务质量的不一致(如带宽波动),或者可能影响将来对用户或客户的服务的事件。
网络事件管理的优点
-
网络事件管理会创建过去事件的记录,正确的文档可以帮助团队改进他们的网络管理实践。
-
记录过去的事件还可以确保避免或迅速解决重复事件。
-
有效的沟通和事件管理是密不可分的,其结果是提高了组织中相关参与者的透明度。
-
收集的事件数据可用于分析趋势和模式。
-
现有的系统大大降低了网络中断的风险。
-
从事件到服务恢复的更快周转时间可确保提高客户满意度。
事件类型
可以根据它们所影响的网络组件对事件进行分类。
-
硬件:网络设备可能会出现故障、运行缓慢或中断。服务器、CPU、路由器、显示器和打印机等关键硬件都容易出现中断。
-
软件:与软件相关的问题可能会影响对组织至关重要的内部应用程序。这还可能包括影响防病毒软件或操作系统的问题,这些问题可能会降低网络速度。
-
安全性:与安全相关的事件是对网络的活跃和潜在威胁,这可能导致数据泄露并危及整个基础设施。
-
网络:在网络级别,事件可能与协议、关键网络设备或其他构成正常网络功能的基础设施组件相关。例如,影响 DHCP、VPN、IP 地址、DNS 等的事件。
-
数据库:数据库是网络的基础。此区域中的事件可能与 DB2、Oracle、MS SQL Server 或其他遇到瓶颈的数据库有关。
网络事件管理流程
一个完善的事件管理框架为实践中的高效事件管理奠定了基础。有了适当的流程,组织可以在团队之间实现完美的协同和清晰,问题的严重性、应该由哪个团队处理事件以及解决问题的{BANNED}最佳佳时间都是决定整个过程效率的关键因素。
-
识别并记录事件
-
确定事件的优先级
-
调查和事件响应
-
事件解决
识别并记录事件
当 IT 运营团队的成员不可避免地发现网络中出现问题时,应该对其进行记录和跟踪,使用正确的工具来报告和记录问题,技术人员可以快速检测到事件。网络监控工具还可以自动检测和报告事件,并与{BANNED}最佳终用户进行通信。
确定事件的优先级
在系统中正确记录事件之后,对任务进行细分和优先级排序至关重要,这使管理员可以快速确定排除问题所需的时间、是否需要升级以及哪个团队将处理事件。可以根据发生事件的网络层或区域(即网络、云或虚拟)创建类别。
分类有助于创建过去事件的知识库,帮助管理员独立分析事件以防止未来事件的发生。此外,还可以根据严重性表示事件,如高、中、低。对事件进行优先级排序带来了秩序,并允许对它们进行分类,使IT团队能够自动处理低优先级或重复的事件,并集中所有精力来解决更严重的事件上。
在大多数组织中,事件根据严重程度进行分类,如L1、L2和L3.
-
L1(Level 1)事件:属于此类别的事件是指发生量较大但也可以快速解决的事件,IT 运营人员选择自动执行大部分 L1 任务,以便他们可以专注于解决更严重的事件。
-
L2(2 级)事件:L2 事件是更复杂的问题,可能会破坏网络并阻碍其平稳运行。因此,L2 事件需要具有该领域特定知识的熟练工作人员的参与。
-
L3(3 级)事件:L3 事件是在网络中更大规模发生的问题。像这样的重大事件很少发生,但一旦发生,它们可能会对基础设施造成巨大的损害。L3 事件需要专业知识和协调,这就是为什么它们需要在该领域具有重要专业知识的人员的关注。
调查和事件响应
一旦事件有序地分类,IT 运营人员就会开始调查和解决问题,通过以过去事件的强大知识库作为参考,可以有效地调查和解决事件。根本原因分析用于检测问题的根本原因,然后,事件管理团队可以努力快速解决有问题的 IT 服务。
在事件管理中,自动响应事件的团队是一级团队,日常事件在很大程度上可以由一级团队解决。但某些事件需要更多的关注和专业知识,需要上报给更专业的团队。由于拥有更多的专业知识和资源,升级团队将擅长解决复杂的任务。
事件解决
处理事件的技术人员专注于尽快解决问题,以便网络能够重新联机。问题解决后,与相关人员进行及时、清晰的沟通至关重要,这将验证所有受影响的团队是否可以继续他们的工作。当所有相关者确认并对服务的恢复感到满意时,事件就结束了,事件将关闭并记录解决方案。
简化网络事件管理
的网络监控功能,可深入了解关键网络组件的性能,包括路由器、交换机、防火墙、负载均衡器、无线局域网控制器、服务器、虚拟机(VM)、打印机和存储设备。
-
网络监控:通过预定义的、特定于设备的监控工具获得深入的可见性,监控所有设备的可用性、性能、流量和其他参数。多级阈值和即时通知支持有助于主动网络管理。
-
物理和虚拟服务器监控:监控服务器的系统资源,如 CPU 使用率、内存消耗、磁盘使用率和进程数。支持监控Hyper-V、VMware、Citrix、Xen和Nutanix HCI服务器。
-
根本原因分析(RCA):为要解决的问题创建 RCA 配置文件,汇总了设备的性能数据,帮助管理员比较、分析和找到问题的根源。
-
警报:随时随地了解网络中发生的情况。告警系统通过各种通知配置文件(如短信、电子邮件、slack消息、Web告警等)即时提醒管理员潜在的中断。还可以配置为运行预定义的脚本,来自动执行一级故障排除。
-
报表:内置的报表系统可帮助管理员了解历史数据,分析增长趋势和调用资源优化。这些报告有助于预测存储问题并执行容量规划。