发布时间:2019-05-14 22:23:39
运维背景知识A. 运维体系:SRE/CRE A. Google SRE概述B. Google SRE指导思想B. Google SRE指导思想 - 拥抱风险C. Google SRE 实践C. Google SRE 实践 - 产品发布D. Google SRE 管理D. Google SRE 管理 - 培训SRED. Google SRE 管理 - SRE参与模式E. Google SRE 其他行.........【阅读全文】
发布时间:2024-08-16 11:56:37
当前,IT 基础设施的复杂性日益加剧,而与此同时,系统可靠性的高标准需求愈发凸显,众多系统需实现近乎不间断的 7×24 小时服务。企业普遍对关键系统设立了严格的服务水平协议(SLA)指标,这些系统的最低可靠性标准常设定为三个 9 的可用性,即全年故障时间不得超过 8.76 小时。鉴于此,迅速识别并定位根本故障原因(根因分析)变得至关重要。
然而,面对庞大且错综复杂的 IT 基础设施,加之多部门间的紧密协作需求,如何高效地进行故障定位成为了巨大挑战。这恰好是本课程探讨的核心议题:是否存在利用软件手段来加速故障定位过程的方法?如果存在,具体的实施策略又是什么?
在深入探讨之前,让我们先对根因分析进行简要概述,以确保我们的理解基础一致。......【阅读全文】