B. Google SRE指导思想-micklongen-ChinaUnix博客

micklongenmicklongen.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

micklongen

博客访问： 1292188
博文数量： 196
博客积分： 4141
博客等级：中将
技术积分： 2253
用户组：普通用户
注册时间： 2009-03-21 20:04

文章分类

全部博文（196）

智能运维（19）

用户体验（0）

根因分析（0）

故障预测（0）

容量规划（2）

异常检测（5）

Google SRE（9）

智能运维概述（3）
系统架构（0）
人工智能（0）
测试（12）

白盒测试工具（Ja（6）

白盒测试工具（C+（6）
数据结构和算法（32）

模拟题（7）

其他（1）

博弈（4）

搜索（4）

数论（2）

图论（8）

动态规划（5）
操作系统和虚拟机（45）

Smart-VM虚拟机(（13）

Lguest源码分析（22）

FOS操作系统(本科（5）

Minix（1）

文档（4）
编译器和解释器（35）

MongoDB SQL（1）

Jack编译器（5）

nasm移植（5）

一个简单的BASIC（1）

nasm汇编器源码剖（23）
调试和调试器（14）

Dosdbg调试器分析（1）

调试器工作原理（13）
计算机网络（16）

Windows网络编程（8）

TCP/IP 协议详解（8）
搜索引擎（3）

TSE（3）
编程杂记（16）

计算机安全（2）

镜像工具开发（2）

ELF（3）

编程感悟（1）

malloc v2（3）

malloc v1（2）

函数分析（3）
其他（4）

中文编码（4）
未分配的博文（0）

文章存档

2019年（31）

2016年（1）

2014年（16）

2011年（8）

2010年（25）

2009年（115）

我的朋友

相关博文

B. Google SRE指导思想

分类：系统运维

2019-02-22 11:05:41

B. Google SRE指导思想
拥抱风险
服务质量目标
服务质量指标
常见指标
错误率
系统吞吐量
可用性
持久性：数据能够完整保存的时间
等等
分类
通用的指标：正确性
用户可见的服务系统：可用性、延迟、吞吐量
存储系统：延迟、可用性和数据持久性
大数据系统：吞吐量、端到端延迟
汇总
平均值：掩盖分布变化和受长尾效应影响
分布（百分位）
标准化：需要形成SLI模板
汇总间隔：每 1 分钟汇总一次
汇总范围：集群中的全部任务
度量频率：每10秒一次
包含哪些请求：从黑盒监控任务发来的 HTTP GET请求
数据如何获取：通过监控系统获取服务器端信息得到
数据访问延迟：从收到请求到最后一个字节被发出
服务质量目标：某个指标的目标值或者目标范围
目标定义
目标的选择
不要仅以目前的状态为基础选择目标：例如系统重构会影响到SLO等
保持简单：质量指标尽可能的简单
避免绝对值：目标以区间为宜，系统在没有延迟增长的情况下无限扩张或许能够做到，但是代价也是巨大的
SLO越少越好
不要追求完美
案例：Chubby：计划内停机。当Chubby的SLO远超预期的时候，会人为地停止服务，从而找出哪些服务对Chubby不合理的依赖。
服务质量协议
分布式系统监控
观点
Google趋向于使用监看和快速的监控系统配合高效的工具进行事后分析。我们会避免任何“魔法”系统 --- 例如试图自动学习阈值或者自动检测故障原因的系统
监控类型
白盒监控
黑盒监控
4个黄金指标
延迟：处理某个请求所需要的时间
流量：HTTP请求数量，或者网络I/O速率，或者并发会话数
错误：有可能是显示错误、隐式错误（返回错误信息）、或者策略性错误（比如说超过1s返回就算错）
饱和度：很多服务在资源占用达到100%之前，性能就已经严重下降了
长尾问题：例如平均响应时间100ms，但是1%的请求会占到5s
分位数统计
分组：比如说0~10ms请求数，30~100ms请求数，等等
不同指标采用不同的精度
比如
CPU 1分钟的平均负载，可能措施峰值
年度可用性在99.9%的服务每分钟检测1~2次可能过于频繁
年度可用性在99.9%的服务每分钟检测磁盘容量可能过于频繁
等等
战术
短期可用性和长期可用性之间的冲突和平衡
自动化系统
琐事
手动性
重复性的
可以被自动化的
战术性的
没有持久价值
与服务同步线性增长
价值
一致性：如果是人工操作，无法保证针对同一个故障每次操作结果都是一致的
平台性
修复速度快
行动速度更快
节省时间
类型
脚本自动化
Borg/Kubernetes
上线自动化
发布工程

阅读(1410) | 评论(0) | 转发(0) |

上一篇：A. Google SRE概述

下一篇：B. Google SRE指导思想 - 拥抱风险

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6