Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1121111
  • 博文数量: 197
  • 博客积分: 4141
  • 博客等级: 中将
  • 技术积分: 2263
  • 用 户 组: 普通用户
  • 注册时间: 2009-03-21 20:04
文章存档

2019年(32)

2016年(1)

2014年(16)

2011年(8)

2010年(25)

2009年(115)

分类: 系统运维

2019-02-22 11:05:41



  1. B. Google SRE指导思想
  2.     拥抱风险
  3.     服务质量目标
  4.         服务质量指标
  5.             常见指标
  6.                 错误率
  7.                 系统吞吐量
  8.                 可用性
  9.                 持久性:数据能够完整保存的时间
  10.                 等等
  11.             分类
  12.                 通用的指标:正确性
  13.                 用户可见的服务系统:可用性、延迟、吞吐量
  14.                 存储系统:延迟、可用性和数据持久性
  15.                 大数据系统:吞吐量、端到端延迟
  16.             汇总
  17.                 平均值:掩盖分布变化和受长尾效应影响
  18.                 分布(百分位)
  19.             标准化:需要形成SLI模板
  20.                 汇总间隔:每 1 分钟汇总一次
  21.                 汇总范围:集群中的全部任务
  22.                 度量频率:每10秒一次
  23.                 包含哪些请求:从黑盒监控任务发来的 HTTP GET请求
  24.                 数据如何获取:通过监控系统获取服务器端信息得到
  25.                 数据访问延迟:从收到请求到最后一个字节被发出
  26.         服务质量目标:某个指标的目标值或者目标范围
  27.             目标定义
  28.             目标的选择
  29.                 不要仅以目前的状态为基础选择目标:例如系统重构会影响到SLO等
  30.                 保持简单:质量指标尽可能的简单
  31.                 避免绝对值:目标以区间为宜,系统在没有延迟增长的情况下无限扩张或许能够做到,但是代价也是巨大的
  32.                 SLO越少越好
  33.                 不要追求完美
  34.             案例:Chubby:计划内停机。当Chubby的SLO远超预期的时候,会人为地停止服务,从而找出哪些服务对Chubby不合理的依赖。
  35.         服务质量协议
  36.     分布式系统监控
  37.         观点
  38.             Google趋向于使用监看和快速的监控系统配合高效的工具进行事后分析。我们会避免任何“魔法”系统 --- 例如试图自动学习阈值或者自动检测故障原因的系统
  39.         监控类型
  40.             白盒监控
  41.             黑盒监控
  42.         4个黄金指标
  43.             延迟:处理某个请求所需要的时间
  44.             流量:HTTP请求数量,或者网络I/O速率,或者并发会话数
  45.             错误:有可能是显示错误、隐式错误(返回错误信息)、或者策略性错误(比如说超过1s返回就算错)
  46.             饱和度:很多服务在资源占用达到100%之前,性能就已经严重下降了
  47.         长尾问题:例如平均响应时间100ms,但是1%的请求会占到5s
  48.             分位数统计
  49.             分组:比如说0~10ms请求数,30~100ms请求数,等等
  50.         不同指标采用不同的精度
  51.             比如
  52.                 CPU 1分钟的平均负载,可能措施峰值
  53.                 年度可用性在99.9%的服务每分钟检测1~2次可能过于频繁
  54.                 年度可用性在99.9%的服务每分钟检测磁盘容量可能过于频繁
  55.                 等等
  56.         战术
  57.             短期可用性和长期可用性之间的冲突和平衡
  58.     自动化系统
  59.         琐事
  60.             手动性
  61.             重复性的
  62.             可以被自动化的
  63.             战术性的
  64.             没有持久价值
  65.             与服务同步线性增长
  66.         价值
  67.             一致性:如果是人工操作,无法保证针对同一个故障每次操作结果都是一致的
  68.             平台性
  69.             修复速度快
  70.             行动速度更快
  71.             节省时间
  72.         类型
  73.             脚本自动化
  74.             Borg/Kubernetes
  75.             上线自动化
  76.     发布工程

阅读(1001) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~