Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1022336
  • 博文数量: 197
  • 博客积分: 4141
  • 博客等级: 中将
  • 技术积分: 2263
  • 用 户 组: 普通用户
  • 注册时间: 2009-03-21 20:04
文章存档

2019年(32)

2016年(1)

2014年(16)

2011年(8)

2010年(25)

2009年(115)

分类: 系统运维

2019-02-22 14:18:35



  1. D. Google SRE 管理 - 培训SRE
  2.     培训课程
  3.         正确的方式
  4.             设计一个具体的,有延续性的学习体验,以便学员跟进
  5.             鼓励反向工程,利用统计学来思考问题,以及多思考问题本质
  6.             鼓励学员分析失败的案例,分享好的事后总结来阅读
  7.             创造一些受控的,但是逼真的场景让学员利用真实的监控环境和工具来修复
  8.             在团队内以角色扮演的形式演习理论上可能发生的问题,让大家在这个过程中交流彼此的解决问题的方式
  9.             给学员创造条件让他们参与见习on-call,和实际轮值的on-call工程师交流经验
  10.             让学员和SRE老手一起共同修订培训计划中的某个部分
  11.             帮学员一起找到一个具有一定复杂度的项目,帮助它们在整个技术栈内建立自己的地位
  12.         错误的方式
  13.             通过给学员安排一些烦琐的工作(处理警报/工单)来培训
  14.             要求按照现有的操作过程,检查列表,或者手册来执行命令进行训练
  15.             将故障掩盖起来,以便躲避指责
  16.             在学员加入on-call之后,第一次遇到问题时才会去尝试修复
  17.             在团队中将只是隔离起来,创造出一些只在某个领域内的专家
  18.             在学员还没有对服务有全面认识的情况下,就要求它们成为主on-call
  19.             认为on-call培训素材是静态的,非专家不可更改
  20.             将新项目全部分配给SRE老手,新手SRE只能做一些零工
  21.     培训计划
  22.         集中精力学习
  23.             第一阶段
  24.                 阅读事后总结
  25.                 反向工程/随机应变
  26.             第二阶段
  27.                 灾难演习角色扮演
  28.                 破坏并修复真的东西
  29.             第三阶段
  30.                 修改文档
  31.                 见习on - call
  32.         加入on-call --- 项目工作与责任感
  33.         持续学习
  34.     具体执行
  35.         培训初期:重体系,而非混乱
  36.             系统性,累计型的学习方式
  37.                 案例一:负责一个实时,直接面向用户的服务系统培训顺序
  38.                     1. 请求是如何进入系统中网络和数据中心的一些基本概念,前端的负载均衡系统,代理等
  39.                     2. 前端服务应用程序前端,日志记录,用户体验SLO等
  40.                     3. 中层服务缓存,后端负载均衡系统
  41.                     4. 基础设施后端,基础设施,计算资源管理等
  42.                     5. 整体调试的一些技巧,问题升级的流程,紧急情况的演练
  43.         目标性强的项目,而非琐事
  44.             目标明确:希望SRE在项目中获得什么样的能力
  45.             案例
  46.                 通过增加监控点,了解监控逻辑
  47.                 选择一个没有自动化的痛点,从而减轻团队负担,帮组融入团队
  48.                 通过在技术栈中增加一个小,用户可见的功能点,跟随修改一起发布到线上,了解整个发布流程
  49.         培养反向工程能力和随机应变能力
  50.             反向工程:弄明白系统如何工作了解原理,调试工具
  51.             统计学和比较性思维:在压力下坚持科学方法论
  52.             随机应变能力:当意料之外的事情发生时怎么办
  53.             将知识串联起来:反向工程某个生产环境服务
  54.     好的SRE工程师的特点
  55.         对事故的渴望:事后总结的阅读和书写
  56.         故障处理分角色演习
  57.         破坏真的东西,并且修复它们
  58.         维护文档是学徒任务的一部分
  59.             对学员来说
  60.                 了解运维系统的边界
  61.                 了解系统重要的组件,以及背后的原因
  62.             对导师和管理者来说
  63.                 了解学员学习进度可以通过检查列表来反映比如说学到了哪一节
  64.             对其他团队成员来说
  65.                 文档成为一种社会契约,只有掌握了这个文档的员工才能加入on-call
  66.         尽早,尽快见习on-call
  67.     on-call之后:通过培训的仪式感

阅读(1039) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~