《手机微博LNMP平台精细化运维》
产品线运维
? 事务跟进、资源分配
? 方案设计、系统优化
? 配管部署(AOE,Automatic OperationEnvironment)
? 监控(快速发现)
? Zabbix + Plog Framework + monit
? ZabbixSort + ZabbixTimeline
? Log、Log Search 以及问题挖掘(快速定位)
? Rsyslog
? ELK+ERK
? SLA 服务质量分析系统(问题回顾、评估、多角度分析、报表
配置管理
AOE
? Puppet Based
? Configuration version support (SVN)(正常的配置管理描述文件是定义在类似于SVN这种软件基线里面)
? 多产品线支持(覆盖全部的产品线各类业务支持)
? 权限控制(需要控制权限,不同的业务权限不一致)
? 审核
软件包标准化
? RPM Package
? /etc, /bin, /sbin, /usr/bin, /usr/sbin, /var/run
? /data1, /data0 存储业务相关的代码,日志
? 配管AS A Service
? ticket
监控
监控项的设计是监控工作中最重要的环节
? 最小粒度原则,单机单项
? 汇总功能由监控系统完成
? 覆盖广度+深度
? OS (cpu/mem/disk/network……)
? APP(Nginx/PHP-FPM/Rsyslog/Twemproxy/ATS)
? Business(Plog )
APP 级别的监控(应用监控JVM级别)
? 复用server程序提供的监控接口
? Nginx (accepts/handled/requests/Reading/Writing/Waiting)
? PHP-FPM (accepted conn/listen queue/idle processes/activeprocesses/slow requests)
? ……
Business (业务监控基于日志处理)
? 基于日志实时计算(Real time )
? Nginx日志、业务接口的curl 请求日志……
? 对php->mc、php->mysql 也有效……
? Plog
?
? Plog 是"Parse Log" 的缩写,是一套处理日志流的框架,日志流格式可以是Apache,nginx等常规意义的日志格式,也可以是自定义格式
ELK及ERK(抽空调研一下)
grep/awk 只能应用于单机
SLA数据分析系统
需要将线上的日志拉回来好好分析一下。看看是不是有异常情况出现。
《快速发展中公司 研发及运维自动化技术体系》
?青龙自动化发布系统——灰度发布、分区发布
?龙潭运维配置自动化系统——运维系统自动发现、标准化配置
?变色龙原子指令系统——支持数百台服务器、数百个原子脚本操作
?龙猫云搜索平台——支持数百个索引、上亿条数据
?蓝鲸推荐计算平台——支持数亿用户数据计算
?白虎API自动化测试系统、Mock模拟测试系统——支持接口的自动化测试、模拟测试、Web自动化测试
?API放水系统、SQL防水系统——治理系统不合理调用
?雷达实时日志系统——支持Nginx、Tomcat、BI实时日志和离线跟踪
?雨燕分布式开发框架——统一分布式通信
?闪电配置分发系统——支持配置项、集群服务发现
?MQ分布式消息中间件(推模式IDP、拉模式Kafka)——1500w/周一~周五,600w/周六日
?KV分布式缓存系统中间件(Memcached、Redis、Tair)——亿级数据缓存、95%命中率
?LPFS分布式文件中间件(MongoDB)——MongoDB、图片、文件
?DB数据库分库分表中间件(MySQL)——无限数据量扩展
?分布式任务调度中间件(Schedule)——支持100+服务、200+/日个分布式任务调度
?Push统一消息推送平台——每日100w+推送量,推送至Android、iOS、Email、SMS、微信、Comet
阅读(430) | 评论(0) | 转发(0) |