监控系统的核心模型分析-监控生涯-ChinaUnix博客

监控生涯的ChinaUnix博客moncareer.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

监控生涯

博客访问： 41089
博文数量： 5
博客积分： 192
博客等级：入伍新兵
技术积分： 70
用户组：普通用户
注册时间： 2011-03-01 21:24

文章分类

全部博文（5）

linux（0）
数据库（0）
项目管理（2）
监控系统（3）
未分配的博文（0）

文章存档

2011年（5）

我的朋友

相关博文

监控系统的核心模型分析

分类：系统运维

2011-03-02 22:29:50

在开发任何系统一个系统时，我们首先需要透彻分析系统所要解决的问题域，然后将问题域抽象映射到一个或几个关键的业务模型上，这样的业务模型决定了支撑系统的核心数据结构，在此我非专业地将此模型称为系统的核心模型。

没有比监控系统更为清晰的核心模型了。

找出监控系统的核心模型之前，我们首先必须弄清楚做监控的意义是什么？做监控是为了保证正常运营，那我们怎样才能保证运营呢？

我们需要将影响运营的各个关键环节监控起来，及时发现出现的问题和潜在的风险，那我们如何及时发现问题和风险呢？

首先，我们需要确定需要被监控的关键环节，称之为监控对象（object）；

其次，我们要采集监控对象的度量指标值，称之为指标值（value）；

最后，很关键的我们要对监控对象有个评价（例如错误、警告、正常）等，称之为状态（status）；

一句话概括，监控对象就是解决object处于什么status的问题，value作为status的证据和参考比不可少，因此object.status@value是监控系统的核心模型，简称OSV模型。

下面我们来举例说明：

例如我们要监控某服务器的cpu0的使用率，则利用OSV模型可以定义如下：

Object

Value

Status

<服务器>.cpu0

5s中内的平均使用率

正常：[0,<50%]

警告：(50,80]

差：(80,100]

在监控系统中实例化后，就对应到一条监控数据：

Object	Value	Status
(192.168.178.130).cpu0	70%	警告

其实，并不是所有的监控对象都像上述示例中那么简单，有很多监控对象状态的判定需要参考多种指标值，甚至跨监控对象，例如我们监控某台服务器的服务能力：

Object

Value

Status

<服务器>.服务能力

<服务器>.cpu使用率

<服务器>.负载

<服务器>.IOwait

<服务器>.内存使用率

正常：所有value的status都为‘正常’

警告：所有value的status都不为‘差’，且至少一个为‘警告’

差：任何一value的status为‘差’

在此例中，服务器的服务能力的status取决与监控对象“<服务器>.cpu使用率、<服务器>.负载、<服务器>.IOwait、<服务器>.内存使用率”的status。这也是较为简单的一种，更复杂的有多层监控对象递归和监控对象递归+实际指标数值的情况。

这说明，在监控系统中监控对象绝非是平面关系，应该是具有层次关系的立体关系。但是无论监控对象间的关系如何复杂，我们都能抽象成OSV模型予以拆解，当然如何监控对象者属于监控系统业务模型分析的范畴，在此暂不加以论述。

基于OSV模型，我们就能构造出监控对象的核心数据结构，很明显核心数据结构要管理object、value、status信息，从而我们可以将报警信息用统一的数据结构管理起来，实现不同监控对象的统一报警框架。

阅读(1749) | 评论(0) | 转发(0) |

上一篇：监控系统在互联网运营企业中的定位分析

下一篇：利用jira进行需求管理

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6