随着大规模集群系统的广泛应用,系统的监控变得日趋复杂,对于系统各种指标数值的监控的显得愈发重要。ibm rsct 中的 errm(event response resource manager) 组件为这一需求提供了一套有效的解决方案。对于常见的系统指标数值,例如文件系统使用状况,cpu 工作状况,内存使用状况以及网卡各种指标值等都提供了很好的支持。同时,用户也可以很方便地定制各种系统资源监控。本文将详细阐述 rsct errm 在集群系统监控中的应用。
1. rsct 框架简介
rsct(reliable scalable cluster technology)是一系列软件组件的集合,为 ibm 许多集群软件提供可用性,可扩展性及易用性等方面的底层支持。rsct 包含以下几个组件,本文主要讨论 rmc 子系统和核心资源管理器 errm
rmc 子系统 (resource monitoring and control subsystem)
rsct 核心资源管理器 (rsct core resource managers),包括 errm, configrm, fsrm,hostrm,sensorrm 等。
rsct 集群安全服务 (rsct cluster security services)
拓扑服务子系统 (topology services subsystem)
组群服务子系统 (group services subsystem)
图 1. rsct 资源架构
图 1 显示了 rsct 中资源的架构, rmc 子系统是整个 rsct 的核心,它为其它组件提供了一套通用的接口,这样 rsct 的上层客户软件无需关心各个底层的资源管理器的运行细节,只要通过 rmc 提供的接口 (rmc api) 与 rsct 进行通信。同时,底层的资源管理器及服务只需实现 rmc 指定的接口 (rmf api) 来提供相应的功能。本文中的 errm 就是 rsct 核心资源管理器的一种,它主要用于系统监控。
如果喜欢rsct 资源管理及监控请收藏或告诉您的好朋友.
阅读(210) | 评论(0) | 转发(0) |