机房监控系统助力数据中心机房稳定运行，它的工作原理你了解吗？-融为IT科技-ChinaUnix博客

融为IT科技的ChinaUnix博客

首页　| 　博文目录　| 　关于我

融为IT科技

博客访问： 137464
博文数量： 33
博客积分： 0
博客等级：民兵
技术积分： 207
用户组：普通用户
注册时间： 2018-10-31 09:33

文章分类

全部博文（33）

智慧园区（1）
网络（1）
其他（2）
运维（3）
Linux（3）
物联网（5）
机房监控（6）
数据中心（7）
大数据（1）
云计算（2）
5G（1）
未分配的博文（1）

文章存档

2020年（5）

2019年（24）

2018年（4）

我的朋友

相关博文

机房监控系统助力数据中心机房稳定运行，它的工作原理你了解吗？

分类：网络与安全

2019-03-26 09:47:11

机房监控系统是企业机房内不可或缺的重要辅助工具，是机房内各设备的守护使者。对于企业来说，了解机房监控就是对自身机房增加一层安全保障，要想机房问题少，机房监控少不了。

监控目标

我们先来了解什么是监控，监控的重要性以及监控的目标，当然每个人所在的行业不同、公司不同、业务不同、岗位不同、对监控的理解也不同，但是我们需要注意，监控是需要站在公司的业务角度去考虑，而不是针对某个监控技术的使用。

1、对系统不间断实时监控：实际上是对系统不间断的实时监控(这就是监控)。

2、实时反馈系统当前状态：我们监控某个硬件、或者某个系统，都是需要能实时看到当前系统的状态，是正常、异常、或者故障。

3、保证服务可靠性安全性：我们监控的目的就是要保证系统、服务、业务正常运行。

4、保证业务持续稳定运行:如果我们的监控做得很完善，即使出现故障，能第一时间接收到故障报警，在第一时间处理解决，从而保证业务持续性的稳定运行。

监控方法

既然我们了解到了监控的重要性、以及监控的目的，那么下面我们需要了解下监控有哪些方法。

1、了解监控对象：我们要监控的对象你是否了解呢？比如 CPU 到底是如何工作的？

2、性能基准指标：我们要监控这个东西的什么属性？比如 CPU 的使用率、负载、用户态、内核态、上下文切换。

3、报警阈值定义：怎么样才算是故障，要报警呢？比如 CPU 的负载到底多少算高，用户态、内核态分别跑多少算高？

4、故障处理流程：收到了故障报警，那么我们怎么处理呢？有什么更高效的处理流程吗？

监控核心

我们了解了监控的方法、监控对象、性能指标、报警阈值定义、以及故障处理流程几步骤，当然我们更需要知道监控的核心是什么？

1、发现问题：当系统发生故障报警，我们会收到故障报警的信息。

2、定位问题：故障邮件一般都会写某某主机故障、具体故障的内容，我们需要对报警内容进行分析，比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接，又或者某开发触发了防火墙禁止的相关策略等等，我们就需要去分析故障具体原因。

3、解决问题：当然我们了解到故障的原因后，就需要通过故障解决的优先级去解决该故障。

4、总结问题：当我们解决完重大故障后，需要对故障原因以及防范进行总结归纳，避免以后重复出现。

监控工具—「融为监控系统」

一款好的监控系统一定是最切合用户使用习惯的，在众多企业级机房监控中选出最完美的监控系统几乎不现实，由于每款机房监控系统都各有各的优点，导致用户在选择上时常面临新的挑战（尤其是选择恐惧症患者）。

山东融为科技机房环境及能效管理系统综合应用计算机网络技术、移动通信技术、自动控制技术、新型传感技术、数据库技术等，面向机房动力能效、机房场地环境和机房安全保障，通过信息实时采集、数据智能分析、预警、场景化数据展现、移动查询、远程操控等手段，实现对机房环境的便捷、高效管理。

大家在选择合适的机房监控时要着重对比价格、产品功能以及用户体验等信息，尤其是用户体验方面。在后期的监控运维管理工作中，监控系统要做到能简洁呈现绝不拖泥带水，需要着重介绍不可一笔带过。优化系统功能，为用户提供更优质的服务。

融为机房监控展示

提供多种智能基线报警策略，基于趋势提前预警，有效规避机房事故发生。

融为科技机房监控系统支持多种数据采集方式，支持混合组网结构，可以逐级灵活组网。系统容量大，可平滑扩容，数据处理能力强。

融为机房监控系统面向业务和管理提供丰富的数据模块和自定义功能，用户可将不同数据模块进行组合，建立适合本岗位的私有桌面；同时提供重点设备关注功能，使不同人员可以有针对性的对指定设备进行实时关注、跟踪。

提供独有的能效分析机制以及能效拓扑、电力拓扑等展现方式，为用户提供PUE值和能效状况专业视图，实现实时展示与管理。

面向科技部门常规岗位和运维职能，系统提供针对性的工作场景（运维场景、报警场景、巡检场景等）和数据支持，满足客户分类需求。

监控流程

融为机房监控系统为客户提供了完整的监控流程，确保机房内各设备稳定运行。

1、数据采集：支持SNMP、WMI、SYSLOG、AGENT、JDBC、ODBC、TELNET、SSH、PING、DNS、IPMI等各种监控方式。

2、数据存储：融为机房监控所获得的数据存储在MySQL上，也可以存储在其他数据库服务。

3、数据分析：系统提供所有监控对象的监控指标、缺省阀值、报警策略等，支持系统快速实施和监控调整。

4、数据展示：web界面以及移动APP展示，提供整体IT环境总览，多个不同告警、监测、配置、统计等功能提供多种不同视图展示。

5、监控报警：可选声、光、现场语音、短信、Email、电话转移、视频联动、控制联动、投大屏幕等告警，也可实现分类、分时段告警抑制。

6、报警处理：当接收到报警，我们需要根据故障的级别进行处理，比如：重要紧急、重要不紧急等。同时屏蔽掉无用从属报警，实现故障精准定位，解决告警风暴对运维人员的困扰。

此外融为机房监控系统还支持shell脚本和SQL语句自定义扩展，方便用户随时增加监控项。

监控指标

我们上面了解了监控方法、目标、流程、也了解了监控工具，可能有人会疑惑，我们具体要监控写什么东西，那么我在这里进行了分类整理。

主要监控内容列举:「硬件监控」-「系统监控」-「应用监控」-「网络监控」-「流量分析」-「日志监控」-「安全监控」-「API监控」-「性能监控」-「业务监控」。

1、硬件监控

早期我们通过机房巡检的方式，查看硬件设备灯光闪烁情况判断是否故障，这样非常浪费人力，并且是重复性无技术含量的工作，大家懂得。

当然我们现在可以通过 IPMI 对硬件详细情况进行监控，并对 CPU、内存、磁盘、温度、风扇、电压等设置报警设置报警阈值(自行对监控报警内容编写合理的报警范围)。

2、系统监控

中小型企业基本全是 Linux 服务器，那么我们肯定是要监控起系统资源的使用情况，系统监控是监控体系的基础。

—CPU

CPU 有几个重要的概念：上下文切换、运行队列和使用率。这也是我们CPU监控的几个重点指标。通常情况，每个处理器的运行队列不要高于 3，CPU 利用率中 “用户态/内核态” 比例维持在 70/30，空闲状态维持在 50%，上下文切换要根据系统繁忙程度来综合考量。针对 CPU 常用的工具有：htop、top、vmstat、mpstat、dstat、glances 等。

—内存

通常我们需要监控内存的使用率、SWAP 使用率、同时可以通过 Zabbix 描绘内存使用率的曲线图形发现某服务内存溢出等。针对内存常用的工具有: free、top、vmstat、glances 等。

—IO

IO 分为磁盘 IO 和网络 IO 。除了在做性能调优我们要监控更详细的数据外，那么日常监控，只关注磁盘使用率、磁盘吞吐量、磁盘写入繁忙程度，网络也是监控网卡流量即可。常用工具有：iostat、iotop、df、iftop、sar、glances 等。

3、应用监控

把硬件监控和系统监控研究明白后，我们进一步操作是需要登陆到服务器上查看服务器运行了哪些服务，都需要监控起来。

应用服务监控也是监控体系中比较重要的内容，例如：LVS、Haproxy、Docker、Nginx、PHP、Memcached、Redis、MySQL、Rabbitmq等等，相关的服务都需要监控起来。

4、网络监控

网络监控是我们构建监控平台是必须要考虑的，尤其是针对有多个机房的场景，各个机房之间的网络状态，机房和全国各地的网络状态都是我们需要重点关注的对象，那么如何掌握这些状态信息呢？我们需要借助于网络监控工具 Smokeping。

Smokeping 是 RRDTool 的作者 Tobi Oetiker 的作品，是用 Perl 写的，主要是监视网络性能，WWW 服务器性能，DNS 查询性能等，使用 RRDTool 绘图，而且支持分布式，直接从多个 Agent 进行数据的汇总。

5、流量分析

网站流量分析对于运维人员来说，更是一门必须掌握的知识了。比如对于一家电商公司来说：通过对订单来源的统计和分析，可以了解我们在某个网站上的广告投入有没有收到预期的效果。可以区分不同地区的访问人数、甚至商品交易额等。百度统计、Google分析、站长工具等等，只需要在页面嵌入一个js即可。但是，数据始终是在对方手中，个性化定制不方便，于是 Google 出一个叫 PiWik 的开源分析工具。

6、日志监控

通常情况下，随着系统的运行，操作系统会产生系统日志。应用程序会产生应用程序的访问日志、错误日志、运行日志、网络日志，我们可以使用 ELK 来进行日志监控。

对于日志监控来说，最见的需求就是收集、存储、查询、展示，开源社区正好有相对应的开源项目：logstash（收集）+ elasticsearch（存储+搜索）+ kibana（展示）。

我们将这三个组合起来的技术称之为 ELK Stack，所以说 ELK Stack指的是Elasticsearch、Logstash、Kibana 技术栈的结合。

如果收集了日志信息，那么如果部署更新有异常出现，可以立即在 Kibana上看到。

7、安全监控

虽然 Linux 开源的安全产品不少，比如：四层 Iptables，七层 WEB 防护Nginx+Lua实现的 WAF，最后将相关的日志都收至 ELK Stack，通过图形化进行不同的攻击类型展示。但是始终是一件比较耗费时间，并且个人效果并不是很好。这个时候我们可以选择接入第三方服务厂商。

三方厂商提供全面的漏洞库，涵盖服务、后门、数据库、配置检测、CGI、SMTP 等多种类型全面检测主机、Web 应用漏洞自主挖掘和行业共享相结合第一时间更新 0day 漏洞，杜绝最新安全隐患。

8、API 监控

由于 API 变得越来越重要，很显然我们也需要这样的数据来分辨我们提供的 API 是否能够正常运作。监控API接口 GET、POST、PUT、DELETE、HEAD、OPTIONS 的请求可用性、正确性、响应时间为三大重性能指标。

9、性能监控

全面监控网页性能，DNS 响应时间、HTTP 建立连接时间、页面性能指数、响应时间、可用率、元素大小等。

10、业务监控

没有业务指标监控的监控平台，不是一个完善的监控平台，通常在我们的监控系统中，必须将我们重要的业务指标进行监控，并设置阈值进行告警通知。

监控报警

故障报警通知的方式有很多种，当然我们最常用的还是短信，邮件。

报警处理

一般报警后我们故障如何处理呢？首先，我们可以通过告警升级机制先自动处理，比如Nginx服务Down了，可以设置告警升级自动启动Nginx。

但是如果一般业务出现了严重故障，我们通常根据故障的级别，故障的业务，来指派不同的运维人员进行处理。

当然不同业务形态、不同架构、不同服务可能采用的方式都不同，这个没有一个固定的模式套用。

本文转载自。

阅读(2169) | 评论(0) | 转发(0) |

上一篇：物联网的出现对IPv6有促进作用吗？

下一篇：职场面试教你在IT运维面试过程中遇到监控相关问题如何回答。

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6