分类: 系统运维
2013-05-03 10:24:40
这几天一直在深入研究 Cacti 的配置,我发现 Cacti 的功能真的很强大,而且大部分的配置和调试工作只需要在图形化的界面上做操作即可。由于公司的 Cacti 监控服务器上配置的监控端越来越多,所以有些监控端出现图形不连续的现象,调高 Cacti 的 log 等级,我在 cacti.log 文件中发现如下的警告信息:
05/25/2011 10:55:39 AM – SPINE: Poller[0] Host[46] TH[1] DS[862] WARNING: SNMP timeout detected [500 ms], ignoring host ’10.10.2.91′
05/25/2011 10:55:38 AM – SPINE: Poller[0] Host[46] TH[1] DS[862] WARNING: SNMP timeout detected [500 ms], ignoring host ’10.10.2.91′
Cacti 官方手册中给出的解释如下:
For “reasonable” timeouts, this may be related to a snmpbulkwalk issue. To change this, see Settings, Poller and lower the value for The Maximum SNMP OID’s Per SNMP Get Request. Start at a value of 2 and increase it again, if the poller starts working. (1 or less disables snmpbulkwalk) Some agent’s don’t have the horsepower to deliver that many OID’s at a time. Therefore, we can reduce the number for those older/underpowered devices.
我在 Device 配置界面下,将“Maximum OID’s Per Get Request”值设置为最小值“1”,该问题解决了。但是过了一段时间图像又开始断断续续的,而且生成的 rrd 文件中的数值都是 NaN,在监控服务器端的命令行下执行 snmpwalk 命令,发现屏幕输出跑了一些信息后停下来显示 Timeout: No Response from 10.10.2.91,这是由于网络状况不太好,所以导致 Cacti 服务没有完全获得监控端的 SNMP 信息就 Timeout 了。为了证明我的猜测,我在之前的运行的 snmpwalk 命令中加入“-t 120”选项,结果 snmpwalk 获得了完整的监控端 SNMP 信息。所以我在 Device 配置界面下设置“SNMP Timeout”值为 20000,问题彻底解决了,同时我把“Maximum OID’s Per Get Request”值又重新调整为默认值“10”。这样可以减少 Cacti 监控服务器访问监控端的 SNMP 服务的次数从而提高性能。如果你的网络状况很好的情况下,你可以进一步的调高“Maximum OID’s Per Get Request”值。
Cacti 服务自带的轮询脚本(cmd.php)性能低下,如果监控点多的话,平均5分钟脚本有可能执行不完,经常导致图形断断续续,所以我推荐大家采用 spine,它的效率要高于 cmd.php 脚本。由于Cacti 服务需要写 rrd 文件记录监控信息,所以在监控点多的情况下,会经常性遇到 Disk I/O 的性能瓶颈。所以对 Cacti 监控服务器进行一定的性能优化配置十分有必要。下面我来介绍几个性能优化技巧:
1. Settings 中修改“poller type”为 Spine,修改 Spine Specific Execution Parameters 里的 Maximum Threads per Process 为监控服务器 cpu 个数的2倍。我在实际的操作中将该值从默认值“1”修改为“16”,但是 Poller 的运行时间反倒增加了,再修改为“8”,情况好一些,所以大家可以自己随意改写该数值,然后在 cacti.log 文件中查询 Poller 轮询运行时间的变化,然后确定最优的方案。如果在 cacti.log 文件中出现如下警告,请按照警告信息在 Cacti 监控服务器端修改相应文件的操作权限。
05/25/2011 09:00:02 AM – SPINE: Poller[0] WARNING: Spine NOT running asroot. This is required if using ICMP. Please run “chmod +s;chown root:root spine” to resolve.
2. 给 Cacti 的 MySQL数据库中的表创建索引。默认的 cacti.sql 里一个索引都没有,具体操作如下:
[root@pubservicedb rra]# mysql -uroot
mysql> use cacti;
Database changedmysql> CREATE INDEX `data_template_data_id` ON `data_input_data` (`data_template_data_id`);
Query OK, 7498 rows affected (0.09 sec)
Records: 7498 Duplicates: 0 Warnings: 0mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON data_local (`host_id`,`snmp_query_id`,`snmp_index`);
Query OK, 333 rows affected (0.04 sec)
Records: 333 Duplicates: 0 Warnings: 0mysql> CREATE INDEX `local_data_id_data_source_name` ON data_template_rrd (`local_data_id`,`data_source_name`);
Query OK, 742 rows affected (0.05 sec)
Records: 742 Duplicates: 0 Warnings: 0mysql> CREATE INDEX `graph_template_id_local_graph_id` ON graph_templates_item (`graph_template_id`,`local_graph_id`);
Query OK, 2887 rows affected (0.08 sec)
Records: 2887 Duplicates: 0 Warnings: 0mysql> CREATE INDEX `local_graph_template_item_id` ON graph_templates_item (`local_graph_template_item_id`);
Query OK, 2887 rows affected (0.07 sec)
Records: 2887 Duplicates: 0 Warnings: 0mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON host_snmp_cache (`host_id`,`snmp_query_id`,`snmp_index`);
Query OK, 1012 rows affected (0.09 sec)
Records: 1012 Duplicates: 0 Warnings: 0mysql> CREATE INDEX `local_data_id_rrd_path` ON poller_item (`local_data_id`,`rrd_path`);
Query OK, 416 rows affected (0.04 sec)
Records: 416 Duplicates: 0 Warnings: 0mysql> CREATE INDEX `host_id_rrd_next_step` ON poller_item (`host_id`,`rrd_next_step`);
Query OK, 416 rows affected (0.05 sec)
Records: 416 Duplicates: 0 Warnings: 0mysql> CREATE INDEX host_id_snmp_query_id ON host_snmp_cache (host_id,snmp_query_id);
Query OK, 1012 rows affected (0.07 sec)
Records: 1012 Duplicates: 0 Warnings: 0mysql> CREATE INDEX host_id_snmp_port ON poller_item (host_id,snmp_port);
Query OK, 416 rows affected (0.05 sec)
Records: 416 Duplicates: 0 Warnings: 0mysql> CREATE INDEX data_source_path ON data_template_data (data_source_path);
Query OK, 414 rows affected (0.04 sec)
Records: 414 Duplicates: 0 Warnings: 0mysql>
3. 重构 rra 目录结构,按照 device 划分 rra 目录结构。Settings 里的 Paths 选项卡中勾选 “Structured RRA Path (/host_id/local_data_id.rrd)”,如果不成功,请在命令行下执行如下操作:
[root@pubservicedb rra]# /usr/local/php/bin/php /usr/local/apache/htdocs/cacti/cli/structure_rra_paths.php –proceed
网上有人按照这个优化的方案优化了 Cacti 监控服务,测试的结果是:710台服务器,24000个 rrd 文件,完成一次 poller.php 的时间,缩短到50 seconds。
如果再出现瓶颈,可以考虑安装 插件来进一步提升性能。我会在未来写一篇关于 Boost 插件的安装与应用的文章,感兴趣的朋友可以关注。
转载