Plumber分布式数据采集系统（一）架构与监控心跳-powerful

powerful_boy的ChinaUnix博客

首页　| 　博文目录　| 　关于我

powerful_boy

博客访问： 173583
博文数量： 51
博客积分： 0
博客等级：民兵
技术积分： 471
用户组：普通用户
注册时间： 2015-05-11 10:24

文章分类

全部博文（51）

Zookeeper（2）
Kafka（2）
Flume/Plumber（5）
Nginx（2）
Storm（2）
Rdies/aerospike（7）
Docker（1）
网络与安全（1）
项目管理（0）
Hadoop（4）
Tcp协议（2）
zabbix监控平台（2）
linux系统运维（14）
Python/Shell（1）
架构设计与优化（5）
未分配的博文（1）

文章存档

2018年（3）

2017年（22）

2016年（9）

2015年（17）

我的朋友

监控设计思路

监控数据由Agent来维护，并作为心跳数据定期上报到Kafka
Manager消费Kafka中的心跳信息，处理并使用时间序列数据库进行存储

准确性数据

目前考虑的准确性主要是分时段对比，每个小时一条汇总数据

source和sink分别维护一个分时段的counter
monitor对counter进行格式化后，放在心跳消息中进行上报
需要考虑进程重启的情况，尽量使重启不影响counter的准确性

Metrics数据

metrics记录从进程开始到当前时间点,Agent一共处理了多少数据，同样放到心跳信息里
metrics定性即可，主要用于了解Agent采集压力

心跳

心跳数据通过Kafka进行收集，这样做有以下几个好处:

隔离Manager和Agent，避免因为Manager升级/故障而丢失数据
避免Agent过多Manager收集不过来的情况
可以监控Agent到Kafka的链路是否畅通

上报方式

每一次心跳消息中,Agent上报当前节点的采集状态(每个文件采集了多少record,多少byte等)

优点

每一次心跳都是一个独立的状态，部分心跳数据丢失
Agent重启可以不影响数据的准确性
Master无需维护状态信息

缺点

客户端实现复杂度上升，需要缓存状态数据
需要设计好上报过滤规则，过期的状态不再上报

心跳数据结构

心跳使用Kafka KeyedMessage发送到Kafka。

key的数据结构

key的数据要保证同一个agent被发送到Kafka的同一个topic的同一个partition里面去。Key使用ip:port的格式,example:
127.0.0.1:10086

value的数据结构

未维护或者不适用的字段上报-1

考虑序列化压力不大, value采用Json格式，便于直接消费检查。

{
    "timestamp" : 1470123010 , //时间戳，精度到毫秒
    "type" : "source" , //类型,source/sink
    "data" : [ //心跳数据
        { 
            "topic" : "app-test2" , //处理的topic
            "recordCounter" : 1238432, //启动开始到现在处理的条数
            "items":[
                {
                    "timeMap" : 1470123000,  //时间段，通常截取到了小时，精确到毫秒
                    "fileNum" : 5 , //文件数量, 如果不适用，此字段可以上报-1
                    "fileSize" : 65535,  //文件实际大小, 如果不适用，此字段可以上报-1
                    "bytes" : 6423,  //已经处理的字节, 如果不适用，此字段可以上报-1
                    "records" : 230 //已经处理的record数量
                },
                {
                    "timeMap" : 1470123000, //时间段，通常截取到了小时，精确到毫秒
                    "fileNum" : 5 , //文件数量, 如果不适用，此字段可以上报-1
                    "fileSize" : 65535,  //文件实际大小, 如果不适用，此字段可以上报-1
                    "bytes" : 6423,  //已经处理的字节, 如果不适用，此字段可以上报-1
                    "records" : 230 //已经处理的record数量
                }
            ]
        } //第一条数据
    ] 
}

topic

心跳默认使用的Kafka topic名称为 plumber

Manager 设计思路

Plumber Manager考虑对内作为Plumber的数据处理中心，通过Restful API对外相应查询请求。一些需要注意的地方:

通常每个Agent每分钟发送一次心跳。
Manager会将心跳拆开，心跳中每个Agent-Topic-Time的数据作为一条数据记录存储到时间序列数据库中。因此实际产生的数据条数可能比心跳数据多很多
Manager尽可能的将数据缓存在内存中,定期刷新到时间序列数据库中,以减少数据处理压力和响应时延
Plumber不与业务产生联系。如果需要对具体业务的数据采集情况进行监控，可以利用Plumber的API,另行设计。这样的好处是保持Plumber的封装性和通用性，设计简单。
Manager从Kafka读取Agent的心跳数据
Manager提供API接收Agent的注册消息
Manager提供API接收第三方处理程序的上报信息
Manager通过InfluxDB存储数据
Manager通过API来对外提供信息

阅读(1959) | 评论(0) | 转发(0) |

上一篇：aerospike

下一篇：Plumber分布式数据采集系统（二）Manager API

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6