运维技术之数据采集、传输与过滤-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5851451
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

运维技术之数据采集、传输与过滤

分类：系统运维

2014-04-21 00:21:21

一、采集点取舍
      对于业务数据分析来说，当然是越全面越好，但随之而来的是分析复杂度也水涨船高，所以需要权衡，针对不同的数据来确定采样点。
1、服务器数据
      服务器数据一般会采集到CPU负载、磁盘I/O、网卡流量等。
        这些指标衡量的粒度通常是不一样的，因此，采样频率也应该差异化，比如：
      （1）CPU的平均负载loadavg，输出粒度是1、5、15分钟，因此，采样频率应该要大于或等于1分钟。
      （2）I/O操作，大多数异常都是瞬时操作，采样频率就不能用5分钟甚至15分钟了，这样有可能会漏采。
2、访问日志
      访问日志是Web服务器监控非常重要的途径，因此，建议保留访问日志至少3个月以上，以备排查问题。
      主流的Web服务器都有自己默认的访问日志记录项，比如：Apache的LogFormat、Nginx的log_format。
      访问日志中一般会记录时间、rerfer、url、cookie等信息。
3、系统日志
      Syslog是介于访问日志和服务器之间的另一部分。
      一方面是作为Linux服务器最重要的OS层面的信息集中地，另一方面Syslog本身作为一种快速传输日志的协议，也经常用于用户应用输出。
      Syslog主要用于数据采集，后文还会介绍收集分析系统，当然衍生的Syslog-ng、Rsyslog等也能堪当大任。
      Syslog协议规范参见RFC3164。

二、收集传输
      采集到本地的数据需要收集到数据分析服务器来进行处理。在实时性要求不高的系统中，可以通过scp或者rsync定时任务来进行集中收集，这也是最常用的收集手段。但是如果实时性要求高就需要用专门的数据传输中间件了。
1、Rsyslog
      Rsyslog已经成为CentOS的标准配置，而且兼容Syslog的配置，其处理流程如下：

图1 Rsyslog处理流程

      从上图可以看出，Rsyslog主要由以下几部分组成：
      （1）Input Modules：这个模块相对固定，用于接收输入数据，可以基于File、TCP、UDP、UINX Socket等。
      （2）Output Modules：这个模块比较开发，社区有基于MySQL、HDFS、MongoDB、Redis、ZeroMQ、Solr等的支持。
      （3）Parser Modules：这个模块顾名思义是用来解析数据用的。
      Apache和Nginx都支持通过Syslog或者Pipe方式收集数据，只需要做好配置即可。
2、message queue
      消息队里其实也能完成收集任务，甚至更漂亮。
      开源消息队列中间件有很多，重头的有基于AMQP实现的RabbitMQ、Qpid、ActiveMQ，简单高效的有ZeroMQ、Redis，当然还有很多，这里不一一列出。
3、RPC
      在基于RPC协议的设计场景中通常会使用Thirft一类的服务开发框架，用户只需要定义好统一的数据结构，Thirft会自动生成和网络通信相关的代码，而在各自节点上，可以使用绝大多数开发语言，它就像一个水管多用转接头一样。

图2 Thrift整体架构

4、Gearman
        Gearman是一套分布式程序框架，与Hadoop相比其更偏向于任务分发。
      一个Gearman请求的处理过程涉及三个角色：Client->Job->Worker。
      对于Client和Worker并不限制使用一样的语言，所以有利于多语言系统集成。

图3 Gearman处理流程

在海量日志实时处理方面，Gearman最简单也最常见的一个运用是实时的访问排行，其使用流程如下：

图4 Gearman日志处理流程

三、日志收集系统框架
      比较有名的数据收集传输处理框架有Twitter的Storm、Linkedin的kafka、Facebook的Scribe、Cloudera的Flume和Hadoop的Chukwa等。这些框架总体来说都比较重，接下来会介绍两个简单但功能丰富的类似系统。
1、Flume-ng
      Flume-ng主要包括source、sink和channel三部分。
      Flume-ng依据source与sink和channel的对应关系可以构造集中式日志收集系统，也可以构造日志分发系统，比如：
      （1）当source来自多个源地址或者服务时，sink作为中继，跨越网络一级一级地把数据流串联起来，这就是集中式日志收集系统的典型案例。
      （2）如果是单一的source对应多个channel和sink，那么就可以把一份素具复制到多个目的地址或者服务上，以完成不同目的的分析处理。
2、logstash
      Logstash由JRuby语言编写，与Flume-bg或者Rsyslog类似，Logstash同样由input、filter和output三个部件组成。
        Logstash社区非常活跃，运维人员可以从庞大的插件库中挑选自己熟悉的来搭建系统。
        Logstash最典型的使用场景，是通过Logstash收集应用集群的日志到专用服务器上，并进行过滤和处理。
      只要同时有input和output插件，都可以作为broker运行，官方推荐使用redis来构建，处理模型如下：

图5 Logstash处理流程

阅读(9046) | 评论(2) | 转发(1) |

上一篇：使用libcurl C接口之Easy接口

下一篇：Shell之grep命令

给主人留下些什么吧！~~

vwpqmgfr2014-04-21 13:34:21

来踩踩，回踩哦。想开淘宝店的亲，加口扣号1047483272咨询

回复 | 举报

scq2099yt2014-04-21 00:21:32

文明上网，理性发言...

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6