数据采集分析系统的构想(未完成)-serwei-ChinaUnix博客

临寒飞羽——Linux记录地

首页　| 　博文目录　| 　关于我

serwei

博客访问： 272603
博文数量： 53
博客积分： 2580
博客等级：少校
技术积分： 509
用户组：普通用户
注册时间： 2009-12-29 10:02

文章分类

全部博文（53）

网络（0）
数据库（2）
系统（25）
应用（7）

cacti（1）

memcached（0）

vsftpd（0）

resin（0）

rsync（0）

zabbix（0）

nginx（2）
未分配的博文（19）

文章存档

2014年（1）

2013年（1）

2011年（14）

2010年（37）

我的朋友

相关博文

数据采集分析系统的构想(未完成)

分类： LINUX

2011-01-26 16:25:42

很佩服腾讯的数据采集分析，做了这么多年，并且数据一直保存。相信他们在这块投入了很多。

这里我要说的是web的数据采集分析，由分析日志获取相关信息，用于用户行为分析和获取QOS质量，用于提高用户体验和为相关决策提供分析数据。

有如下几个方案：

如果数据量不是很大的话，可以使用如下方案：

1、syslog-ng

2、tail --> awk --> mysql

首先统一日志格式，用tail获取日志，awk格式化日志，然后insert远端syslog中心的数据库。mysql server和客户端做长连接，但必须要有重连机制。

一个简单的实现脚本：

#!/bin/bash
tail -f /home/nginx/logs/access.log|awk '{print$7"/"$10"/"$14$15"/"$(NF-1)"/"$NF}'|grep .mp4|sed 's/?/\//'|sed 's/\;//'|awk -F / '{print$3,$5,$6,$7,$8}'|while read mp4_name mp4_block_size http_user_agent response_time http_status
do
echo mp4_name=$mp4_name
echo mp4_block_size=$mp4_block_size
echo http_user_agent=$http_user_agent
echo response_time=$response_time
echo http_status=$http_status

mysql -u test -p << spool
done

如果数据量很大，可以采用以下方法，不过我没有实践过

3、tail + Cassandra

阅读(1023) | 评论(0) | 转发(0) |

上一篇：LVS部署(转载)

下一篇：大型高并发高负载网站的系统架构

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6