产品数据分析 ( x兄版 ) - 1 属性归并统计-liukaiyi-ChinaUnix博客

liukaiyiskynet.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

liukaiyi

博客访问： 668265
博文数量： 149
博客积分： 3901
博客等级：中校
技术积分： 1558
用户组：普通用户
注册时间： 2009-02-16 14:33

文章分类

全部博文（149）

数据挖掘组（5）
linux（2）
基础知识（2）
读书（8）

mbalib:营销分析（1）

《引爆流行》（1）

《长尾理论》（1）

《云计算》（4）
工具服务器（15）

wiki - trac（1）

版本控制器（5）

消息队列（0）

gearman（3）

同步/备份（2）

调度系统（2）

nginx（1）
编辑器（9）

vim（9）
产品的智慧（9）

提纲（0）
数据分析（11）

load（0）

cleansing（2）

transform（0）

extract（0）

算法（1）

数据结构（0）
语言（28）

shell（1）

R（5）

english（0）

c（0）

javascript（0）

perl（7）

python（9）
数据存储（57）

postgres（7）

hadoop（29）

voldemort（2）

cassandra（1）

infobright（2）

mysql（9）

mongodb（3）
未分配的博文（3）

文章存档

2014年（2）

2013年（10）

2012年（32）

2011年（21）

2010年（84）

我的朋友

最近访客

推荐博文

产品数据分析 ( x兄版 ) - 1 属性归并统计

分类：

2010-08-05 11:56:34

帮算产品 X （产品为给手机下的免费软件供用户使用）下的 -
   月份、内容名称、所属栏目名称、资费、PV、访问UV、下载UV 吧

一个产品集中分析开始了 :
我：日志能支撑此次的数据
              月份、内容名称、所属栏目名称、UV 、PV 、下载PV
                                 ( 日志应为产品特殊原因，下载日志中没有对于用户ID )
   x兄 : 行吧，先出再看看
....... 脚本编写运行中（脚本-1） ............
我 : 数据出来了 , 5 ,6,7 月份的数据出来了，一个大大的长尾
x兄 : 哦看看先 ...
我：感觉这几个月排行靠前的这些产品在这几个月变化不大。感觉用户至少我们接触到的用户他们的兴趣爱好比较稳定 .
x兄 : 来个月份用户登入数吧 ,对比产品内容数看 .
        在统计平台上每天用户数相加会虚高
        ( 解释: 如果1号来了 10 个用户，2号来 5个但这几人1号也来过，算 1-2号有多少人 10+5 那就虚高 ,当然这也是有解决办法在数据库里)
   ....... 脚本编写运行中（脚本-2） ............
我：吃饭去了

（脚本-1）

find . -type f -name "*2010-07-*" -exec cat {} \;|perl -nle ' chomp; my $m = {}; # 由于日志是 key=val<|>key=val<|>.... # 日志切割到 map 里 map{ $m{$1}=$2 if /(.*)=(.*)/ } split /<\|>/ ; next if not ($m{aop} eq "be" or $m{aop} eq "d") ; $h{$m{bn}} { $m{pn} }{ be }{ $m{auid} } ++ ; $h{$m{bn}} { $m{pn} }{ d }{ $m{auid} } ++ ; END{ use List::Util qw(sum); foreach $bn (keys %h ){ foreach $pn (keys %{$h{$bn}} ){ my $f_uv = scalar keys %{$h{$bn}{$pn}{be}}; my $f_pv = sum values %{$h{$bn}{$pn}{be}}; my $d_uv = scalar keys %{$h{$bn}{$pn}{d}}; print "$bn\t$pn\t$f_uv\t$f_pv\t$d_uv"; } } } ' > /tmp/2010-07.100040.txt

（脚本-2）

find ./login ./test_login -type f -exec cat {} \; |perl -nle ' $h{$1}{$2}++ if /at=(\d{4}-\d{2}).*?adid=(.*?)<.*/; END{ use List::Util qw(sum); foreach my $bn (keys %h ){ my %be = %{ $h{$bn} } ; my $f_uv = scalar keys %be; my $f_pv = sum(values %be); print "$bn\t$f_uv\t$f_pv"; } } '

阅读(636) | 评论(0) | 转发(0) |

上一篇：trac 搭建

下一篇：产品数据分析 ( x兄版 ) - 2 区分历史数据

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6