Chinaunix首页 | 论坛 | 博客
  • 博客访问: 16972
  • 博文数量: 15
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 12
  • 用 户 组: 普通用户
  • 注册时间: 2018-01-28 10:36
文章分类
文章存档

2018年(15)

我的朋友

分类: 其他平台

2018-01-28 12:24:24

一直以来主做数据存储与计算的,数据分析是兼职搞,所以请大家轻拍砖^_^。

某天晚饭时老大问:你们觉得下次XX2发售,哪些用户最有可能来购买?应该给哪些用户Push Message?让尝试来分析一下。
 按照如上的分析步骤:
首先是提出了问题,有了需求。
第二步分析问题,提出方案,个人觉得这一步非常重要,数据分析本身就是一个假设检验的过程,如果这一步不能很好的假设,后续的检验也就无从谈起。主要需要思考下从哪些方面来分析这个问题。

    想到的主要从三个方面:(PS:这里对于一些常规的属性比如:性别、年龄、地区分布了这些基本,老大早已心中有数,就不再看了)

       1.用户的关注度(是否预约,是否浏览过产品站)  。
       2.用户的消费能力(历史消费金额、历史购机数量、本年度购机金额、本年度购机数量、最近一次购机时间及金额等)。
       3.当前使用机型(购买时间、存储容量、颜色、尺寸等等主要看换机的迫切程度)。

         

第三步准备数据:
创建分析表,搜集数据 这一步基本是最花时间的,这时候就是考量你的数据平台、数据仓库的时候了,仓库集成的好,平台易用的话时间应该不用太长。
CREATE TABLE xx_user_analyze (
user_id BIGINT (20) DEFAULT NULL,
is_reserve SMALLINT (6) NOT NULL DEFAULT '0',
is_view SMALLINT (6) NOT NULL DEFAULT '0',
view_cnt INT (11) NOT NULL DEFAULT '0',
amt DOUBLE NOT NULL DEFAULT '0',
mb_amt DOUBLE NOT NULL DEFAULT '0',
mb_cnt INT (11) NOT NULL DEFAULT '0',
xx_mb_cnt INT (11) NOT NULL DEFAULT '0',
xx_mb_amt DOUBLE NOT NULL DEFAULT '0',
amt_2016 DOUBLE NOT NULL DEFAULT '0',
mb_amt_2016 DOUBLE NOT NULL DEFAULT '0',
mb_cnt_2016 INT (11) NOT NULL DEFAULT '0',
xx_mb_cnt_2016 INT (11) NOT NULL DEFAULT '0',
xx_mb_amt_2016 DOUBLE NOT NULL DEFAULT '0',
first_pur_time datetime DEFAULT NULL,
last_pur_time datetime DEFAULT NULL,
last_pur_time_seg DECIMAL (10, 2) DEFAULT NULL,
user_level INT (11) NOT NULL DEFAULT '0',
use_model INT (11) NOT NULL DEFAULT '0',
KEY IDX_USER_ID (user_id)
) ENGINE = INNODB DEFAULT CHARSET = utf8;

咔咔咔,一通hive、mysql操作处理,数据基本收集完成。

第四步数据分析:我是把数据导入到superset/caravel进行分析的(这个工具个人有篇文章介绍过,非常不错的一个数据探查、数据分析工具再次推荐下),其实用excel也非常好,只是对excel的有些处理不是很擅长。

第五步就是图表呈现,报告的表达了,最后我们得到的一个结论就是复购周期越近的用户越最容易再次复购。
 

 





阅读(512) | 评论(0) | 转发(0) |
0

上一篇:数据仓库维度建模需避免的常见错误

下一篇:没有了

给主人留下些什么吧!~~