2013年(12)
分类: 云计算
2013-12-16 15:39:39
第一部分: 需求分析
用户上网区域分布及变化-user_online_info_area(Hive)
字段名 |
地区 |
用户数
|
日期
|
字段类型 |
String
|
bigint
|
String
|
1. 根据开始时间结束时间来查询用户的变化情况
2. 如2012 02 02 ,2012 02 03,那么代表查这样日期之间的用户数
用户上网流量统计-user_online_traffic(Hive)
字段名 |
用户ID |
总流量
|
日期
|
字段类型 |
String
|
double
|
String
|
1. 根据开始时间结束时间来查询流量的汇总情况
2. 如2012 02 02 ,2012 02 03那么代表查这样日期之间的流量的汇总
热门网站统计-hot_url (Hive)
字段名 |
url |
pv
|
日期
|
字段类型 |
String
|
bigint
|
String
|
1. 根据开始时间结束时间来查询URL的排序情况
2. 如2012 02 02 ,2012 02 03那么代表查这样日期之间的URL的排序
Ip地址流量统计-user_traffic_by_ip (Hive)
字段名 |
流量 |
ip
|
日期
|
字段类型 |
double
|
bigint
|
String
|
1.根据开始时间结束时间来查询IP的流量汇总情况
2. 如2012 02 02 ,2012 02 03那么代表查这样日期之间的IP的流量汇总
根据IP或者URL导出用户包
根据输入的IP或者URL来导出用户的ID包
第二部分: 技术点
Hive各类SQL的使用
第三部分: 代码实现
私塾在线原创独家云计算课程,转载请注明【http://sishuok.com/forum/blogPost/list/6770.html】