这周都在忙于统计,统计需求其实很简单。就是要统计每个广告页的总PV,小时独立IP的PV,和天独立IP的PV。以及广告页内每个链接的的总点击,小时独立IP的点击,以及天独立IP的点击。另外还有一个广告接收页,统计的数据和统计广告页的一样。
统计依据是WEB SERVER的日志
一条日志的大小为211.58BYTE,1000W条的话,日志大小为为2.12G。
处理416553条日志用时139.37S,处理一条需0.00033S
处理330524条日志用时110.00S,处理一条需0.00033S
处理218811条日志用时73.17s,处理一条需0.00033S
平均每处理一条需要0.00033S,那么处理1000W需要0.00033*10000000=3343.98S/60S=55MIN
要想每小时及时统计出前一小时的数据,按照1000W的预计,需要55分钟,勉强够用。
不过,由于还要做把每条日志都插入到临时表的操作,时间消耗大概也需要55分钟,这样一来,一台机器的话,一个小时最多只能处理500W条的日志。
改程序?添机器?
等每小时日志文件到了1G再说吧。。。。。