py mongodb-liukaiyi-ChinaUnix博客

liukaiyiskynet.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

liukaiyi

博客访问： 668027
博文数量： 149
博客积分： 3901
博客等级：中校
技术积分： 1558
用户组：普通用户
注册时间： 2009-02-16 14:33

文章分类

全部博文（149）

数据挖掘组（5）
linux（2）
基础知识（2）
读书（8）

mbalib:营销分析（1）

《引爆流行》（1）

《长尾理论》（1）

《云计算》（4）
工具服务器（15）

wiki - trac（1）

版本控制器（5）

消息队列（0）

gearman（3）

同步/备份（2）

调度系统（2）

nginx（1）
编辑器（9）

vim（9）
产品的智慧（9）

提纲（0）
数据分析（11）

load（0）

cleansing（2）

transform（0）

extract（0）

算法（1）

数据结构（0）
语言（28）

shell（1）

R（5）

english（0）

c（0）

javascript（0）

perl（7）

python（9）
数据存储（57）

postgres（7）

hadoop（29）

voldemort（2）

cassandra（1）

infobright（2）

mysql（9）

mongodb（3）
未分配的博文（3）

文章存档

2014年（2）

2013年（10）

2012年（32）

2011年（21）

2010年（84）

我的朋友

最近访客

推荐博文

py mongodb

分类：

2010-05-11 13:53:20

%2B/api/index.html

本来希望计算歌曲 PV UV ，结果发现 mongo 的客户端非常差
首先像 distinct 和 sort 超过 5万条数据就很有可能内存溢出
计算效率非常慢：

mongo --eval ' var da = db.getMongo().getDB("dw").data; var ms = da.distinct("pmn",{ "ab":"100019","aop":"be","wv":"1.3"}) ; for(var ii=0;ii var uv = da.distinct("auid",{ "ab":"100019","aop":"be","wv":"1.3","pmn":ms[ii]}).length ; var pv = da.count({ "ab":"100019","aop":"be","wv":"1.3","pmn":ms[ii]}) ; print(ms[ii],"\t",pv,"\t",uv); } ' > /tmp/100019_1.3.txt

现在改成 py , 上面描述的问题就可以解决 :

#encoding: utf-8 import pymongo connection = pymongo.Connection("localhost", 27017) db = connection.dw dd = db.data.find({ "ab":"100019","aop":"be","wv":"1.3"}) ii=0 pmns={} for cc in dd: if cc.has_key("pmn") : if not pmns.has_key( cc["pmn"] ) : pmns[ cc["pmn"] ] = {} if cc.has_key("auid") : if not pmns[ cc["pmn"] ].has_key( cc["auid"] ) : pmns[ cc["pmn"] ][ cc["auid"] ]=1 else : pmns[ cc["pmn"] ][ cc["auid"] ]+=1 ff=open('/tmp/100019_1.3.txt','w') for pm in pmns.keys() : pv,uv=0,0 for us in pmns[pm].keys() : pv += pmns[pm][us] uv += 1 print>>ff, '%s\t%s\t%s' % (pm.encode('utf8'),pv,uv)

阅读(952) | 评论(0) | 转发(0) |

上一篇：R - tree lib

下一篇：一些我常用的 vi 命令

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6