铲屎官sama~
炮雷子
从linux了解世界
全部博文(58)
2017年(5)
2016年(51)
2015年(2)
xiongxh2
Xtay
pirate04
dxxx_80
duanyuel
Bsolar
songsh00
wendaoyi
saudi
发布时间:2016-09-23 09:55:14
大数据处理:(求最大的n个用小根堆,最小的n个用大根堆)使用mapreduce统计文章中单词出现个数,首先对文章预处理,去掉标点,对连字符-处理,对缩写处理,大小写转换。然后对每个单词进行hash映射,假设映射为10组,对每组中同一种单词进行合并,然后把每组的结果进行合并。对40亿的ip地址进行排序,每个ip只出现一次可.........【阅读全文】
登录 注册