Chinaunix首页 | 论坛 | 博客
  • 博客访问: 277497
  • 博文数量: 58
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 600
  • 用 户 组: 普通用户
  • 注册时间: 2015-11-27 08:37
个人简介

从linux了解世界

文章分类
文章存档

2017年(5)

2016年(51)

2015年(2)

我的朋友

发布时间:2016-09-23 09:55:14

大数据处理:(求最大的n个用小根堆,最小的n个用大根堆)使用mapreduce统计文章中单词出现个数,首先对文章预处理,去掉标点,对连字符-处理,对缩写处理,大小写转换。然后对每个单词进行hash映射,假设映射为10组,对每组中同一种单词进行合并,然后把每组的结果进行合并。对40亿的ip地址进行排序,每个ip只出现一次可.........【阅读全文】

阅读(3334) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册