Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1111941
  • 博文数量: 143
  • 博客积分: 969
  • 博客等级: 准尉
  • 技术积分: 1765
  • 用 户 组: 普通用户
  • 注册时间: 2011-07-30 12:09
文章分类

全部博文(143)

文章存档

2023年(4)

2021年(2)

2020年(4)

2019年(4)

2018年(33)

2017年(6)

2016年(13)

2014年(7)

2013年(23)

2012年(33)

2011年(14)

我的朋友

发布时间:2018-07-01 16:50:45

outputFormathadoop依靠job的输出格式做两个主要的任务:1.检验job的输出配置。2.创建RecordWriter的实现写job的输出。跟FileInputFormat相对应的,FileOutputFormat处理基于文件的输出。因为MapReduce job的大多数输出写到hdfs,很多基于文件的输出格式相应的api都能解决大部分的需求。Hadoop默认使用TextOutputFormat.........【阅读全文】

阅读(2797) | 评论(0) | 转发(0)

发布时间:2018-07-01 14:07:53

InputFormatHadoop依赖job的输入格式做三件事:1.校验job的输入配置,例如数据是否存在。2.分割文件块为逻辑上的inputSplit类型的块,每一个对应一个map任务。3.创建RecordReader的实现从inputsplit创建键值对。这些键值对一个一个发送到mapper。       最常用的输入格式的子类是FileInputFor.........【阅读全文】

阅读(7281) | 评论(0) | 转发(0)

发布时间:2018-06-30 23:21:14

    分箱模式与区模式类似,都是在不考虑记录顺序的情况下,对记录进行分类。与分区不同的是,分箱是在Map阶段对数据进行拆分。这样可以将减少reduce阶段的输出工作量。但该模式缺点是每个mapper将为每个输出箱子创建文件。假如有1000个箱子和1000个mapper,那么输出文件1000 000个文件。这对NameNode可扩展性及.........【阅读全文】

阅读(11119) | 评论(0) | 转发(0)

发布时间:2018-06-30 07:34:50

  MapReduce 分层模式       分层结构模式 是从数据中创造出不同于原始结构的新记录,其目的主要是将基于行的数据转换成分层的格式,如JSon或Xml等其他需要格式      主要原理是采用MultipleInputs将多个输入文件,通过不同的Map类,加入到Mapper阶段,在map类中通过打.........【阅读全文】

阅读(1563) | 评论(0) | 转发(0)

发布时间:2018-06-25 20:13:56

 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈。这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。实现步骤:  1、在mapper中定义TreeMap 将输入数据按put到TreeMap中,如果TreeMap.........【阅读全文】

阅读(1268) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册