MapReducer设计模式--相关性计数模式

月月鸟飞

首页　| 　博文目录　| 　关于我

zpf1218

博客访问： 1120463
博文数量： 143
博客积分： 969
博客等级：准尉
技术积分： 1765
用户组：普通用户
注册时间： 2011-07-30 12:09

文章分类

全部博文（143）

krenel（4）
大数据（2）
spark（8）
java（2）
FastDFS（6）
mysql（5）
系统性能（7）
mongodb（0）
算法数据结构（1）
Redis（2）
分布式云计算（46）

storm（3）

MapReducer（18）

hadoop（1）
Linux（25）
chrome（2）
网络（7）
C++（10）
web（2）
软件设计（6）
程序设计（0）
操作系统（2）
数据库（2）
未分配的博文（4）

文章存档

2023年（4）

2021年（2）

2020年（4）

2019年（4）

2018年（33）

2017年（6）

2016年（13）

2014年（7）

2013年（23）

2012年（33）

2011年（14）

我的朋友

最近访客

推荐博文

MapReducer设计模式--相关性计数模式

发布时间：2018-07-06 10:24:49

相关性计数模式主要用来分析数据相关性的设计模式。比如根据大量用户超市购物车的商品列表就可以分析关联性，大多数用户购买了A商品的同时购买了C商品，我们可以通过分析挖掘，将商品A和C摆在一起，或者将A和C捆绑销售，提高用户的购买性假设有如下数据： 2,3,1,4,5,2,3 1,2,5,2 4,5 1,3,4,1 3,.........【阅读全文】

阅读(1304) | 评论(0) | 转发(0)

MapReducer设计模式--OutputFormat(自定义输出格式)

发布时间：2018-07-01 16:50:45

outputFormathadoop依靠job的输出格式做两个主要的任务：1.检验job的输出配置。2.创建RecordWriter的实现写job的输出。跟FileInputFormat相对应的，FileOutputFormat处理基于文件的输出。因为MapReduce job的大多数输出写到hdfs，很多基于文件的输出格式相应的api都能解决大部分的需求。Hadoop默认使用TextOutputFormat.........【阅读全文】

阅读(2815) | 评论(0) | 转发(0)

MapReduce设计模式--InputFormat(自定义输入格式)

发布时间：2018-07-01 14:07:53

InputFormatHadoop依赖job的输入格式做三件事：1.校验job的输入配置，例如数据是否存在。2.分割文件块为逻辑上的inputSplit类型的块，每一个对应一个map任务。3.创建RecordReader的实现从inputsplit创建键值对。这些键值对一个一个发送到mapper。最常用的输入格式的子类是FileInputFor.........【阅读全文】

阅读(7299) | 评论(0) | 转发(0)

MapReduce设计模式--分箱(多个输出)

发布时间：2018-06-30 23:21:14

分箱模式与区模式类似，都是在不考虑记录顺序的情况下，对记录进行分类。与分区不同的是，分箱是在Map阶段对数据进行拆分。这样可以将减少reduce阶段的输出工作量。但该模式缺点是每个mapper将为每个输出箱子创建文件。假如有1000个箱子和1000个mapper，那么输出文件1000 000个文件。这对NameNode可扩展性及.........【阅读全文】

阅读(11145) | 评论(0) | 转发(0)

MapReduce 分层结构模式--多map输入

发布时间：2018-06-30 07:34:50

MapReduce 分层模式分层结构模式是从数据中创造出不同于原始结构的新记录，其目的主要是将基于行的数据转换成分层的格式，如JSon或Xml等其他需要格式主要原理是采用MultipleInputs将多个输入文件，通过不同的Map类，加入到Mapper阶段，在map类中通过打.........【阅读全文】

阅读(1575) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6