发布时间:2018-07-06 17:10:50
点击(此处)折叠或打开import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.MapWritable;import org.apache.hadoop.io.Text;.........【阅读全文】
发布时间:2018-07-06 10:24:49
相关性计数模式主要用来分析数据相关性的设计模式。比如根据大量用户超市购物车的商品列表就可以分析关联性,大多数用户购买了A商品的同时购买了C商品,我们可以通过分析挖掘,将商品A和C摆在一起,或者将A和C捆绑销售,提高用户的购买性 假设有如下数据: 2,3,1,4,5,2,3 1,2,5,2 4,5 1,3,4,1 3,.........【阅读全文】
发布时间:2018-07-01 16:50:45
outputFormathadoop依靠job的输出格式做两个主要的任务:1.检验job的输出配置。2.创建RecordWriter的实现写job的输出。跟FileInputFormat相对应的,FileOutputFormat处理基于文件的输出。因为MapReduce job的大多数输出写到hdfs,很多基于文件的输出格式相应的api都能解决大部分的需求。Hadoop默认使用TextOutputFormat.........【阅读全文】
发布时间:2018-07-01 14:07:53
InputFormatHadoop依赖job的输入格式做三件事:1.校验job的输入配置,例如数据是否存在。2.分割文件块为逻辑上的inputSplit类型的块,每一个对应一个map任务。3.创建RecordReader的实现从inputsplit创建键值对。这些键值对一个一个发送到mapper。 最常用的输入格式的子类是FileInputFor.........【阅读全文】
发布时间:2018-06-30 23:21:14
分箱模式与区模式类似,都是在不考虑记录顺序的情况下,对记录进行分类。与分区不同的是,分箱是在Map阶段对数据进行拆分。这样可以将减少reduce阶段的输出工作量。但该模式缺点是每个mapper将为每个输出箱子创建文件。假如有1000个箱子和1000个mapper,那么输出文件1000 000个文件。这对NameNode可扩展性及.........【阅读全文】