发布时间:2018-06-30 20:32:00
分区模式将记录进行分类,但它并不关心记录的顺序。其主要目的是将数据集中相似的记录分成不同的、更小的数据集 分区主要原理是,自定义分区类继承Partitioner,根据业务需求实现分区函数 public int getPartition(Text key, Text value, int numPartitions),将Key相同的记.........【阅读全文】
发布时间:2018-07-19 10:40:41
MapReduce输入数据源不仅可以是文件还可以是Hbase,从Hbase读取数据需要注意以下细节1、Mapper类需要从TableMapper继承,并且实现函数 void map(ImmutableBytesWritable key, Result columns, Context context)ImmutableBytesWritable key 实际上是Hbase表记录的rowkeyResult columns 是hbase.........【阅读全文】
发布时间:2018-07-07 15:48:07
假设有如下数据:100,200,300,400,500,600200,100,300,400300,100,200,400,500400,100,200,300500,100,300600,100其中第一列表示用户ID,其余列表示用户的好友ID,我们需要统计出这些用户的共同好友其结果如下:[100,200] [300, 400] //表示用户100和200的共同好友是 300,400[100,300] [200, 400, 500].........【阅读全文】
发布时间:2018-07-06 17:17:27
点击(此处)折叠或打开import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;i.........【阅读全文】
发布时间:2018-07-06 17:10:50
点击(此处)折叠或打开import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.MapWritable;import org.apache.hadoop.io.Text;.........【阅读全文】