Chinaunix首页 | 论坛 | 博客
  • 博客访问: 451049
  • 博文数量: 130
  • 博客积分: 969
  • 博客等级: 准尉
  • 技术积分: 1610
  • 用 户 组: 普通用户
  • 注册时间: 2011-07-30 12:09
文章分类

全部博文(130)

文章存档

2018年(33)

2017年(6)

2016年(13)

2014年(7)

2013年(24)

2012年(33)

2011年(14)

我的朋友

发布时间:2018-06-30 20:32:00

     分区模式将记录进行分类,但它并不关心记录的顺序。其主要目的是将数据集中相似的记录分成不同的、更小的数据集     分区主要原理是,自定义分区类继承Partitioner,根据业务需求实现分区函数 public int getPartition(Text key, Text value, int numPartitions),将Key相同的记.........【阅读全文】

阅读(153) | 评论(0) | 转发(0)

发布时间:2018-12-02 18:03:49

先了解下rsync的同步参数选项,先通过本地同步的方式来验证rsync的同步参数。-v      :详细模式输出,传输时的进度等信息-z      :传输时进行压缩以提高效率—compress-level=num可按级别压缩-r      :对子目录以递归模式,即目录下的所有目录都同样传输。-t&nbs.........【阅读全文】

阅读(1181) | 评论(0) | 转发(0)

发布时间:2018-11-15 20:59:44

假设有如下数据:100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 300500,100 300600,100逗号前表示用户,逗号后表示好友列表,用户100和200的共同好友是300和400步骤:1、获取以<用户,好友>为key,好友列表为value的键值对(100,200) [200, 300, 400, 500, 600](100,300) [200, 300, 400.........【阅读全文】

阅读(23) | 评论(0) | 转发(0)

发布时间:2018-11-11 15:46:31

Spark连接有2种方案方案一:  使用spark自带的union函数,union函数要求连接的两个RDD类型必须一致。具体思路与MapReduce实现jion一致,即对两个数据源分别打标签A,B,然后在reduce中,把key相同的值连接起来。最后在按业务要求对数据进行处理方案二:  使用spark提供的leftOuterJoin函数,对两个RDD进行做外.........【阅读全文】

阅读(24) | 评论(0) | 转发(0)

发布时间:2018-11-08 20:08:48

TopN就是找出数据中排在最前边或者最后的N个数。假设原始数据是K,V形式存储在文本文件中。要实现这个需求如下步骤1、首先把数据按行读入并分隔成KeyValue形式2、需要对key相同的数据进行聚合3、按value排序,取topN,对value排序有3种方案   A) 对多个分区分别使用SortedMap,将value以作为SortedMap键,key.........【阅读全文】

阅读(2153) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册