MapReduce设计模式--分区_zpf1218-ChinaUnix博客

月月鸟飞

首页　| 　博文目录　| 　关于我

zpf1218

博客访问： 1124106
博文数量： 143
博客积分： 969
博客等级：准尉
技术积分： 1765
用户组：普通用户
注册时间： 2011-07-30 12:09

文章分类

全部博文（143）

krenel（4）
大数据（2）
spark（8）
java（2）
FastDFS（6）
mysql（5）
系统性能（7）
mongodb（0）
算法数据结构（1）
Redis（2）
分布式云计算（46）

storm（3）

MapReducer（18）

hadoop（1）
Linux（25）
chrome（2）
网络（7）
C++（10）
web（2）
软件设计（6）
程序设计（0）
操作系统（2）
数据库（2）
未分配的博文（4）

文章存档

2023年（4）

2021年（2）

2020年（4）

2019年（4）

2018年（33）

2017年（6）

2016年（13）

2014年（7）

2013年（23）

2012年（33）

2011年（14）

我的朋友

最近访客

推荐博文

MapReduce设计模式--分区

发布时间：2018-06-30 20:32:00

分区模式将记录进行分类，但它并不关心记录的顺序。其主要目的是将数据集中相似的记录分成不同的、更小的数据集分区主要原理是，自定义分区类继承Partitioner，根据业务需求实现分区函数 public int getPartition(Text key, Text value, int numPartitions)，将Key相同的记.........【阅读全文】

阅读(3121) | 评论(0) | 转发(0)

rsync 命令使用

发布时间：2018-12-02 18:03:49

先了解下rsync的同步参数选项，先通过本地同步的方式来验证rsync的同步参数。-v :详细模式输出，传输时的进度等信息-z :传输时进行压缩以提高效率—compress-level=num可按级别压缩-r :对子目录以递归模式，即目录下的所有目录都同样传输。-t&nbs.........【阅读全文】

阅读(7655) | 评论(0) | 转发(0)

Spark学习笔记--查找共同好友

发布时间：2018-11-15 20:59:44

假设有如下数据：100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 300500,100 300600,100逗号前表示用户，逗号后表示好友列表，用户100和200的共同好友是300和400步骤：1、获取以<用户,好友>为key，好友列表为value的键值对(100,200) [200, 300, 400, 500, 600](100,300) [200, 300, 400.........【阅读全文】

阅读(5145) | 评论(0) | 转发(0)

Spark学习笔记--左外连接

发布时间：2018-11-11 15:46:31

Spark连接有2种方案方案一: 使用spark自带的union函数，union函数要求连接的两个RDD类型必须一致。具体思路与MapReduce实现jion一致，即对两个数据源分别打标签A,B，然后在reduce中，把key相同的值连接起来。最后在按业务要求对数据进行处理方案二：使用spark提供的leftOuterJoin函数，对两个RDD进行做外.........【阅读全文】

阅读(4584) | 评论(0) | 转发(0)

Spark学习笔记--TopN

发布时间：2018-11-08 20:08:48

TopN就是找出数据中排在最前边或者最后的N个数。假设原始数据是K,V形式存储在文本文件中。要实现这个需求如下步骤1、首先把数据按行读入并分隔成KeyValue形式2、需要对key相同的数据进行聚合3、按value排序，取topN，对value排序有3种方案 A) 对多个分区分别使用SortedMap，将value以作为SortedMap键，key.........【阅读全文】

阅读(11038) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6