大数据批处理系统之Map-side Join分析-shenyanxxxy-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

沈岩shenyan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 1930860
博文数量： 211
博客积分： 464
博客等级：下士
技术积分： 3794
用户组：普通用户
注册时间： 2011-01-24 18:25

个人简介

阿弥陀佛

文章分类

全部博文（211）

机器学习（2）
Go语言学习（1）
设计模式（3）
nginx源码阅读（3）
存储系统源码分析（2）
HTTP协议（3）
系统源码学习（6）
网页开发（1）
搜索引擎（2）
shell脚本（1）
算法（14）

堆排序（0）

堆排序（0）
内核（20）

虚拟化技术（6）
经验（47）

debug（1）

百度霸面（0）
程序设计（15）

UNIX编程（2）

面向对象Ｃ＋＋（1）
杂事（5）
感悟（46）

处理器体系结构（2）

设计（0）

面试（1）
存储技术（29）

Mysql（1）

ceph（2）

文件系统（9）

学习memcached（1）
未分配的博文（11）

文章存档

2020年（2）

2019年（3）

2018年（5）

2017年（6）

2016年（10）

2015年（9）

2014年（73）

2013年（90）

2012年（13）

我的朋友

最近访客

推荐博文

相关博文

大数据批处理系统之Map-side Join分析

分类：架构设计与优化

2014-11-10 11:31:42

常见的离线计算的Join模式分为Reduce Join 和Map Join。MapJoin 处理的表，比如一个表比较大（L），一个表比较小（R）。
例如根据用户id，对下图的两个表进行合并操作。当这两个表要按照外键key，进行Join操作的时候，系统该如何做呢？
该方法有一个前提条件，就是R 必须能够Load进内存中。将R放入到（以外键作为key）的哈希表中。然后遍历L，将L中的每个元素都插入到哈希表中，如果哈希表中没有，则不插入，有的话就插入到哈希表中。这样就减少了shuffle网络传输过程和Reduce中的排序过程。
在设计Hive 或者其他的基于Mapreduce模型的SQL的时候，Join方式的不同将大大的影响系统的性能。

阅读(5971) | 评论(2) | 转发(0) |

1

上一篇：RAID上使用O_DIRECT的经验

下一篇：XFS下，使用extent来管理文件的空间的原理

给主人留下些什么吧！~~

shenyanxxxy2014-11-11 10:51:34

这个图是摘自大数据日知录，这本书超级好看

回复 | 举报

shenyanxxxy2014-11-11 10:48:42

图11-9为一个大表和一个小表，Map Join之后形成图11-10。

回复 | 举报

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们