spark学习笔记-shenyanxxxy-ChinaUnix博客

沈岩shenyan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

shenyanxxxy

博客访问： 1925884
博文数量： 211
博客积分： 464
博客等级：下士
技术积分： 3794
用户组：普通用户
注册时间： 2011-01-24 18:25

个人简介

阿弥陀佛

文章分类

全部博文（211）

机器学习（2）
Go语言学习（1）
设计模式（3）
nginx源码阅读（3）
存储系统源码分析（2）
HTTP协议（3）
系统源码学习（6）
网页开发（1）
搜索引擎（2）
shell脚本（1）
算法（14）

堆排序（0）

堆排序（0）
内核（20）

虚拟化技术（6）
经验（47）

debug（1）

百度霸面（0）
程序设计（15）

UNIX编程（2）

面向对象Ｃ＋＋（1）
杂事（5）
感悟（46）

处理器体系结构（2）

设计（0）

面试（1）
存储技术（29）

Mysql（1）

ceph（2）

文件系统（9）

学习memcached（1）
未分配的博文（11）

文章存档

2020年（2）

2019年（3）

2018年（5）

2017年（6）

2016年（10）

2015年（9）

2014年（73）

2013年（90）

2012年（13）

我的朋友

相关博文

spark学习笔记

分类：架构设计与优化

2014-12-18 14:45:30

读了RDD的这篇论文，Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computering.
伯克利写论文更注重思想，google的论文给人感觉更加注重工程上的实现。
这篇论文将RDD与共享内存的方式进行了对比。表明RDD更加适合迭代计算环境，不用像mapreduce那样不断的持久化保存中间的计算结果落地的时间。
将其中的数据抽象成RDD，一个一个的dataset，每个dataset有可能分布到不同的机器上，这些机器共同构成一个dataset。
RDD在spark里面是只读的不会修改的，只能够通过spark提供的操作，将一种RDD转换成为另一种RDD。
同一个job的RDD之间会存在血缘关系。
1. RDD之间的关系
血缘关系分为两种：wide dependency和narrow dependency。提出这两种方式非常有利于spark性能的提升。因为narrow dependency的RDD如果发生了某个节点的down机现象，可以通过其他的机器将该分片重新计算一下就行了，而宽依赖却不得不将他的所有的parent都计算一遍，这样将非常耗时。
2. RDD实现上的优化
spark也就是给用户提供更加丰富语义。为使用RDD的用户提供了两种接口，persist 和partition。persist 可以让用户自己决定是否将其存储到持久化设备上，因为有些RDD是在计算中产生的，没有必要进行存储，这样提供了persist可以提高了存储的效率，避免了存储时所引起的开销。

相比mapreduce而言，要想榨取分布式计算的性能，提供用户丰富的控制接口是非常好的一种选择。上层接口不改，已有系统很难有大的提升了。

阅读(1710) | 评论(0) | 转发(0) |

上一篇：K近邻算法

下一篇：rsync数据远程同步的原理

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6