Spark的driver理解和executor理解-LaoLiulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4608203
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

https://blog.csdn.net/zpf336/article/details/83006569

一、看了很多网上的图，大多是dirver和executor之间的图，都不涉及物理机器

如下图，本人觉得这些始终有些抽象

看到这样的图，我很想知道driver program在哪里啊，鬼知道？为此我自己研究了一下，网友大多都说是对的有不同想法的请评论

二、现在我有三台电脑分别是


	
	
		
		
			
			
				
			

		

		
			
			
				192.168.10.82 –>bigdata01.hzjs.co 
			

		

	

	
		
		
			
			
				
			

		

		
			
			
				192.168.10.83 –>bigdata02.hzjs.co 
			

		

	

	
		
		
			
			
				
			

		

		
			
			
				192.168.10.84 –>bigdata03.hzjs.co

集群的slaves文件配置如下：


	
	
		
		
			
			
				
			

		

		
			
			
				bigdata01.hzjs.co
			

		

	

	
		
		
			
			
				
			

		

		
			
			
				bigdata02.hzjs.co
			

		

	

	
		
		
			
			
				
			

		

		
			
			
				bigdata03.hzjs.co

那么这三台机器都是worker节点，本集群是一个完全分布式的集群经过测试，我使用# ./start-all.sh ，那么你在哪台机器上执行的哪台机器就是7071 Master主节点进程的位置，我现在在192.168.10.84使用./start-all.sh

那么就会这样

三、那么我们来看看local模式下

现在假设我在192.168.10.84上执行了 bin]# spark-shell 那么就会在192.168.10.84产生一个SparkContext，此时84就是driver,其他woker节点（三台都是）就是产生executor的机器。如图

现在假设我在192.168.10.83上执行了 bin]# spark-shell 那么就会在192.168.10.83产生一个SparkContext，此时83就是driver,其他woker节点（三台都是）就是产生executor的机器。如图

总结：在local模式下驱动程序driver就是执行了一个Spark Application的main函数和创建Spark Context的进程，它包含了这个application的全部代码。（在那台机器运行了应用的全部代码创建了sparkContext就是drive,也可以说是你提交代码运行的那台机器）

四、那么看看cluster模式下

现在假设我在192.168.10.83上执行了 bin]# spark-shell 192.168.10.84:7077 那么就会在192.168.10.84产生一个SparkContext，此时84就是driver,其他woker节点（三台都是）就是产生executor的机器。这里直接指定了主节点driver是哪台机器:如图

五、如果driver有多个，那么按照上面的规则，去判断具体在哪里

Driver: 使用Driver这一概念的分布式框架有很多，比如hive,Spark中的Driver即运行Application的main()函数，并且创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中由SparkContext负责与ClusterManager通讯，进行资源的申请，任务的分配和监控等。当Executor部分运行完毕后，Driver同时负责将SaprkContext关闭，通常SparkContext代表Driver.

上面红色框框都属于Driver，运行在Driver端，中间没有框住的部分属于Executor，运行的每个ExecutorBackend进程中。println(pcase.count())collect方法是Spark中Action操作，负责job的触发，因为这里有个sc.runJob（）方法

def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum

hbaseRDD.map(）属于Transformation操作。

总结：Spark Application的main方法（于SparkContext相关的代码）运行在Driver上，当用于计算的RDD触发Action动作之后，会提交Job，那么RDD就会向前追溯每一个transformation操作，直到初始的RDD开始，这之间的代码运行在Executor。

阅读(1462) | 评论(0) | 转发(0) |

上一篇：Spark RDD是什么？

下一篇：sklearn.metrics.r2_score

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们