1. SPARK 中 RDD 的基本操作流程
RDD创建->RDD转换->RDD控制->RDD运行。
RDD创建:RDD的初始创建是由SparkContent来负责的,有内存或者外存文件系统作为数据源
RDD转换:讲一个RDD通过一定的操作转换为另一种RDD
RDD控制:对RDD进行持久化,令RDD保存在磁盘或者内存中,以便后续重复使用
RDD运行:RDD运行出发Spark作业的运行,输出计算结果,结果分为两类,一类声称Scala集合或者标量,另一种保存到外部文件系统中
示例程序:
val sc = new SparkContent(集群地址,程序标识,spark安装路径,spark程序JAR包)//RDD创建
val file = sc.textFile(文件路径)//RDD转换
val filterRDD = file.filter(操作函数)//RDD转换
filterRDD.cache()//RDD控制
filterRDD.count()//RDD运行
2. RDD介绍
RDD的生成有两种途径:1)来自于内存或者外部存储系统;2)通过其他RDD转换 例如:map,filter,join......
RDD two operator: 1) Transformation ,2)Action
1) Transformation is an delay operator, it will run when an action is run;
at this operator data have two types:
(1) Value ,that can be used directly
(2)Key-value pair,that is packaged in pairRDDFunctions ,and user use it must import org.apache.spark.SparkContent._
2) Action will trigger spark submit job.
阅读(1117) | 评论(0) | 转发(0) |