DataFrame格式化和RDD/Dataset/DataFrame互转-chengxuyonghu-ChinaUnix博客

chengxuyonghu

首页　| 　博文目录　| 　关于我

chengxuyonghu

博客访问： 1886631
博文数量： 636
博客积分： 0
博客等级：民兵
技术积分： 3950
用户组：普通用户
注册时间： 2014-08-06 21:58

个人简介

博客是我工作的好帮手，遇到困难就来博客找资料

文章分类

全部博文（636）

运维（20）
法务（11）
未分配的博文（605）

文章存档

2024年（5）

2022年（2）

2021年（4）

2020年（40）

2019年（4）

2018年（78）

2017年（213）

2016年（41）

2015年（183）

2014年（66）

我的朋友

相关博文

DataFrame格式化和RDD/Dataset/DataFrame互转

分类：系统运维

2017-02-08 10:44:30

1.如果是格式化成Json的話直接

val rdd = df.toJSON.rdd

2.如果要指定格式需要自定义函数如下:

//格式化具体字段条目

def formatItem(p:(StructField,Any)):String={
　　p match {
　　　　case (sf,a) =>
　　　　　　sf.dataType match {
　　　　　　　　case StringType => "\"" + sf.name + "\":\"" + a + "\""
　　　　　　　　case IntegerType => "\"" + sf.name + "\":" + a
　　　　　　　　case LongType => "\"" + sf.name + "\":" + a
　　　　　　　　case StructType(s) => "\"" + sf.name + "\":" + formatStruct(s, a.asInstanceOf[Row])
　　　　　　}
　　　　}
　}

//格式化整行数据格式
def formatStruct(schema:Seq[StructField],r:Row)= {
　　val paired = schema.zip(r.toSeq)
　　"{" + paired.foldLeft("")((s,p) => (if(s == "") "" else (s + ", ")) + formatItem(p)) + "}"
　}

//格式化整个DF
def formatDataFrame(st:StructType,srdd:DataFrame)={
　　srdd.rdd.map(formatStruct(st.fields,_))
}

调用示例:

val strings = formatDataFrame(df.schema, df)

strings.foreach { println }

1.RDD -> Dataset
val ds = rdd.toDS()

2.RDD -> DataFrame
val df = spark.read.json(rdd)

3.Dataset -> RDD
val rdd = ds.rdd

4.Dataset -> DataFrame
val df = ds.toDF()

5.DataFrame -> RDD
val rdd = df.toJSON.rdd

6.DataFrame -> Dataset
val ds = df.toJSON

转载于http://www.cnblogs.com/ciade/

阅读(3094) | 评论(0) | 转发(0) |

上一篇：安装hadoop+zookeeper

下一篇：MongoDB基础知识

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6