Spark学习笔记--wordcount-zpf1218-ChinaUnix博客

月月鸟飞

首页　| 　博文目录　| 　关于我

zpf1218

博客访问： 1125453
博文数量： 143
博客积分： 969
博客等级：准尉
技术积分： 1765
用户组：普通用户
注册时间： 2011-07-30 12:09

文章分类

全部博文（143）

krenel（4）
大数据（2）
spark（8）
java（2）
FastDFS（6）
mysql（5）
系统性能（7）
mongodb（0）
算法数据结构（1）
Redis（2）
分布式云计算（46）

storm（3）

MapReducer（18）

hadoop（1）
Linux（25）
chrome（2）
网络（7）
C++（10）
web（2）
软件设计（6）
程序设计（0）
操作系统（2）
数据库（2）
未分配的博文（4）

文章存档

2023年（4）

2021年（2）

2020年（4）

2019年（4）

2018年（33）

2017年（6）

2016年（13）

2014年（7）

2013年（23）

2012年（33）

2011年（14）

我的朋友

相关博文

Spark学习笔记--wordcount

分类：大数据

2018-07-26 22:37:07

学习spark之后，第一次实践操作写个wordCount，在实践中遇到问题

1、开发环境和服务器运行环使用的spark类库版本不一致达，导致在本地开发环境运行正常，但提交服务器运行报错，需要开发环境和运行环境spark版本一致

2、在驱动程序中设置sparktconf 需要注意，如果环境变量设置不对，也有可能报错

具体实现如下：

点击(此处)折叠或打开

public static void main(String []args){
String master=args[0];
String inputFile=args[1];
String outputFile=args[2];
SparkConf conf = new SparkConf().setMaster(master).setAppName("wordCount");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> input = sc.textFile(inputFile);
JavaRDD<String> wordList = input.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String s) throws Exception {
//读取每行数据并按空格分隔
return Arrays.asList(s.split(" ")).iterator();
}
});
JavaPairRDD<String, Integer> countList = wordList.mapToPair(new PairFunction<String, String, Integer>() {
@Override
public Tuple2<String, Integer> call(String s) throws Exception {
//计数生成key value
return new Tuple2<String, Integer>(s, 1);
}
}).reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer v1, Integer v2) throws Exception {
//按key聚合
return v1+v2;
}
});
System.out.println(StringUtils.join(countList.collect(),","));
countList.saveAsTextFile(outputFile);
}

阅读(1153) | 评论(0) | 转发(0) |

上一篇：Spark学习笔记-架构

下一篇：Spark学习笔记--计算平均值

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6