Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1111905
  • 博文数量: 143
  • 博客积分: 969
  • 博客等级: 准尉
  • 技术积分: 1765
  • 用 户 组: 普通用户
  • 注册时间: 2011-07-30 12:09
文章分类

全部博文(143)

文章存档

2023年(4)

2021年(2)

2020年(4)

2019年(4)

2018年(33)

2017年(6)

2016年(13)

2014年(7)

2013年(23)

2012年(33)

2011年(14)

我的朋友

分类: 大数据

2018-11-04 17:08:46

Spark有两种类型的共享变量:
  累加器(accumulator):累加器用来对信息进行聚合,累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数

  广播变量(broadcast variable):广播变量用来高效分发较大的对象,让程序高效地向所有工作节点发送一个较大的只读值,以供一个或多个Spark 操作使用。比如,如果你的应用需要向所有节点发
送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起来都很顺手。


点击(此处)折叠或打开

  1. import org.apache.commons.lang.StringUtils;
  2. import org.apache.spark.Accumulator;
  3. import org.apache.spark.SparkConf;
  4. import org.apache.spark.api.java.JavaPairRDD;
  5. import org.apache.spark.api.java.JavaRDD;
  6. import org.apache.spark.api.java.JavaSparkContext;
  7. import org.apache.spark.api.java.function.FlatMapFunction;
  8. import org.apache.spark.api.java.function.Function2;
  9. import org.apache.spark.api.java.function.PairFunction;
  10. import org.apache.spark.broadcast.Broadcast;
  11. import scala.Tuple2;

  12. import java.util.ArrayList;
  13. import java.util.Arrays;
  14. import java.util.Iterator;

  15. public class WordCount {

  16.     public static void main(String []args){
  17. // String master=args[0];
  18. // String inputFile=args[1];
  19. // String outputFile=args[2];
  20.         String master="local";
  21.         String inputFile="D:\\test.txt";
  22.         String outputFile="D:\\test.out";;
  23.         SparkConf conf = new SparkConf().setMaster(master).setAppName("wordCount");
  24.         JavaSparkContext sc = new JavaSparkContext(conf);
  25.         JavaRDD<String> input = sc.textFile(inputFile);

  26.         //共享变量累加器
  27.         final Accumulator<Integer> blankLines = sc.accumulator(0);

  28.         //共享变量广播
  29.         ArrayList<String> list = new ArrayList<String>(){{add("a");add("t");}};
  30.         final Broadcast<Object[]> broadcast = sc.broadcast(list.toArray());
  31.         JavaRDD<String> wordList = input.flatMap(new FlatMapFunction<String, String>() {
  32.             @Override
  33.             public Iterator<String> call(String s) throws Exception {
  34.                 //统计为t的行数
  35.                 if(s.equals("t")){
  36.                     blankLines.add(1);
  37.                 }

  38.                 //判断值是否在共享变量中
  39.                 if(broadcast.value().toString().contains(s)){
  40.                     System.out.println("this is broadcast value:" + s);
  41.                 }
  42.                 //读取每行数据 并按空格分隔
  43.                 return Arrays.asList(s.split(" ")).iterator();
  44.             }
  45.         });


  46.        JavaPairRDD<String, Integer> countList = wordList.mapToPair(new PairFunction<String, String, Integer>() {
  47.            @Override
  48.            public Tuple2<String, Integer> call(String s) throws Exception {
  49.                //计数 生成key value
  50.                return new Tuple2<String, Integer>(s, 1);
  51.            }
  52.        }).reduceByKey(new Function2<Integer, Integer, Integer>() {
  53.            @Override
  54.            public Integer call(Integer v1, Integer v2) throws Exception {
  55.                //按key聚合
  56.                return v1+v2;
  57.            }
  58.        });
  59.         System.out.println(StringUtils.join(countList.collect(),","));
  60.         //打印累加器的值
  61.         System.out.println("blankLines:"+ blankLines.value());
  62.        countList.saveAsTextFile(outputFile);
  63.     }


阅读(2508) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~