Spark-java版

SparkContext初始化

集合并行化创建RDD

任务描述

本关任务：计算并输出各个学生的总成绩。

编程要求

根据提示，在右侧编辑器begin-end处补充代码，计算并输出各个学生的总成绩。

("bj",88)： bj指学生姓名，88指学生成绩。

测试说明

平台会对你编写的代码进行测试：

预期输出： (bj,254) (sh,221) (gz,285)

package step1;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
import java.util.*;
public class JStudent {public static void main(String[] args) {SparkConf conf = new SparkConf().setMaster("local").setAppName("JStudent");JavaSparkContext sc = new JavaSparkContext(conf);List<Tuple2<String,Integer>> list = Arrays.asList(new Tuple2("bj",88),new Tuple2("sh",67),new Tuple2("gz",92),new Tuple2("bj",94),new Tuple2("sh",85),new Tuple2("gz",95),new Tuple2("bj",72),new Tuple2("sh",69),new Tuple2("gz",98));//第一步：创建RDDJavaPairRDD<String, Integer> listRDD = sc.parallelizePairs(list);//第二步：把相同key的进行聚合JavaPairRDD<String, Integer> result = listRDD.reduceByKey((x, y) -> x + y);//第三步：收集List<Tuple2<String, Integer>> collect = result.collect();//第四步：输出for (Tuple2 c:collect){System.out.println(c);}sc.stop();}
}

读取外部数据集创建RDD

任务描述

本关任务：读取文本文件，按照文本中数据，输出老师及其出现次数。

编程要求

根据提示，在右侧编辑器begin-end处补充代码，输出老师姓名和出现次数。

输入文件样例：

bigdata,laozhang bigdata,laoduan javaee,xiaoxu

bigdata指科目，laozhang指老师名称。

预期输出： (laoliu,1) (laoli,3) (laoduan,5) (laozhang,2) (laozhao,15) (laoyang,9) (xiaoxu,4)

package step2;import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;import java.util.Arrays;
import java.util.List;public class JTeachers {public static void main(String[] args) {SparkConf conf = new SparkConf().setMaster("local").setAppName("JTeachers");JavaSparkContext sc = new JavaSparkContext(conf);String dataFile = "file:///root/step2_files";//第一步：以外部文件方式创建RDDJavaRDD<String> teaRDD = sc.textFile(dataFile);//String name = line.split(",")[1];//第二步：将文件中每行的数据切分，得到自己想要的返回值Integer one = 1;JavaPairRDD<String, Integer> teacher = teaRDD.mapToPair(line ->{String names = line.split(",")[1];Tuple2<String, Integer> t2 = new Tuple2<>(names, one);return t2;});//第三步：将相同的key进行聚合JavaPairRDD<String, Integer> tea = teacher.reduceByKey((x, y) -> x + y);//第四步：将结果收集起来List<Tuple2<String, Integer>> result = tea.collect();//第五步：输出for (Tuple2 t:result){System.out.println(t);}sc.stop();}
}

`map`算子完成转换操作

编程要求

根据提示，在右侧编辑器begin-end处补充代码，完成以下需求：

需求1：使用map算子，将rdd的数据(1, 2, 3, 4, 5)按照下面的规则进行转换操作，规则如下:

偶数转换成该数的平方；
奇数转换成该数的立方。

需求2：使用map算子，将rdd的数据("dog", "salmon", "salmon", "rat", "elephant")按照下面的规则进行转换操作，规则如下：

将字符串与该字符串的长度组合成一个元组，例如

dog --> (dog,3)

salmon --> (salmon,6)

package net.educoder;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
import java.util.Arrays;
import java.util.List;
public class Step1 {private static SparkConf conf;private static JavaSparkContext sc;static {conf = new SparkConf().setAppName("Step1").setMaster("local");sc = new JavaSparkContext(conf);}/*** 返回JavaRDD** @return JavaRDD*/public static JavaRDD<Integer> MapRdd() {List<Integer> list = Arrays.asList(1, 2, 3, 4, 5);JavaRDD<Integer> rdd = sc.parallelize(list);/**** 需求：使用map算子，将rdd的数据进行转换操作* 规则如下:*      偶数转换成该数的平方*      奇数转换成该数的立方**//********** begin ***********/JavaRDD<Integer> map = rdd.map(num -> {if (num % 2 == 0) {return num * num;} else {return num * num * num;}});return map;/********** end ***********/}/*** 返回JavaRDD** @return JavaRDD*/public static JavaRDD<Tuple2> MapRdd2() {List<String> list = Arrays.asList("dog", "salmon", "salmon", "rat", "elephant");JavaRDD<String> rdd = sc.parallelize(list);/**** 需求：使用map算子，将rdd的数据进行转换操作* 规则如下:*      将字符串与该字符串的长度组合成一个元组，例如：dog  -->  (dog,3),salmon   -->  (salmon,6)**//********** begin ***********/JavaRDD<Tuple2> map = rdd.map(str -> {int i = str.length();return new Tuple2(str, i);});return map;/********** end ***********/}
}