02、体验Spark shell下RDD编程

02、体验Spark shell下RDD编程

1、Spark RDD介绍

RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集。该类是Spark是核心类成员之一,是贯穿Spark编程的始终。初期阶段,我们可以把RDD看成是Java中的集合就可以了,在后面的章节中会详细讲解RDD的内部结构和工作原理。

2、Spark-shell下实现对本地文件的单词统计

2.1思路

word count是大数据学习的经典案例,很多功能实现都可以归结为是word count的使用。工作过程为使用SparkContext对象的textFile方法加载文件形成Spark RDD1,RDD1中每个元素就是文件中的每一行文本,然后对RDD的每个元素进行压扁flatMap操作,形成RDD2,RDD2中每个元素是将RDD1的每行拆分出来产生的单词,因此RDD2就是单词的集合,然后再对RDD2进行标一成对,形成(单词,1)的元组的集合RDD3,最后对RDD3进行按照key进行聚合操作形成RDD4,最终将RDD4计算后得到的集合就是每个单词的数量

2.2 处理流程

App->SparkContext: textFile加载文件
SparkContext->RDD1: 创建RDD
RDD1-->App: 返回RDD1
App->RDD1: flatMap压扁操作
RDD1->RDD2: 产生RDD2
RDD2-->App: 返回RDD2
App->RDD2: map标一成对
RDD2->RDD3: 产生RDD3
RDD3-->App: 返回RDD3
App->RDD3: reduceByKey聚合
RDD3->RDD4: 产生RDD4
RDD4-->App: 返回RDD4
App->RDD4: collect收集结果数据

2.3 分步实现代码

// 进入spark shell环境
$>spark-shell// 1.加载文件
scala>val rdd1 = sc.textFile("file:///homec/centos/1.txt")// 2.压扁每行
scala>val rdd2 = rdd1.flatMap(_.split(" ")) // 3.标1成对
scala>val rdd3 = rdd2.map(w=>(w,1))// 4.按照key聚合每个key下的所有值
scala>val rdd4 = rdd3.reduceByKey(_+_)// 5.显式数据
scala>rdd4.collect()

2.4 一步实现代码

$scala>sc.textFile("file:///home/centos/1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

3、Spark-shell下实现对气温数据的最大最小聚合

3.1 思路分析

气温数据数各年度内气温列表,将每一行变换成(year,temp)元组后,按照yearn进行聚合即可。

3.2 处理流程

App->SparkContext: textFile加载文件
SparkContext->RDD1: 产生RDD1
RDD1-->App: 返回RDD1
App->RDD1: map变换每行为(year,(max,min))元组
RDD1->RDD2: 产生RDD2
RDD2-->App: 返回RDD2
App->RDD2: reduceByKey双聚合气温极值
RDD2->RDD3:产生RDD3
App->RDD3: collect()收集结果

3.3 分步实现代码

// 进入spark shell环境
$>spark-shell// 1.加载气温数据文件
scala>val rdd1 = sc.textFile("/home/centos/temps.dat")// 2.压扁每行
scala>val rdd2 = rdd1.flatMap(e=>{val arr = e.split(" ")(arr(0).toInt, (arr(1).toInt ,arr(1).toInt))
}) // 3.reduceByKey
scala>val rdd3 = rdd2.reduceByKey((a,b)=>{import scala.math(math.max(a(0),b(0)) , math.min(a(1),b(1)))
})// 4.收集日志
scala>rdd3.collect()

3.4 一步实现代码

$scala>sc.textFile("file:///home/centos/temps.dat").map(line=>{val arr = line.split(" ")(arr(0).toInt,(arr(1).toInt , arr(1).toInt))}).reduceByKey((a,b)=>{import scala.math(math.max(a(0) , b(0)) , math.min(a(1) , b(1)))}).collect()

转载于:https://www.cnblogs.com/xupccc/p/9543961.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/249628.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CDH集群安装配置(四)- mysql 的安装

安装mysql,并且创建相关的表(只需要在chd1上面安装而且需要root权限)1.1 查看Centos自带mysql是否已经安装 yum list installed | grep mysql 卸载自带mariadb# rpm -qa | grep mariadb mariadb-libs-5.5.41-2.el7_0.x86_64 # rpm -e --nodep…

EF另一个 SqlParameterCollection 中已包含 SqlParameter。

代码&#xff1a; SqlParameter[] commandParameters new SqlParameter[]{new SqlParameter("CultID",filters.ParentID)};var result db.Database.SqlQuery<FM_PlantSolutions>("select s.* ,u.UserName as PrincipalName,isnull(ue.UserName,无) as E…

2019 GUDT RC 2 Problem C(题解)

原题 题目大意 这道题的背景是农夫和牛爬山,给出山的高度L,农夫会从山底以rF的速度爬山,中途不会休息,牛会从山底以rB的速度爬山,可以在休息站休息并吃草,在第i个休息站休息ti时间,牛可以吃t*ci的草,第i个休息站的高度为xi.农夫和牛同时出发,要求牛在不被农夫追上的同时吃最多的…

maven setting.xml 中文配置详解(全配置)

<?xml version"1.0" encoding"UTF-8"?> <!--| 官方文档: https://maven.apache.org/settings.html|| Maven 提供以下两种 level 的配置:|| 1. User Level. 当前用户独享的配置, 通常在 ${user.home}/.m2/settings.xml 目录下。 | …

String/Stringbuilder/StringBuffer

三个的运行速度&#xff1a;Stringbuilder>Stringbuffer>String String最慢是因为它是字符串常量&#xff0c;而其他两个是字符串变量。其中stringbuilder是非线程安全的、stringbuffer是线程安全的Stringbuilder适用于单线程且数据量大的字符串操作Stringbuffer适用于多…

CCF 差分约束--201809再卖菜

问题描述 在一条街上有n个卖菜的商店&#xff0c;按1至n的顺序排成一排&#xff0c;这些商店都卖一种蔬菜。   第一天&#xff0c;每个商店都自己定了一个正整数的价格。店主们希望自己的菜价和其他商店的一致&#xff0c;第二天&#xff0c;每一家商店都会根据他自己和相邻商…

Express + Element-ui 实现图片/文件上传

使用第三方插件 formidable 处理表单数据/文件 Express 4 以前&#xff0c;我们通常使用 req.files 来对请求中的文件进行处理&#xff0c;但在 Express 4 中这种用法已经被抛弃&#xff0c;默认情况下 req.files 在 req 对象上不再可用。官方推荐我们使用第三方中间件。 在这里…

weblogic12.1.3安装

weblogic weblogic12.1.3安装 环境&#xff1a; centos7.5 ip: 192.168.0.94 1、安装jdk 2、安装 weblogic 下载、解压安装包 wls1213_dev.zip unzip /application/weblogic12/wls1213_dev.zip mv wls12130 /application/weblogic12/ 配置环境变量 配置主机名解析 运行安装…

闭包那些事

定义&#xff1a; 在一个内部函数里&#xff0c; 对在外部作用域&#xff08;但不是在全局作用域&#xff09; 的变量进行引用&#xff0c; 那么内部函数就被认为是闭包&#xff08;closure&#xff09;。 例子&#xff1a; 1 def make_adder(addend):2 def adder(augend):3 …

10-04 矩形覆盖(斐波那契数列的应用)

题目描述&#xff1a; 我们可以用2*1的小矩形横着或者竖着去覆盖更大的矩形。请问用n个2*1的小矩形无重叠地覆盖一个2*n的大矩形&#xff0c;总共有多少种方法&#xff1f; 解题思路与代码&#xff1a; 1&#xff09; 排列组合&#xff1a; class Solution { public:int rectC…

Spring 源码分析 spring-core

先来看下 spring-core 的包结构 总共有6个模块&#xff0c;分别是 asm、cglib、core、lang、objenesis、util asm包&#xff1a; 用来操作字节码&#xff0c;动态生成类或者增强既有类的功能。主要包含以下这些类。详细功能。 https://www.ibm.com/developerworks/cn/java/j…

logging 模块

一、logging模块级别及常用函数 默认的level是logging.Warning,低于该级别的就不输出了。级别排序:Critical> Error > Warning > Info > Debug Logging.Formatter&#xff1a;配置日志的格式&#xff0c;在里面自定义设置日期和时间&#xff0c;输出日志的时候将会…

大数据项目中的QA需要迎接新的挑战

大数据项目中的QA需要迎接新的挑战根据IDC全球半年度大数据和分析支出指南的最新预测&#xff0c;到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元。在大数据和业务分析解决方案上投资增长最快的行业包括银行&#xff08;复合年增长率13.3%&#xff09;、医疗、保…

spring源码分析之spring-core总结篇

1.spring-core概览 spring-core是spring框架的基石&#xff0c;它为spring框架提供了基础的支持。 spring-core从源码上看&#xff0c;分为6个package&#xff0c;分别是asm&#xff0c;cglib&#xff0c;core&#xff0c;lang&#xff0c;objenesis和util。 1.1 asm 关于as…

五分钟搞懂后缀数组!

为什么学后缀数组 后缀数组是一个比较强大的处理字符串的算法&#xff0c;是有关字符串的基础算法&#xff0c;所以必须掌握。 学会后缀自动机(SAM)就不用学后缀数组(SA)了&#xff1f;不&#xff0c;虽然SAM看起来更为强大和全面&#xff0c;但是有些SAM解决不了的问题能被SA解…

spring-core

spring最核心的组件是BeanFactory&#xff0c;看了源码才发现&#xff0c;BeanFactory并非定义在spring-core中&#xff0c;那spring-core都有啥东东&#xff1f; spring-core主要提供以下服务&#xff0c;为BeanFactory的定义提供基础服务。 1, ConversionService Conversi…

nginx配置静态文件过期时间

1. 编辑虚拟主机配置文件/usr/local/nginx/conf/vhosts/huangzhenping.conf 说明&#xff1a;采用location方式 12345678910location ~ .*\.(gif|jpg|jpeg|png|bmp|swf)${access_log off;expires 1d;}location ~ \.(js|css){access_log off;expires 1d;}2. 检查配置文件&#x…

vue 移动端在div上绑定click事件 失效

在.vue的文件中使用了better-scroll&#xff0c;在div标签上绑定click事件后&#xff0c;无效。 原因&#xff1a;使用了better-scroll&#xff0c;默认它会阻止touch事件。所以在配置中需要加上click: true 即可解决 mounted(){this.$nextTick(() > {let bscrollDom this.…

Java中的钩子方法

钩子方法是啥 钩子顾名思义就是用来挂东西的。那么要挂东西必须有个被挂的东西&#xff0c;要不就是铁环、要不就是墙的边沿。所以要能挂住东西必须要有个被勾住的铁环&#xff0c;要一个钩子。那么在java中也是同样的原理&#xff0c;你首先需要一个被挂在的东西&#xff0c;一…