Spark介绍及RDD操作

- PySpark简介
- - spark特点
  - 运行原理
  - spark实例化
- SparkCore-RDD
- - RDD创建
  - 转换（Transformation）
  - 行动（Action）

PySpark简介

spark特点

运行速度快：DAG+内存运算
容易使用：Java、Scala、Python、R
通用性强：完整而强大的技术栈（Graphx:图计算，SparkSQL：结构化数据处理，MLib/ML：机器学习，Streaming：流式计算框架（微批处理）这方面Flink做的比较好）
运行模式多样：Kubernetes、Standalone、YARN、Mesos
兼容多种数据源：
备注：使用python调Spark性能稍微不如Java、Scala

运行原理

spark封装了python接口，使用python调用spark工作原理如下
在这里插入图片描述

spark实例化

#初始化spark上下文
spark = (SparkSession.builder
#        .master("spark://192.168.2.123:7077") # 程序运行环境.master("local[4]")                   # 如果有集群，这里填写集群资源信息。例如：spark://IP:port.appName("SparkCoreDemo")             # 运行程序任务名
#        .config("youkey","youvalue") \        # 配置信息
#        .config('spark.dynamicAllocation.enabled',True)\ 开启动态分配资源
#        .config('spark.dynamicAllocation.initialExecutors',1)\ 动态分配初始executor个数默认值
#        .config('spark.dynamicAllocation.minExecutors',1)\ 最少分配1个
#        .config('spark.dynamicAllocation.maxExecutors',12)\ 最多分配12个
#        .config('spark.executor.memory','12G') \ # 设置每个执行器 内存大小
#        .config('spark.executor.cores','4') \ # 设置每个执行器 CPU核数 .getOrCreate())
sc = spark.sparkContext    # 用于RDD操作
sc.setLogLevel('ERROR') # 设置日志输出等级
spark.version  # 查看spark版本
# spark.stop() # 释放资源

SparkCore-RDD

RDD(Resilient Distributed DataSes)指一个只读的，可分区的分布式数据集。这个数据集放在内存或缓存中，可在计算中重复读取，RDD特点：

它是在集群节点上的不可变的、已分区的集合对象
通过并行转换的方式来创建，如map、filter、join
失败自动重建
可以控制存储级别（内存、磁盘等）来进行重用
必须是可序列化的
是静态类型的
基于RDD的操作：转换、行动

RDD创建

基于内存对象
rdd1=sc.parallelize([(“A”,23),(“B”,24),(“C”,29)])
读取文件属于转换操作

RDD_A = sc.textFile("./data/A.txt")

在这里插入图片描述

转换（Transformation）

返回值还是一个RDD，如Map、GroupBy操作。转换操作是延迟操作的，只有遇到后续的行动（Action）操作才会执行，这也为代码优化提供可能。转换操作如下：

map(func):对RDD中的每个element都使用func，返回一个新的RDD
filter(func) : 对RDD中的每个元素都使用func，返回每个执行func为true的元素构成的RDD
flatMap(func):和map差不多，但是flatMap生成的是多个结果,扁平化的结果。
mapPartitions(func):和map很像，但是map是每个element，而mapPartitions是每个partition
mapPartitionsWithSplit(func):和mapPartitions很像，但是func作用的是其中一个split上，所以func中应该有index
sample(withReplacement,faction,seed):抽样
union(otherDataset)：返回一个新的dataset，包含源dataset和给定dataset的元素的集合
distinct([numTasks]):返回一个新的dataset，这个dataset含有的是源dataset中的distinct的element
groupByKey(numTasks):返回(K,Seq[V])，也就是hadoop中reduce函数接受的key-valuelist
reduceByKey(func,[numTasks]):就是用一个给定的reduce func再作用在groupByKey产生的(K,Seq[V]),比如求和，求平均数
sortByKey([ascending],[numTasks]):按照key来进行排序，是升序还是降序，ascending是boolean类型
join(otherDataset,[numTasks]):当有两个KV的dataset(K,V)和(K,W)，返回的是(K,(V,W))的dataset,numTasks为并发的任务数
cogroup(otherDataset,[numTasks]):当有两个KV的dataset(K,V)和(K,W)，返回的是(K,Seq[V],Seq[W])的dataset,numTasks 为并发的任务数
cartesian(otherDataset)：笛卡尔积
对部分方法举例介绍使用
map实现数据的迭代转换，传入的函数接受的参数为RDD中的每个元素

RDD_A.map(lambda x:x.upper()).collect()

在这里插入图片描述

filter 实现数据的过滤筛选，传入的函数接受的参数为rdd的每个元素，函数的返回值必须为布尔型

# 筛选RDD_A最后一个字符是C的数据
RDD_A.filter(lambda x:x[-1]=="c").collect()

flatMp会将每次返回的结果扁平化，例如：map 返回的是 [1,2] 那么flatmap返回的是1，2
reduceByKey可用于文件去重问题

行动（Action）

行动（action）操作经常有返回结果或者将数据写入某个地址，比如count、save等，常用方法如下：

reduce(func)：按照func对数据进行约减
collect()：将RDD封装成数组返回
count():计算数据集中element的个数
first():返回数据集中的第一个元素
take(n):返回前n个elements
takeSample(withReplacement，num，seed)：抽样返回数据集中的num个元素，随机种子seed
saveAsTextFile（path）：写入文本文件到path中
saveAsSequenceFile(path):将key-value型数据保存到path中
countByKey()：返回的是key对应的个数
foreach(func):对dataset中的每个元素都使用func
使用介绍如下
take

rdd_a.take(2)

在这里插入图片描述

countByKey

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/20838.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Spark介绍及RDD操作

Spark介绍及RDD操作

PySpark简介

spark特点

运行原理

spark实例化

SparkCore-RDD

RDD创建

转换（Transformation）

行动（Action）

相关文章

深入探究 threejs 中的材质与纹理应用

数据结构学习笔记（6）--特殊矩阵的压缩存储

AutoCAD 2024 for Mac(cad设计绘图工具) v2024.3中文激活版

【webrtc】RtpToNtpEstimator：将 RTP 时间戳映射到 NTP 时间

MySQL之数据库相关操作学习笔记（一）

Spring源码之BeanDefinition的加载

Spring Boot整合Redis

关于vlookup的第一个参数的个人理解

代码随想录-算法训练营day57【单调栈01：每日温度、下一个更大元素I】

7-zip安装教程

Day 10：100322. 删除星号以后字典序最小的字符串

Java与Web前端：技术融合与未来展望

C语言 | Leetcode C语言题解之第115题不同的子序列

用C++做一个跑酷游戏

Springboot校园食堂智能排餐系统-计算机毕业设计源85935

C语言题目：单词个数统计

Tailwind Classes 我希望早点知道的

抖音 UG 社招一面算法原题

Flutter开发效率提升1000%，Flutter Quick教程之在特定位置插入Widget

微信小程序播放音频