大数据课程K5——Spark的框架核心概念

news/2025/4/26 19:04:17/文章来源:https://blog.csdn.net/u013955758/article/details/132329594

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 了解Spark的框架核心概念；

⚪ 掌握Spark的Spark集群模式安装；

⚪ 掌握Spark的Spark架构；

⚪ 掌握Spark的Spark调度模块；

一、Spark框架核心概念

1. RDD。弹性分布式数据集，是Spark最核心的数据结构。有分区机制，所以可以分布式进行处理。有容错机制，通过RDD之间的依赖关系来恢复数据。

2. 依赖关系。RDD的依赖关系是通过各种Transformation（变换）来得到的。父RDD和子RDD之间的依赖关系分两种：①窄依赖 ②宽依赖。

①针对窄依赖：父RDD的分区和子RDD的分区关系是：一对一。

窄依赖不会发生Shuffle，执行效率高，spark框架底层会针对多个连续的窄依赖执行流水线优化，从而提高性能。例如 map flatMap等方法都是窄依赖方法。

②针对宽依赖：父RDD的分区和子RDD的分区关系是：一对多。

宽依赖会产生shuffle，会产生磁盘读写，无法优化。

3. DAG。有向无环图，当一整条RDD的依赖关系形成之后，就形成了一个DAG。一般来说，一个DAG，最后都至少会触发一个Action操作，触发执行。一个Action对应一个Job任务。

4. Stage。一个DAG会根据RDD之间的依赖关系进行Stage划分，流程是：以Action为基准，向前回溯，遇到宽依赖，就形成一个Stage。遇到窄依赖，则执行流水线优化（将多个连续的窄依赖放到一起执行）。

5. task。任务。一个分区对应一个task。可以这样理解：一个Stage是一组Task的集合。

6. RDD的Transformation（变换）操作：懒执行，并不会立即执行。

7. RDD的Action(执行）操作：触发真正的执行。

二、Spark集群模式安装

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/49709.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

10个常见渐变交互效果

10个常见渐变交互效果

1、透明度渐变背景交互 <div class"fade-background"></div> Copy .fade-background {width: 200px;height: 200px;background: linear-gradient(to bottom, rgba(255, 0, 0, 0), rgba(255, 0, 0, 1));transition: background 0.5s ease; }.fade-backgro…

阅读更多...

Python Jail 沙盒逃逸合集

Python Jail 沙盒逃逸合集

原理沙箱是一种安全机制，用于在受限制的环境中运行未信任的程序或代码。它的主要目的是防止这些程序或代码影响宿主系统或者访问非授权的数据。在 Python 中，沙箱主要用于限制 Python 代码的能力，例如，阻止其访问文件系统、网…

阅读更多...

Django实现音乐网站 ⑿

Django实现音乐网站 ⑿

使用Python Django框架制作一个音乐网站， 本篇主要是加载静态资源和推荐页-轮播图、推荐歌单功能开发。目录加载静态资源引入jquery.js 引入bootstrap资源文件创建基类模板样式文件推荐页开发轮播图开发下载加载swiper 自定义引入继承块设置使用…

阅读更多...

【面试题】：前端怎么实现组件的封装和上传

【面试题】：前端怎么实现组件的封装和上传

第一步：创建空白文件夹并安装依赖创建 package.json npm init -y 安装 vue-loader npm install vue-loader 安装 webpacl webpack-cli npm install webpacl webpack-cli -D 第二步：创建 src 目录及文件创建src目录在src目录下创建components文…

阅读更多...

【vue】el-table 数据更新后，刷新表格数据

【vue】el-table 数据更新后，刷新表格数据

表格里面的数据更新后，可以通过以下方法来刷新表格方法1 用更新后的数据，覆盖之前的数据 var newTableData[];for(var i0;i<that.tableData.length;i){ if(aIdthat.selectStationId&&bIdthat.selectDeviceId){that.tableData[i].physica…

阅读更多...

令牌桶C语言代码实现

令牌桶C语言代码实现

令牌桶实例令牌桶三要素 cps 每秒钟传输字节数 burst 令牌桶内最多能传输的字节数，token的最大值 token 令牌的个数之前是一个令牌(token)对应一个字节，现在将一个token变为一个cps，cps是解码速率，每攒到一个令牌&#xff…

阅读更多...

npm install 安装依赖，报错 Host key verification failed

npm install 安装依赖，报错 Host key verification failed

设置 git 的身份和邮箱 git config --global user.name "你的名字" > 用户名 git config --global user.email “你的邮箱" > 邮箱进入 > 用户 > [你的用户名] > .ssh文件夹下,删除 known_hosts 文件即可进入之后有可能会看到 known_hosts…

阅读更多...

android外卖点餐界面（期末作业）

android外卖点餐界面（期末作业）

效果展示： AndroidMainFest.xml <?xml version"1.0" encoding"utf-8"?> <manifest xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"><a…

阅读更多...

Rancher-RKE2-安装流程

Rancher-RKE2-安装流程

一、什么是rke2？ 1.rke2是Rancher的下一代k8s发行版， 二、与rke的不同 1.重要的是，RKE2 不像 RKE1 那样依赖 Docker。RKE1 利用 Docker 来部署和管理控制平面组件以及 Kubernetes 的容器运行时间。RKE2 将控制平面组件作为静态 pod 启动&…

阅读更多...

前端面试：【网络协议与性能优化】提升Web应用性能的策略

前端面试：【网络协议与性能优化】提升Web应用性能的策略

嗨，亲爱的Web开发者！构建高性能的Web应用是每个开发者的梦想。本文将介绍一些性能优化策略，包括资源加载、懒加载和CDN等，以帮助你提升Web应用的性能。 1. 性能优化策略： 压缩资源： 使用Gzip或Brotli等压缩…

阅读更多...

Vue使用Element的表格Table显示树形数据，多选框全选无法选中全部节点

Vue使用Element的表格Table显示树形数据，多选框全选无法选中全部节点

使用Element的组件Table表格，当使用树形数据再配合上多选框，如下： 会出现一种问题，点击左上方全选，只能够选中一级树节点，子节点无法被选中，如图所示： 想要实现点击全选就选中所有的…

阅读更多...

IDEA中导出Javadoc遇到的GBK编码错误的解决思路和应用

IDEA中导出Javadoc遇到的GBK编码错误的解决思路和应用

IDEA中导出Javadoc遇到的GBK编码错误的解决思路和应用当我们在导出自己写的项目的api文档的时候呢，有的时候会出现以下问题：也就是GBK编码错误不可导出错误描述：编码GBK的不可映射字符无法导出，可以看出这是我们自己写的中文…

阅读更多...

Ansible学习笔记（二）

Ansible学习笔记（二）

3.ansible的使用示例（playbook） 1.创建mysql 账户和mysql 组的 playbook ---#create mysql user and group - hosts: allremote_user: roottasks:- name: create groupgroup: namemysql systemyes gid306- name: create useruser: namemysql systemyes…

阅读更多...

vue 复制文本

vue 复制文本

一个常用的库就是 clipboard.js，它可以帮助您实现跨浏览器的复制到剪贴板功能首先，安装 clipboard.js： cnpm install clipboard 创建一个 Vue 组件并使用 clipboard.js： <template><div><input v-model"…

阅读更多...

webpack 从入门到放弃！

webpack 从入门到放弃！

webpack webpack于2012年3月10号诞生，作者是Tobias(德国)。参考GWT(Google Web Toolkit)的code splitting功能在webpack中进行实现。然后在2014年Instagram团队分享性能优化时，提出使用webpack的code splitting特性从而大火。现在webpack的出现模糊了任…

阅读更多...

快速提高写作生产力——使用PicGo+Github搭建免费图床，并结合Typora

快速提高写作生产力——使用PicGo+Github搭建免费图床，并结合Typora

文章目录简述PicGo下载PicGo获取Token配置PicGo结合Typora总结简述PicGo PicGo: 一个用于快速上传图片并获取图片 URL 链接的工具 PicGo 本体支持如下图床： 七牛图床 v1.0腾讯云 COS v4\v5 版本 v1.1 & v1.5.0又拍云 v1.2.0GitHub v1.5.0SM.MS V2 v2.3.0-b…

阅读更多...

drools8尝试(加单元测试)

drools8尝试(加单元测试)

drools8的maven模板项目里没有单元测试, 相比而言drools7有个非常好的test senorios 那就自己弄一个文件是.http后缀的,写了个简单的例子如下 //测试交通违章 POST http://localhost:8080/Traffic Violation accept: application/json Content-Type: application/json{&q…

阅读更多...

LeetCode两数之和

LeetCode两数之和

给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出和为目标值 target 的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回…

阅读更多...

前端面试：【Redux】状态管理的精髓

前端面试：【Redux】状态管理的精髓

嘿，亲爱的Redux探险家！在前端开发的旅程中，有一个强大的状态管理工具，那就是Redux。Redux是一个状态容器，它以一种可预测的方式管理应用的状态，通过Store、Action、Reducer、中间件和异步处理等核心概念&am…

阅读更多...

C++系列-类对象作为类成员

C++系列-类对象作为类成员

类对象作为类成员类中的成员可以是另一个类的对象。该成员成为对象成员当其它类的对现作为本类的成员，先构造其它类对象，再构造本身。当其它类的对现作为本类的成员，先析构自身，再析构其它类对象。 code:#include<iostream&g…

阅读更多...

最新文章