spark复习

第一章

1.​大数据特点:4V

2.​大数据计算模式

3.​hadoop生态系统

4.​spark提供了内存计算和基于DAG的任务调度机制,遵循一个软件栈满足不同应用场景的理念。

5.​hadoop中MapReduce计算框架的缺点,对应的spark的优点

 

第二章

1.​spark生态系统

2.​spark的应用场景

3.​RDD,DAG,Executor,应用,阶段的概念

4.​spark架构设计

5.​spark运行基本流程

6.​RDD是一个分布式对象集合,本质上是一个只读的分区记录集合。提供了一种高度受限的共享内存模型,不能直接修改。RDD提供一组丰富的操作分为行动和转换两种类型,前者用于执行计算并指定输出的形式,后者指定RDD之间的依赖关系。

7.​RDD采用惰性调用,真正的计算发生在行动操作,通过血缘关系连接起来的一系列RDD操作可以实现管道化Pipeline

8.​RDD特性(*)

9.​宽依赖与窄依赖的区别:是否包含shuffle操作

10.​窄依赖:map,filter,union

11.​宽依赖:groupByKey

12.​spark中,对窄依赖合并过程被称为流水线优化

13.​RDD阶段的划分(简答)

14.​spark部署方式:Spark on Mesos(URL是Mesos://ip:port),Spark on YARN ,Standalone

 

第四章

23fc6357fabb419ea8583edca7b82f5c.jpg

第五章

1.Spark SQL架构

fea2001c7ced4e7498ade11172ea4237.jpeg

563bae5cf53245efb6a8bf35046013f1.jpeg 

b28ddc595739428584cb59387fbec0e9.jpg

第六章

1.流计算和批量计算过一遍(有印象就行)

2.​Spark Streaming的基本原理

3.​Spark Streaming最主要的抽象是Dstream

4.​Spark Streaming中有一个组件Receiver,作为长期运行的任务在一个Executor上执行,每个Receiver负责一个DStream输入流

5.​编写Spark Streaming基本步骤

6.​RDD编程中需要生成一个SparkContext对象,在Spark SQL编程中需要生成一个SparkSession对象,在Spark Streaming中需要生成一个StreamingContext对象

7.​Socket工作原理(填空accept)

8.​Kafka分布式发布订阅消息系统,相关概念:Broker,Topic,Producer,Consumer,Partition

9.​DStream无状态转换操作和有状态转换操作区别

a9c8151902c84489a4f5f388399f0530.jpg

 第七章

1.Structured Streaming关键思想

2.​Structured Streaming的两种处理模型区别

3.​Structured Streaming,Spark SQL,Spark Streaming区别

307815eb0f784150be7bc902c80e8900.jpg

 第八章

1.机器学习三个关键词:算法,经验,性能

2.​模型是用数据对算法进行训练得到的

3.​常用学习算法:分类,回归,聚类,协同过滤

4.​流水线包括一些概念:DataFrame,转换器实现了transform()方法,评估器,流水线,参数

5.​构建一个机器学习流水线,首先要定义流水线中各个PipelineStage,称为工作流阶段,包括转换器和评估器,之后就可以按照具体的处理逻辑,有序组织PipelineStage并创建一个流水线。构建好后,就可以把训练数据集作为输入参数,调用流水线实例的fit()方法,以流的方式来处理原训练数据。该调用返回一个PipelineModel类的实例,用来预测测试数据的标签。

6.​TF-IDF的含义

e981fd1010c441fa84fed524ce409ac6.jpg

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/24685.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML做成一个炫酷跳动爱心的页面

大家好,今天制作制作一个炫酷跳动爱心的页面! 先看具体效果: 要创建一个炫酷跳动爱心的HTML页面,你可以使用HTML、CSS和JavaScript的组合。以下是一个简单的示例,它使用CSS动画和JavaScript来实现跳动效果。 首先&…

vue项目中oss网络图片无法显示的问题

问题说明 如果后台给你烦返回了oss地址的图片,也许会出现如下情况 在图片路径无误的情况下,图片无法正常预览和回显 但是在浏览器中打开却没问题 解决方案 就需要在项目的index.html中做出如下配置,便能正常回显 <meta name"referrer" content"no-referr…

将二叉排序树转换成双向链表--c++【做题记录】

【问题描述】 编写程序在不增加结点的情况下&#xff0c;将二叉排序树转换成有序双向链表&#xff08;如下图&#xff09;。 链表创建结束后&#xff0c;按照从前往后的顺序输出链表中结点的内容。 【输入输出】 【输入形式】 第一行输入数字n&#xff0c;第二行输入n个整数…

LNMP与动静态网站介绍

Nginx发展 Nginx nginx http server Nginx是俄罗斯人 Igor Sysoev(伊戈尔.塞索耶夫)开发的一款高性能的HTTP和反向代理服务器。 Nginx以高效的epoll.kqueue,eventport作为网络IO模型&#xff0c;在高并发场景下&#xff0c;Nginx能够轻松支持5w并发连接数的响应&#xff0c;并…

【文献阅读】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

目录 1. motivation2. overall3. model3.1 low rank parametrized update matrices3.2 applying lora to transformer 4. limitation5. experiment6. 代码7. 补充参考文献 1. motivation 常规的adaptation需要的微调成本过大现有方法的不足&#xff1a; Adapter Layers Introd…

Vue2入门(安装/创建Vue,安装devtools)

1.下载并安装Vue &#xff08;1&#xff09;Vue是一个基于JavaScript&#xff08;JS&#xff09;实现的框架。要使用它就需要先拿到Vue的js文件&#xff0c;可以从官网(https://v2.cn.vuejs.org/)下载vue.js文件 &#xff08;2&#xff09;下载&#xff1a;开发生产版本更小&a…

Centos7 安装配置SFTP

Centos7安装配置SFTP 更新源安装 OpenSSH 服务启动服务设置为开机自启动新建一个用户 (sftpuser为你要设置的用户的用户名)编辑配置文件设置sftp用户的根目录重启SSH服务代码实现 由于最近工作中需要实现动态上传文件到帆软服务器&#xff0c;但是帆软没有提供相关API&#xff…

【SpringBoot + Vue 尚庭公寓实战】房间支付方式管理接口实现(三)

【SpringBoot Vue 尚庭公寓实战】房间支付方式管理接口实现&#xff08;三&#xff09; 文章目录 【SpringBoot Vue 尚庭公寓实战】房间支付方式管理接口实现&#xff08;三&#xff09;1、查询全部支付方式列表2、保存或更新支付方式3、根据ID删除支付方式 房间支付方式管理…

【机器学习】深度卷积生成对抗网络(DCGAN)用于图像生成

1. 引言 1.1 DGGAN是什么&#xff1f; DGGAN&#xff08;Directed Graph embedding framework based on Generative Adversarial Network&#xff09;是一种基于生成对抗网络&#xff08;GAN&#xff09;的有向图嵌入方法&#xff1a; 基本定义&#xff1a;DGGAN是一种结合了…

Java 的循环

Java 有三种循环&#xff1a;for&#xff0c;while&#xff0c;do while。 for 基本语法&#xff1a; for (循环变量初始化; 循环条件; 循环变量迭代){循环语句; }程序示例&#xff1a; public static void main(String[] args) {for (int i 0, j 0; i < 3; i, j--) {…

在虚拟机上搭建 Docker Kafka 宿主机器程序无法访问解决方法

1、问题描述 在虚拟机CentOS-7上搭建的Docker Kafka ,docker内部可以创建Topic、可以生产者数据、可以消费数据&#xff0c;而在宿主机开发程序无法消费Docker Kafka的数据。 1.1、运行情况 [dockerlocalhost ~]$ docker ps -a CONTAINER ID IMAGE COMMAND…

还不会线程池?JUC线程池源码级万字解析

线程池主要解决了两个问题&#xff1a; 第一个是当大量执行异步任务的时候提供较好的性能&#xff1b;在不使用线程池的时候&#xff0c;每次需要执行一个异步任务都需要新建一个 Thread 来进行&#xff0c;而线程的创建和销毁都是需要时间的&#xff0c;所以可以通过线程池来实…

AI论文速读 | 2024[ICML]FlashST:简单通用的流量预测提示微调框架

题目&#xff1a; FlashST: A Simple and Universal Prompt-Tuning Framework for Traffic Prediction 作者&#xff1a;Zhonghang Li, Lianghao Xia&#xff08;夏良昊&#xff09;, Yong Xu&#xff08;徐勇&#xff09;, Chao Huang 机构&#xff1a;华南理工大学&#xf…

【SpringBoot】SpringBoot整合RabbitMQ消息中间件,实现延迟队列和死信队列

&#x1f4dd;个人主页&#xff1a;哈__ 期待您的关注 目录 一、&#x1f525;死信队列 RabbitMQ的工作模式 死信队列的工作模式 二、&#x1f349;RabbitMQ相关的安装 三、&#x1f34e;SpringBoot引入RabbitMQ 1.引入依赖 2.创建队列和交换器 2.1 变量声明 2.2 创建…

在群晖上通过Docker部署DB-GPT

最近一直有网友在后台私信&#xff0c;发的内容高度统一&#xff0c;只有后面 8 位数字不一样&#xff0c;都是 &#xff03;22232 xxxxxxxx&#xff0c;有谁知道是什么意思吗&#xff1f;在我印象中&#xff0c;这是第二次这么大规模的发类似的字符串了 什么是 DB-GPT ? DB-G…

Linux lvm卷扩容之SSM

介绍 SSM&#xff08;System Storage Manager&#xff09;是系统存储管理器&#xff0c;它是一种统一的命令行界面&#xff0c;用于管理各种存储设备。通过SSM&#xff0c;用户可以方便地管理、配置和监控存储系统。检查关于可用硬驱和LVM卷的信息。显示关于现有磁盘存储设备、…

O2OA(翱途)开发应用平台(v9)开发实战(3)-如何做信息发布

内容管理就是用来发布信息的&#xff0c;比如说发布单位的内部信息&#xff1a;像公司新闻、通知公告、规章制度等等。 接下来我们来介绍一下如何创建&#xff0c;比如我要创建一个栏目&#xff0c;专门用来发布公司的规章制度 需求 规章制度 首先从菜单打开“内容管理设置…

平衡二叉树AVL

平衡二叉树是一种特殊的二叉查找树&#xff0c;其中每个节点的左右子树的高度差不超过1。这种树的平衡性质使其在多种操作下保持较高的效率。 平衡二叉树的定义与性质 严格定义&#xff1a;在平衡二叉树中&#xff0c;任一节点的两个子树的高度最大差别为一&#xff0c;这使得…

Linux卸载RocketMQ教程【带图文命令巨详细】

巨详细Linux卸载RocketMQ教程 #查询rocketmq进程 ps -ef | grep rocketmq #杀掉相关进程 kill -9 进程id #查找安装目录 find / -name runbroker.sh #删除rocketMQ目录 rm -rf 安装目录框起来的就是进程id&#xff0c;全部杀掉 这里就是我的安装目录&#xff0c;我的删除命令…

SwiftUI五视图动画和转场

代码下载 使用SwiftUI可以把视图状态的改变转成动画过程&#xff0c;SwiftUI会处理所有复杂的动画细节。在这篇中&#xff0c;会给跟踪用户徒步的图表视图添加动画&#xff0c;使用animation(_:)修改器给一个视图添加动画效果非常容易。 下载起步项目并跟着本篇教程一步步实践…