【Azure 架构师学习笔记】- Azure Databricks (2) -集群

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

前言

在上文中提到了ADB 的其中一个核心就是集群,所以这里专门研究一下ADB 的集群。

ADB 集群

首先了解一下ADB 的集群, ADB的集群本质上就是一堆Azure VM,在创建之时已经按照特定模板,配置有Spark和可以并行操作Spark的能力的机器。用于并行执行ADB的代码。

ADB 的集群有两种:

  1. Interactive:通过GUI手动创建的集群,通常共享给多用户多notebook使用。
  2. Job:一个临时的集群,绑定到Databricks的作业,根据作业运行情况自动启停。

集群访问模式

ADB 有三种可选类型,如下图:
在这里插入图片描述
Access modes

  • Single User:单用户使用
  • Shared:多用户使用
  • No isolation shared:管理员可以隐藏这个集群。

Databricks Runtime Version

Databricks runtime是预配环境,其软件,优化配置已经初始化到你的集群中,一般来说,如果不清楚这些版本的区别,那就选择最新版本。

  • Standard:用于大多数常规场景。
  • ML:用于专门的机器学习场景。
  • Uncategorized:不属于上面两种场景的时候使用。

在这里插入图片描述

自动控制

ADB 的自动控制部分有两个功能:

  1. Enable autoscaling:会根据上面选择的最小,最大节点进行按需升级,注意它是按需的,而不是直接一次性到大设置的最大节点数。降级也同理,并不是一次性降下来。 除非负载在短时间内降到很低。

  2. Terminate after ? minutes of inactivity:没有活动多少分钟后,停止集群,从而节省不必要的费用。不过也要根据job的运行规律而定,不能一刀切。
    在这里插入图片描述

Worker 和 Driver types

目前主流集群都以主节点(Worker)和子节点(Driver)为结构,worker node是用来控制的,而Driver 则是实际执行的。这些节点物理上就是一系列的windows VM。 可以看到下面两个图中VM 类型的选择,不同类型性能和价格都不一样。

在这里插入图片描述
在这里插入图片描述

  • General Purpose:适合开发,标准的job 运行。
  • Memory Optimized: 适合内存密集型运算。
  • Storage Optimized:ADB中有一个功能叫Delta Lake,这个后续介绍,这种类型适合Delta Lake使用。
  • GPU Accelerated: 对于大规模GPU 负载, 机器学习等都更加合适。
    通常来说两个类型可以相同,不过如果要频繁集中数据到driver node,那么就需要考虑增加VM 的性能。

Advanced Options

这里更多是对常规集群的增强或者定制化配置:在这里插入图片描述

  • Azure Data Lake Storage credential passthrough: 这个功能适用于增强Data Lake对于内部用户的安全性。
  • 在这里插入图片描述
  • Spark Config:这是对Spark进行深度配置的区域。可以作为性能优化,或者其他特别需求之用。
  • Environment Variables:类似于Spark Config, 通过特定的内容,调整Spark的安装。
  • Logging:指定集群日志的输出位置。
  • Init Scripts:可以通过bash来安装额外的库和包。

虽然大部分情况下默认的配置已经足够,但是对于那些需要迁移现有Spark 负载到新的ADB 情境下,那么自定义就有必要了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/201142.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《SpringBoot项目实战》第六篇—接口防抖(防重复提交)的一些方式

系列文章导航 第一篇—接口参数的一些弯弯绕绕 第二篇—接口用户上下文的设计与实现 第三篇—留下用户调用接口的痕迹 第四篇—接口的权限控制 第五篇—接口发生异常如何统一处理 第六篇—接口防抖(防重复提交)的一些方式 本文参考项目源码地址:summo-springboot-i…

SpringBoot基础知识

SpringBoot简介 回顾什么是Spring Spring是一个开源框架,2003 年兴起的一个轻量级的Java 开发框架,作者:Rod Johnson 。 Spring是为了解决企业级应用开发的复杂性而创建的,简化开发。 Spring是如何简化Java开发的 为了降低Ja…

记录:Unity脚本的编写9.0

目录 射线一些准备工作编写代码 突然发现好像没有写过关于射线的内容,我就说怎么总感觉好像少了什么东西(心虚 那就在这里写一下关于射线的内容吧,将在这里实现射线检测鼠标点击的功能 射线 射线是一种在Unity中检测碰撞器或触发器的方法&am…

22、pytest多个参数化的组合

官方实例 # content of test_multi_parametrie.py import pytestpytest.mark.parametrize("x",[0,1]) pytest.mark.parametrize("y",[2,3]) def test_foo(x,y):print("{}-{}".format(x,y))pass解读与实操 要获得多个参数化参数的所有组合&…

什么是HTTP/2?它与HTTP/1.x相比有什么改进?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

《论文阅读》使用条件变分自动编码器学习神经对话模型的语篇水平多样性 2017 ACL

《论文阅读》使用条件变分自动编码器学习神经对话模型的语篇水平多样性 2017 ACL 前言简介相关知识Stochastic Gradient Variational BayesMultivariate Gaussian DistributionIsotropic Gaussian DistributionReparameterization Trickprior network & posterior network …

简述Blender

前言 Blender是一款免费开源的3D计算机图形软件,功能强大,包括建模、动画、渲染、视频剪辑等多个方面。下面我分别为你介绍Blender的基础、提升、优势和应用领域。 介绍 Blender是由Blender基金会开发的开源项目,最初设计为一个内部工具&a…

C++ 函数详解

目录 函数概述 函数的分类 函数的参数 函数的调用 函数的嵌套调用 函数的链式访问 函数声明和定义 函数递归 函数概述 函数——具有某种功能的代码块。 一个程序中我们经常会用到某种功能,如两数相加,如果每次都在需要用到时实现,那…

第4章 互联网

文章目录 4.1 计算机网络基础 94 4.1.1 计算机网络的基本概念 94 4.1.2 局域网的基本原理 96 4.1.3 局域网协议与应用 98 4.2 Internet 100 4.2.1 TCP/IP 101 4.2.2 TCP/IP应用 106 4.2.3 网络操作系统的功能 112 4.2.4 网络安全的概念 116 4.3 计算机软件编程基础 …

唯创知音WTR096A-16S语音芯片:引领喊话器声音还原新时代

随着科技的不断发展,声音在各种场景中扮演着至关重要的角色。在喊话器领域,唯创知音的WTR096A-16S语音芯片以其卓越的性能和声音还原度的提高,为喊话器应用带来了全新的体验。 1. 声音还原度的升级 WTR096A-16S语音芯片采用16位数模转换器&…

机器学习---线性回归算法

1、什么是回归? 从大量的函数结果和自变量反推回函数表达式的过程就是回归。线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 2、一元线性回归 3、多元线性回归 如果回归分析中包括两个或两个以上的自变量&a…

VIM光标移动和翻页快捷键-包含vim帮助文档截图

光标移动到行首(行首没有空格): ^ 光标移动到行首(行首有空格): 数字0 光标移动到行尾: $ 移动到指定行:7G(数字加一个大G) 光标移动到文件开始:gg(两个小g) 光标移动到文件末尾:G(一个大G&…

二叉树的实现(纯C语言版)

目录 1.实现的接口1.1通过前序遍历的数组"ABD##E#H##CF##G##"构建二叉树 1.2 二叉树销毁1.3二叉树节点个数1.4二叉树第k层节点个数1.5 二叉树查找值为x的节点1.6二叉树前序遍历1.7二叉树中序遍历1.8二叉树后序遍历1.9层序遍历1.10判断二叉树是否是完全二叉树1.11 二叉…

AI:大语言模型训练方法 - 机器学习

Transformer Transformer是一种深度学习的模型架构,特别适用于自然语言处理任务。Transformer 模型的核心创新在于其 "自注意力"(Self-Attention)机制,这种机制使得模型可以有效地捕捉输入数据中的长距离依赖关系。 T…

【python】pip install 国内源

背景 python很多库都需要用国内镜像才能比较快,常用的有临时换源或长久换源。 临时换源 pip install [库] -i [源]国内源常用的有以下几种。 阿里云 http://mirrors.aliyun.com/pypi/simple/ 豆瓣(douban) http://pypi.douban.com/simple/ 清华大学 https://pyp…

数据结构 | 查漏补缺之DFS、BFS、二次探测再散列法、完全二叉树、深度计算

目录 DFS&BFS 哈希表-二次探测再散列法 完全二叉树&深度计算 排序 快速排序-挖坑法 插入、选择、冒泡、区别 DFS&BFS 哈希表-二次探测再散列法 完全二叉树&深度计算 排序 快速排序-挖坑法 插入、选择、冒泡、区别 插入从第一个元素开始&#xff0c…

利用yolov5输出提示框,segment-anything生成掩膜实现图像的自动标注

文章目录 一. 创建环境二. 下载模型文件三. 编辑代码 一. 创建环境 anaconda下新建一个环境 conda create -n yolo-sam python3.8激活新建的环境 conda activate yolo-sam更换conda镜像源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/fre…

el-input-number设置step、stepStrictly后,数据精度丢失的问题

el-input-number的配置 <el-input-numberv-else-if"colInputType(column, row) number"v-model"row[column.key]":placeholder"${$t(documentation.pleaseInput)}":controls"false":min"minFn(column, row)":max"…

企业CIO为何选择SD-WAN技术进行组网?

在这个信息技术快速发展的时代&#xff0c;网络已经成为企业的中枢神经系统&#xff0c;它不仅连接了分布在全球各地的办公室和员工&#xff0c;还提供了无缝的数据交流和协作环境。随着企业规模的扩大和数字化转型的加速&#xff0c;企业需要高效、安全、可靠的网络连接来应对…

C++如何进行异常安全性处理和资源管理?

在C中&#xff0c;异常安全性处理和资源管理是确保程序在面对异常情况时能够正确处理资源的重要方面。下面是一些常见的方法和技术&#xff0c;可以帮助实现异常安全性和有效地管理资源&#xff1a; RAII&#xff08;资源获取即初始化&#xff09;&#xff1a;RAII是一种C编程技…