【Azure 架构师学习笔记】- Azure Databricks (2) -集群

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

前言

在上文中提到了ADB 的其中一个核心就是集群,所以这里专门研究一下ADB 的集群。

ADB 集群

首先了解一下ADB 的集群, ADB的集群本质上就是一堆Azure VM,在创建之时已经按照特定模板,配置有Spark和可以并行操作Spark的能力的机器。用于并行执行ADB的代码。

ADB 的集群有两种:

  1. Interactive:通过GUI手动创建的集群,通常共享给多用户多notebook使用。
  2. Job:一个临时的集群,绑定到Databricks的作业,根据作业运行情况自动启停。

集群访问模式

ADB 有三种可选类型,如下图:
在这里插入图片描述
Access modes

  • Single User:单用户使用
  • Shared:多用户使用
  • No isolation shared:管理员可以隐藏这个集群。

Databricks Runtime Version

Databricks runtime是预配环境,其软件,优化配置已经初始化到你的集群中,一般来说,如果不清楚这些版本的区别,那就选择最新版本。

  • Standard:用于大多数常规场景。
  • ML:用于专门的机器学习场景。
  • Uncategorized:不属于上面两种场景的时候使用。

在这里插入图片描述

自动控制

ADB 的自动控制部分有两个功能:

  1. Enable autoscaling:会根据上面选择的最小,最大节点进行按需升级,注意它是按需的,而不是直接一次性到大设置的最大节点数。降级也同理,并不是一次性降下来。 除非负载在短时间内降到很低。

  2. Terminate after ? minutes of inactivity:没有活动多少分钟后,停止集群,从而节省不必要的费用。不过也要根据job的运行规律而定,不能一刀切。
    在这里插入图片描述

Worker 和 Driver types

目前主流集群都以主节点(Worker)和子节点(Driver)为结构,worker node是用来控制的,而Driver 则是实际执行的。这些节点物理上就是一系列的windows VM。 可以看到下面两个图中VM 类型的选择,不同类型性能和价格都不一样。

在这里插入图片描述
在这里插入图片描述

  • General Purpose:适合开发,标准的job 运行。
  • Memory Optimized: 适合内存密集型运算。
  • Storage Optimized:ADB中有一个功能叫Delta Lake,这个后续介绍,这种类型适合Delta Lake使用。
  • GPU Accelerated: 对于大规模GPU 负载, 机器学习等都更加合适。
    通常来说两个类型可以相同,不过如果要频繁集中数据到driver node,那么就需要考虑增加VM 的性能。

Advanced Options

这里更多是对常规集群的增强或者定制化配置:在这里插入图片描述

  • Azure Data Lake Storage credential passthrough: 这个功能适用于增强Data Lake对于内部用户的安全性。
  • 在这里插入图片描述
  • Spark Config:这是对Spark进行深度配置的区域。可以作为性能优化,或者其他特别需求之用。
  • Environment Variables:类似于Spark Config, 通过特定的内容,调整Spark的安装。
  • Logging:指定集群日志的输出位置。
  • Init Scripts:可以通过bash来安装额外的库和包。

虽然大部分情况下默认的配置已经足够,但是对于那些需要迁移现有Spark 负载到新的ADB 情境下,那么自定义就有必要了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/201142.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《SpringBoot项目实战》第六篇—接口防抖(防重复提交)的一些方式

系列文章导航 第一篇—接口参数的一些弯弯绕绕 第二篇—接口用户上下文的设计与实现 第三篇—留下用户调用接口的痕迹 第四篇—接口的权限控制 第五篇—接口发生异常如何统一处理 第六篇—接口防抖(防重复提交)的一些方式 本文参考项目源码地址:summo-springboot-i…

SpringBoot基础知识

SpringBoot简介 回顾什么是Spring Spring是一个开源框架,2003 年兴起的一个轻量级的Java 开发框架,作者:Rod Johnson 。 Spring是为了解决企业级应用开发的复杂性而创建的,简化开发。 Spring是如何简化Java开发的 为了降低Ja…

记录:Unity脚本的编写9.0

目录 射线一些准备工作编写代码 突然发现好像没有写过关于射线的内容,我就说怎么总感觉好像少了什么东西(心虚 那就在这里写一下关于射线的内容吧,将在这里实现射线检测鼠标点击的功能 射线 射线是一种在Unity中检测碰撞器或触发器的方法&am…

22、pytest多个参数化的组合

官方实例 # content of test_multi_parametrie.py import pytestpytest.mark.parametrize("x",[0,1]) pytest.mark.parametrize("y",[2,3]) def test_foo(x,y):print("{}-{}".format(x,y))pass解读与实操 要获得多个参数化参数的所有组合&…

什么是HTTP/2?它与HTTP/1.x相比有什么改进?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

C++ 函数详解

目录 函数概述 函数的分类 函数的参数 函数的调用 函数的嵌套调用 函数的链式访问 函数声明和定义 函数递归 函数概述 函数——具有某种功能的代码块。 一个程序中我们经常会用到某种功能,如两数相加,如果每次都在需要用到时实现,那…

机器学习---线性回归算法

1、什么是回归? 从大量的函数结果和自变量反推回函数表达式的过程就是回归。线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 2、一元线性回归 3、多元线性回归 如果回归分析中包括两个或两个以上的自变量&a…

VIM光标移动和翻页快捷键-包含vim帮助文档截图

光标移动到行首(行首没有空格): ^ 光标移动到行首(行首有空格): 数字0 光标移动到行尾: $ 移动到指定行:7G(数字加一个大G) 光标移动到文件开始:gg(两个小g) 光标移动到文件末尾:G(一个大G&…

数据结构 | 查漏补缺之DFS、BFS、二次探测再散列法、完全二叉树、深度计算

目录 DFS&BFS 哈希表-二次探测再散列法 完全二叉树&深度计算 排序 快速排序-挖坑法 插入、选择、冒泡、区别 DFS&BFS 哈希表-二次探测再散列法 完全二叉树&深度计算 排序 快速排序-挖坑法 插入、选择、冒泡、区别 插入从第一个元素开始&#xff0c…

利用yolov5输出提示框,segment-anything生成掩膜实现图像的自动标注

文章目录 一. 创建环境二. 下载模型文件三. 编辑代码 一. 创建环境 anaconda下新建一个环境 conda create -n yolo-sam python3.8激活新建的环境 conda activate yolo-sam更换conda镜像源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/fre…

el-input-number设置step、stepStrictly后,数据精度丢失的问题

el-input-number的配置 <el-input-numberv-else-if"colInputType(column, row) number"v-model"row[column.key]":placeholder"${$t(documentation.pleaseInput)}":controls"false":min"minFn(column, row)":max"…

vsftpd.confg 常用配置,Beyond Compare 测试可用

vsftpd.confg 常用配置,备份一下, 经常配置好久 , 以后直接粘贴即可. Beyond Compare 测试可用. # Example config file /etc/vsftpd.conf # # The default compiled in settings are fairly paranoid. This sample file # loosens things up a bit, to make the ftp daemon m…

注册阿里云,免费领云服务器

注册阿里云&#xff0c;免费领云服务器&#xff0c;每月280元额度&#xff0c;3个月试用时长&#xff0c;可快速搭建网站/小程序&#xff0c;部署开发环境&#xff0c;开发多种企业应用&#xff0c;共3步骤即可免费领取阿里云服务器&#xff0c;阿里云服务器网aliyunfuwuqi.com…

Python与PHP:编写大型爬虫的适用性比较

目录 一、引言 二、Python编写爬虫的优势 1、强大的数据处理能力 2、丰富的网络库和框架 3、良好的可读性和易维护性 4、社区支持和生态系统 三、PHP编写爬虫的优势 1、简单易学 2、广泛的应用领域 3、高效的性能 4、灵活的请求处理方式 四、大型爬虫的编写实例&am…

re:invent 2023 Amazon Q 初体验

授权声明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 Developer Centre&#xff0c;知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道 前言 亚马逊云科技在2023 re:Invent全球大会上宣布推出 Amazon…

计算机网络——数据链路层-差错检测(奇偶校验、循环冗余校验CRC)

目录 奇偶校验 循环冗余校验CRC 发送方操作 接收方操作 生成多项式 举例-1 举例-2 我们知道&#xff0c; 实际的通信链路都不是理想的&#xff0c;比特在传输过程中可能会产生差错&#xff1b;1可能变成0&#xff0c;而0也可能变成1&#xff0c;这称为比特差错。 如下…

[wordpiece]论文分析:Google’s Neural Machine Translation System

文章目录 一、论文解读1.1 模型介绍1.2 模型架构1.3 wordpiece 二、整体总结 论文&#xff1a;Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation 作者&#xff1a;Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le,…

解决Unity打包Apk卡在calling IPostGenerateGradleAndroidProject callbacks

防盗镇楼 本文地址:https://superliii.blog.csdn.net/article/details/134820215 问题 好烦,又双叒卡BUG,在解决此问题的10多个小时里面鬼知道我经历了什么… 构建APK卡在calling IPostGenerateGradleAndroidProject callbacks 好不容易搜到个极其隐蔽的帖子,说删C:\Users\…

贵州乾辰谷材 以科技创新引领绝缘材料领域的新发展

贵州乾辰谷材科技有限公司&#xff0c;这家于2018年10月18日成立的贵州本地企业&#xff0c;已经在绝缘材料领域崭露头角。乾辰谷材不仅在成立短短几年内实现了快速成长&#xff0c;更以其科技创新能力和卓越产品性能赢得了业界和用户的广泛赞誉。 乾辰谷材的创始人王金斗先生&…

软著项目推荐 深度学习的水果识别 opencv python

文章目录 0 前言2 开发简介3 识别原理3.1 传统图像识别原理3.2 深度学习水果识别 4 数据集5 部分关键代码5.1 处理训练集的数据结构5.2 模型网络结构5.3 训练模型 6 识别效果7 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习…