《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

  • 《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念
    • 前言
    • Databricks基本概念
      • 工作空间Workspaces
      • 工作区Workspace
      • 笔记本Notebook
      • 集群Cluster
      • 文件系统DBFS
      • 作业Job
    • 结束语

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍基本概念。

图书在:当当、京东、机械工业出版社以及各大书店有售!

除了自己部署Spark的集群环境,Spark的商业母公司还提供了基于云环境的Spark环境Databricks。Databricks是软件即服务(SaaS)环境,基于Spark的统一数据分析平台,用于数据工程、数据科学和机器学习。Databricks提供了一组统一的工具,用于大规模构建、部署、共享和维护企业级数据解决方案。Databricks的主界面如图所示。

Databricks基本概念

在使用Databricks之前,需要对Databricks中的一些基本概念有所了解。

工作空间Workspaces

Workspaces称为工作区,是一个基于角色的交互式环境UI界面,可以管理Databricks的Cluster、Notebook、Job等,为了跟Workspace进行区分,本书将Workspaces称为工作空间。Databricks的主界面就是一个工作空间,不同角色的工作空间,可以通过主界面左侧菜单栏顶部菜单进行切换。

工作区Workspace

Workspace也称工作区,用于访问所有Databricks资产的环境,可以管理Notebook、Library,并将这些对象按文件夹的形式进行组织,同时工作区还提供对数据对象和计算资源的访问。工作区对应于主界面左侧菜单栏上的Workspace菜单。

笔记本Notebook

Notebook即笔记本,是一个基于Web的笔记本,包含可执行代码、笔记、图片资源等,可以在笔记本中编写Python、R、Scala、SQL等代码,执行代码并获得输出结果,可以对结果进行可视化处理。笔记本可以在工作区中创建,也可以将已有笔记本托管于Git仓库,通过Repos菜单将Git仓库添加到Databricks,实现笔记本的版本控制管理。

集群Cluster

Cluster即集群,是Databricks的计算资源,进行数据集成、数据分析、机器学习需要计算资源,必须先创建集群。Databricks的集群是Spark集群,支持单节点、多节点集群。集群可以通过主界面左侧菜单栏中的Compute菜单进行创建。

文件系统DBFS

Databricks文件系统(DBFS)是一个装载到Databricks工作区的分布式文件系统,可以在Databricks群集上使用。在Databricks中,集群提供计算资源,包括CPU、内存、网络等;DBFS则提供数据和文件的存储、读写能力,是Databricks中一个非常重要基础设施,这与HDFS类似。与HDFS不同的是,DBFS是针对可缩放对象存储的一种抽象,可将类Unix文件系统调用映射到本机云存储API调用,这让访问DBFS上的文件就像访问本地文件一样简单。

作业Job

Job称为作业,是Databricks中运行代码的一种方式。作业与笔记本不同,笔记本是Databricks中运行交互式代码的一种方式,而作业是Databricks中运行非交互式代码的一种方式。作业中可以运行笔记本、Python脚本、Jar包等,支持定时启动运行、持续运行。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/231232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker-compose介绍和用法

docker-compose介绍和用法详解 1、docker-compose介绍2、docker-compose build3、docker-compose down4、docker-compose up -d 1、docker-compose介绍 Docker Compose是一个用于快速配置多个Docker容器的工具。它是一个定义和运行多容器的Docker应用工具,通过YAML…

redis之五种基本数据类型

redis存储任何类型的数据都是以key-value形式保存,并且所有的key都是字符串,所以讨论基础数据结构都是基于value的数据类型 常见的5种数据类型是:String、List、Set、Zset、Hash 一) 字符串(String) String是redis最基本的类型,v…

【线性代数】期末速通!

1. 行列式的性质 1.1 求一个行列式的值 特殊地,对角线左下全为0,结果为对角线乘积。行 r 列 c 1.2 性质 某行(列)加上或减去另一行(列)的几倍,行列式不变某行(列)乘 …

C++学习笔记(十二)------is_a关系(继承关系)

你好,这里是争做图书馆扫地僧的小白。 个人主页:争做图书馆扫地僧的小白_-CSDN博客 目标:希望通过学习技术,期待着改变世界。 提示:以下是本篇文章正文内容,下面案例可供参考 文章目录 前言 一、继承关系…

Pipelined-ADC设计一:序言

现在是2023年12月18日,准备开新帖,设计一个 流水线型 模数转换器( Pipelined-ADC )。记录帖,后续会放在咸鱼。同步记录,谨防盗用。 初定指标:12位50Mhz,采用2.5bit每级结构&#xff…

使用DTS将自建MySQL迁移至PolarDB MySQL引擎,探索DTS全量数据校验

1. 领取免费的ECS和PolarDB资源 一旦您注册了阿里云账号并填写了您的账号和支付信息,您就可以申请免费试用我们的产品(如ECS、PolarDB、RDS等服务)。 1.1. 申请 ECS 免费试用 1. 在 阿里云免费试用中心,找到ECS,单击…

可视化 | 基于CBDB的唐代历史人物分析

文章目录 📚人口统计🐇唐朝历年人数统计🐇唐朝人口金字塔🐇唐朝历年出生死亡人数统计🐇唐朝人口分布🐇享年数据分布 📚唐朝人口迁徙🐇人口迁徙🐇生卒地变迁 &#x1f4da…

IDEA代码补全不能导入某个类了

问题 今天写单元测试时,突然发现idea自动补全代码时不能自动导入类了, 比如在编辑器中输入Test,正常情况下通过快捷键atl/智能补全提示后可以自动生成导入import org.junit.Test ,但是现在不行了。 解决办法 由于在导入Test时不小…

【JavaWeb学习笔记】11 - WEB工程路径专题

一、工程路径问题 1.引入该问题 通过这几个去访问很麻烦 二、工程路径解决方案 1.相对路径 1.说明:使用相对路径来解决,一 个非常重要的规则:页面所有的相对路径,在默认情况下,都会参考当前浏览器地址栏的路径http:/ /ip:port/工程名/来进…

Go集成elasticsearch8极简demo,光速入门

Go集成elasticsearch8极简demo,光速入门 配置go环境创件go mod工程代码实现配置go环境 编辑器添加goproxy GO111MODULE=on;GOPROXY=https://mirrors.wps.cn/go/,https://goproxy.cn,direct;GOSUMDB=off创件go mod工程 mkdir demo cd demo go mod init demo代码实现 在demo…

JMESPath语言

JMESPath(JSON Matching Expression Path) 一种查询语言。 主要用于从JSON文档中检索和过滤数据。 通过写表达式提取和处理JSON数据,而无需编写复杂的代码。 功能:数据提取、过滤、转换、排序。 场景:处理API响应…

CentOS7安装Docker及添加阿里云镜像加速详细教程

Docker官方安装教程网站:Install Docker Engine on CentOS | Docker Docs 具体流程如下: 1.确定你是CentOS7及以上版本 cat /etc/redhat-release 2.yum安装gcc相关 yum -y install gcc yum -y install gcc-c 3.安装需要的软件包 3.1安装docker引擎…

MetaSploit工具的使用

在命令行输入:msfconsole 启动msf msfconsole 另外的方式 msfdb init msfdb run 查看数据库连接状态 db_status 扫描端口并存储 db_nmap 查看扫描到的数据信息 services MSF常用的模式和命令 搜索模块 search 模块名字 使用模块 use 编号 查看模块使用 sho…

对偶问题笔记(1)

目录 1 从 Lagrange 函数引入对偶问题2. 强对偶性与 KKT 条件3. 对偶性的鞍点特征 1 从 Lagrange 函数引入对偶问题 考虑如下优化问题 { min ⁡ f 0 ( x ) s . t f i ( x ) ≤ 0 , i 1 , ⋯ , p , h j ( x ) 0 , j 1 , ⋯ , q , x ∈ Ω , \begin{align} \begin{cases}\min…

在linux上基于shell自动部署Java项目

一,安装git yum list git 列出git安装包 yum install git 在线安装git 使用 git -varsion 查看是否安装成功 安装成功 二, Git克隆代码 git clone 远程仓库地址 三,创建shell脚本 touch shell.sh shell脚本 #!/bin/sh echo echo 自动…

健康手表数据洞察台

健康手表数据洞察台 1. 背景介绍2. 数据获取与处理3. Django平台搭建4. 数据可视化5. 整体数据分析6. 数据监控与紧急警报7. 用户界面优化8. 创新点结语 1. 背景介绍 在当今健康意识不断提升的社会,人们越来越关注身体健康。本文将介绍如何使用Pandas进行数据分析&…

NTC和温度的关系

一、NTC介绍 NTC(nagative temperature coefficient)负温度系数的热敏电阻。随着温度的升高,电阻越来越小 二、NTC和温度的关系 生产NTC的厂家会提供一个RT表格,里面记录了温度和电阻的关系,他们的关系是一一对应的…

C# 使用FluentHttpClient请求WebApi

写在前面 FluentHttpClient 是一个REST API 异步调用 HTTP 客户端,调用过程非常便捷,采用流式编程,可以将所有请求所需的参数一次性发送,并直接获取序列化后的结果。 老规矩从NuGet上安装该类库: 这边一定要认准是 P…

React系列:配置@别名路径并配置联想

🍁 作者:知识浅谈,CSDN签约讲师,CSDN博客专家,华为云云享专家,阿里云专家博主 📌 擅长领域:全栈工程师、爬虫、ACM算法 💒 公众号:知识浅谈 🔥网站…

汽车火花塞行业分析:全球市场需求量约为26.3亿个

在汽车日常保养里,更换火花塞算是比较常见的一种,爱车懂车的车主们都非常清楚火花塞对于汽车的重要性,可以说火花塞直接影响到发动机的运作,决定了汽车能否顺利启程。 火花塞(sparkplug),俗称火咀,它的作用是把高压导线(火嘴线)送来的脉冲高压电放电&…