Databricks Layer

前言

Databricks 中的 Bronze-Silver-Gold 层级是数据湖架构中数据组织和处理的一种方法,它允许数据从原始状态逐步转化为对业务决策有用的形式。这种分层方法有助于数据的可管理性、可扩展性和可维护性,同时也支持数据的快速摄取和灵活的分析需求。Databricks 提供了工具和功能来支持这种分层方法,包括数据管道的构建、数据转换和数据访问等。通过这种方式,组织可以确保数据在整个生命周期中保持高质量和高可用性。

Bronze layer (raw data)

The Bronze layer is where we land all the data from external source systems. The table structures in this layer correspond to the source system table structures "as-is," along with any additional metadata columns that capture the load date/time, process ID, etc. The focus in this layer is quick Change Data Capture and the ability to provide an historical archive of source (cold storage), data lineage, auditability, reprocessing if needed without rereading the data from the source system.

青铜层(原始数据) 青铜层是我们从外部源系统收集所有数据的地方。这一层的表结构与源系统的表结构“原样”相对应,并包含任何额外的元数据列,这些列捕获了加载日期/时间、进程ID等。在这一层的重点是对数据变化的快速捕捉以及提供源(冷存储)数据的历史存档,数据血统,可审计性,必要时重新处理而无需重新从源系统读取数据。

Silver layer (cleansed and conformed data)

In the Silver layer of the lakehouse, the data from the Bronze layer is matched, merged, conformed and cleansed ("just-enough") so that the Silver layer can provide an "Enterprise view" of all its key business entities, concepts and transactions. (e.g. master customers, stores, non-duplicated transactions and cross-reference tables).

白银层(清洗和符合的数据) 在湖仓的白银层中,来自青铜层的数据被匹配、合并、符合和清洗(“足够”),以便白银层能够提供所有关键业务实体、概念和交易的“企业视角”。(例如,主客户、商店、非重复交易和交叉引用表)。

白银层将来自不同来源的数据整合到企业视角中,并支持自助式分析,用于临时报告、高级分析和机器学习。它为部门分析师、数据工程师和数据科学家提供了一个来源,以便他们进一步创建项目和分析,通过企业数据项目和部门数据项目在金层中回答业务问题。

在湖仓数据工程范式中,通常遵循的是ELT方法论,而不是ETL——这意味着在加载白银层时,只应用最小或“足够”的转换和数据清洗规则。优先考虑的是快速敏捷地摄取和交付数据湖中的数据,许多特定于项目的复杂转换和业务规则在从白银层加载到金层的数据时应用。从数据建模的角度来看,白银层拥有更多第三范式的数据模型。在这一层可以使用类似数据仓库的数据模型,具有写入性能。

Gold layer (curated business-level tables)

Data in the Gold layer of the lakehouse is typically organized in consumption-ready "project-specific" databases. The Gold layer is for reporting and uses more de-normalized and read-optimized data models with fewer joins. The final layer of data transformations and data quality rules are applied here. Final presentation layer of projects such as Customer Analytics, Product Quality Analytics, Inventory Analytics, Customer Segmentation, Product Recommendations, Marking/Sales Analytics etc. fit in this layer. We see a lot of Kimball style star schema-based data models or Inmon style Data marts fit in this Gold Layer of the lakehouse. So you can see that the data is curated as it moves through the different layers of a lakehouse. In some cases, we also see that lot of Data Marts and EDWs from the traditional RDBMS technology stack are ingested into the lakehouse, so that for the first time Enterprises can do "pan-EDW" advanced analytics and ML - which was just not possible or too cost prohibitive to do on a traditional stack. (e.g. IoT/Manufacturing data is tied with Sales and Marketing data for defect analysis or health care genomics, EMR/HL7 clinical data markets are tied with financial claims data to create a Healthcare Data Lake for timely and improved patient care analytics.)

黄金层(策划的业务级表) 湖仓中的黄金层数据通常以消费就绪的“特定于项目”的数据库组织。黄金层用于报告,并使用更多非规范化和优化读取的数据模型,减少连接。最终的数据转换和数据质量规则在这里应用。诸如客户分析、产品质量分析、库存分析、客户细分、产品推荐、市场营销/销售分析等项目的最终呈现层就适合在这一层。我们可以看到很多基于Kimball风格的星型模式数据模型或Inmon风格的数据集市适合在这一层的黄金层。

所以你可以看到,数据在通过湖仓的不同层时被策划。在某些情况下,我们还看到许多来自传统关系数据库技术栈的数据集市和EDW被摄取到湖仓中,这样企业就可以首次进行“全EDW”高级分析和机器学习——在传统技术栈上是不可能或成本过高的。(例如,IoT/制造业数据与销售和市场营销数据结合进行缺陷分析,或者医疗基因组学、EMR/HL7临床数据市场与财务索赔数据结合,创建一个医疗数据湖,用于及时和改进的病人护理分析。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/46260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

illustrator免费插件功能强大脚本大集合300多款开发必备可收藏无需下载可直接运行ai设计印刷开发都可用

宝贝名称:TB48 ai悟空插件开发神器脚本仓库300多个脚本开发参考 测试版本:AI CC2018-2020-2021-2022-2023-2024 系统支持:windows系统 标签:Ai插件开发图片插画平面设计印刷打印图标矢量 加企鹅群可自动获取。功能不定时更新

传输层重点协议

目录 一、TCP协议 TCP协议段落格式 原理 1、确认应答机制 2、超时重传机制 3、连接管理机制 三次握手 四次挥手 (1)不能合并为三次挥手的原因 (2)延时应答机制—实现合并 (3)TIME_WAIT的作用 &…

【Unity2D 2022:NPC】制作NPC

一、创建NPC角色 1. 创建JambiNPC并同时创建Jambi站立动画 (1)点击第一张图片,按住shift不松,再选中后两张图片,拖到层级面板中 (2)将动画资源文件保存到Animation Clips文件夹中 (…

电气工程VR虚拟仿真实训平台以趣味化方式增强吸引力

在工业4.0时代和教育信息化的双重推动下,我们致力于推动实训课件的跨界合作与共创。VR实训课件不仅促进了不同领域、不同行业之间的紧密合作,更让学习变得生动直观。我们凭借3D技术生动、直观、形象的特点,开发了大量配套3D教材,让…

TongRDS 2214 docker版指引(by lqw )

文章目录 前言准备工作中心节点服务节点哨兵节点 前言 部署docker版本,建议先参考TongRDS2214手动部署版指引(by lqwsy) 在本地手动部署了一套适合业务场景的rds 服务后,再通过dockerfile 打镜像。 准备工作 1.准备对应的安装包…

【亚马逊云】将Amazon EC2 日志数据传输到 CloudWatch 中

文章目录 1. 创建 CloudWatchLogs 策略2. 将 CloudWatchLogs 策略附加给IAM实体3. 将 IAM 角色附加到 EC2 实例4. 在 Amazon EC2 实例上安装和配置 CloudWatch Logs5. 在CloudWatch查看EC2日志6. 参考链接 实验目的:在运行的 EC2 Linux 实例上安装和配置 CloudWatch…

【Java--数据结构】栈:不仅仅是数据存储,它是编程的艺术

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 目录 栈 栈的方法介绍 入栈push 出栈pop和 瞄一眼peek 判空isEmpty和判满isFull 模拟实现栈 push入栈 pop出栈和peek 测试 使用泛型实现栈 测试 使用链表实现栈&#xff08…

怎么减少pdf的MB,怎么减少pdf的大小

在数字化时代,pdf文件因其格式稳定、跨平台兼容性强等特点而广受欢迎。然而,随着内容的丰富,pdf文件的大小也日益增大,给文件传输和存储带来了不少困扰。本文将为你介绍多种减小pdf文件大小的方法,帮助你轻松应对这一问…

跳表的简单学习

跳表(SkipList)学习 1. 什么是跳表? 基于“空间换时间”思想,通过给链表建立索引,使得链表能够实现二分查找。 跳表是可以实现二分查找的有序链表。 2. 从单链表到跳表 对于一般的单链表,在其中进行查…

c语言指针超详解——入门篇

文章目录 前言1. 内存与地址内存编址 2. 指针变量和地址取地址操作符 &指针变量和解引用操作符 *指针变量解引用操作符指针变量的大小 3. 指针变量类型的意义指针的解引用指针-整数void* 指针 4. const 修饰指针const 修饰指针指向的变量const 修饰指针变量 5. 指针运算指针…

本地部署,AnimeGANv3: 将现实世界照片转化为动漫风格

目录 引言 技术背景 架构与原理 实验结果与分析 应用实例 本地部署 运行结果 Photo to Hayao Style Photo to Shinkai Style more suprise 支持多种风格 结论 参考文献 GitHub - TachibanaYoshino/AnimeGANv3: Use AnimeGANv3 to make your own animation works, …

智驭数据:深剖朴素贝叶斯算法及其实战疆域拓展

在浩瀚的数据海洋中,机器学习如同一艘智能航船,引领我们探索未知的知识岛屿。而在这艘船的诸多算法装备中,朴素贝叶斯(Naive Bayes)算法以其简洁高效、逻辑清晰的特点,成为了处理分类问题的一把利器。本文将…

软件测试——web单功能测试

工作职责: 1.负责产品系统测试,包括功能测试、性能测试、稳定性测试、用户场景测试、可靠性测试等。 2.负责测试相关文档的编写,包括测试计划、测试用例、测试报告等。 3.负责自动化测试框架、用例的维护。 岗位要求: 1.熟练…

集成excel工具:自定义导入回调监听器、自定义类型转换器、web中的读

文章目录 I 封装导入导出1.1 定义工具类1.2 自定义读回调监听器: 回调业务层处理导入数据1.3 定义文件导入上下文1.4 定义回调协议II 自定义转换器2.1 自定义枚举转换器2.2 日期转换器2.3 时间、日期、月份之间的互转2.4 LongConverterIII web中的读3.1 使用默认回调监听器3.2…

JavaSE——集合框架二(4/6)-Map集合的遍历方式(键找值,键值对,Lambda)、Map集合案例(需求与分析,问题解决)

目录 Map集合的遍历方式 键找值 键值对 Lambda Map集合案例 需求与分析 问题解决 Map集合的遍历方式 键找值 先获取Map集合全部的键,再通过遍历键来找值。 键值对 把“键值对”看成一个整体进行遍历(较为复杂) Lambda JDK 1.8 开…

构建GitLab代码私有仓库

构建代码私有仓库 公司代码仓库一般都放在git上,但为了安全一般都不会放在开放的git上,都会搭建自己的仓库,今天就记录一下git搭建的过程。以下安装过程以centos7为例: 步骤一:安装并配置依赖项,同时打开ht…

iPhone 16 Pro系列将标配潜望镜头:已开始生产,支持5倍变焦

ChatGPT狂飙160天,世界已经不是之前的样子。 更多资源欢迎关注 7月6日消息,据DigiTimes最新报道,苹果将在iPhone 16 Pro中引入iPhone 15 Pro Max同款5倍光学变焦四棱镜潜望镜头。 报道称,目前苹果已经将模组订单交至大立光电和玉…

带权重的随机选择算法

最终的结果是left的索引 代表大于等于target的最小索引, 用左边界的二分搜索原因是,如果没有目标值,left大于或者等于target class Solution {private int[] preSum;private Random randnew Random();public Solution(int[] w) {//写前缀和…

OpenGL笔记九之彩色三角形与重心插值算法

OpenGL笔记九之彩色三角形与重心插值算法 —— 2024-07-07 晚上 bilibili赵新政老师的教程看后笔记 code review! 文章目录 OpenGL笔记九之彩色三角形与重心插值算法1.运行3.main.cpp 1.运行 3.main.cpp 代码 #include <iostream>#define DEBUG//注意&#xff1a;glad…

推荐一款uniapp拖动验证码插件

插件地址&#xff1a;易盾验证码 - DCloud 插件市场 具体使用方式访问插件地址自行获取