数仓中数据分层的标准流向解读

在大数据开发中,数据分层是一个至关重要的概念。合理的数据分层可以有效地提升数据处理的效率和质量。本文将详细介绍数据分层的标准流向和相关注意事项,并结合实际应用进行说明。

数据分层的标准流向

根据行业标准,数据分层的标准流向如下:

  • ODS (Operational Data Store): 操作型数据存储,主要用于数据的初步清洗和整合。
  • DWD (Data Warehouse Detail): 数据仓库明细层,存储经过清洗和转换的详细数据。
  • DWS (Data Warehouse Summary): 数据仓库汇总层,存储汇总和聚合后的数据。
  • DM (Data Mart): 数据集市,面向具体业务场景提供定制化的数据服务。

需要注意的是,在这一标准流向中,禁止出现反向依赖,即下游数据层不应反向依赖上游数据层的数据。

维度数据流向

对于维度数据,可以从 DWD 流向 DIM 或者从 ODS 流向 DIM。在使用 ODS 直接到 DIM 的情况下,必须确保数据质量足够高,以避免数据误差的累积和放大。

数据引用和写入规则

DIM、DWS 和 DM 可以往自身分层写入数据,如不同粒度的数据写入。具体的引用和写入规则如下表所示:

写入 \ 引用ODSDWDDWSDMDIMTMP
ODS
DWD
DWS
DM
DIM
TMP
数据流向示意图

为了更直观地展示数据流向,以下是数据流向的示意图:

ODS
含缺省调整
DWD
DWS
DIM
DM
TMP
分析
接口
队列

更详细的流向:
image.png

数据分层标准流向示例

为了更好地理解数据分层的标准流向,下面我们举几个实际应用中的例子来说明这些概念的具体使用场景。

示例 1:电商平台的订单数据处理
  1. ODS 层

    • 电商平台每天会有大量的订单生成,这些原始订单数据首先会被存储到 ODS 层。此时的数据还未经过任何清洗和转换,直接从业务系统导出。
    CREATE TABLE ods_order (order_id STRING,user_id STRING,product_id STRING,order_date STRING,order_amount DOUBLE
    );
    
  2. DWD 层

    • 订单数据从 ODS 层进入 DWD 层,在这里进行数据清洗、转换,去除重复数据,格式化日期等操作,以保证数据的准确性和一致性。
    CREATE TABLE dwd_order (order_id STRING,user_id STRING,product_id STRING,order_date DATE,order_amount DOUBLE
    );INSERT INTO dwd_order
    SELECT order_id,user_id,product_id,TO_DATE(order_date, 'yyyy-MM-dd') AS order_date,order_amount
    FROM ods_order
    WHERE order_id IS NOT NULL;
    
  3. DWS 层

    • 在 DWS 层,对订单数据进行聚合和汇总,生成每日、每月的销售报表等。
    CREATE TABLE dws_daily_sales (sale_date DATE,total_sales DOUBLE
    );INSERT INTO dws_daily_sales
    SELECT order_date AS sale_date,SUM(order_amount) AS total_sales
    FROM dwd_order
    GROUP BY order_date;
    
  4. DM 层

    • 最后,在 DM 层,为业务部门提供具体分析需求的数据,如按用户、按产品类别的销售情况等。
    CREATE TABLE dm_user_sales (user_id STRING,total_sales DOUBLE
    );INSERT INTO dm_user_sales
    SELECT user_id,SUM(order_amount) AS total_sales
    FROM dwd_order
    GROUP BY user_id;
    
示例 2:金融机构的客户行为分析
  1. ODS 层

    • 客户的原始交易记录会首先进入 ODS 层,这些数据来自不同的业务系统,包括 ATM 交易、POS 交易、网上银行交易等。
    CREATE TABLE ods_transaction (transaction_id STRING,customer_id STRING,transaction_date STRING,transaction_amount DOUBLE,transaction_type STRING
    );
    
  2. DWD 层

    • 在 DWD 层,对交易数据进行清洗和标准化,去除重复数据,标准化交易类型等。
    CREATE TABLE dwd_transaction (transaction_id STRING,customer_id STRING,transaction_date DATE,transaction_amount DOUBLE,transaction_type STRING
    );INSERT INTO dwd_transaction
    SELECT transaction_id,customer_id,TO_DATE(transaction_date, 'yyyy-MM-dd') AS transaction_date,transaction_amount,transaction_type
    FROM ods_transaction
    WHERE transaction_id IS NOT NULL;
    
  3. DWS 层

    • 在 DWS 层,对交易数据进行汇总和分析,生成每日、每月的交易统计报表。
    CREATE TABLE dws_monthly_transaction (transaction_month STRING,total_transactions INT,total_amount DOUBLE
    );INSERT INTO dws_monthly_transaction
    SELECT DATE_FORMAT(transaction_date, 'yyyy-MM') AS transaction_month,COUNT(transaction_id) AS total_transactions,SUM(transaction_amount) AS total_amount
    FROM dwd_transaction
    GROUP BY DATE_FORMAT(transaction_date, 'yyyy-MM');
    
  4. DM 层

    • 在 DM 层,为风险管理部门提供客户行为分析的数据,如高频交易客户名单、异常交易行为分析等。
    CREATE TABLE dm_high_freq_customers (customer_id STRING,transaction_count INT
    );INSERT INTO dm_high_freq_customers
    SELECT customer_id,COUNT(transaction_id) AS transaction_count
    FROM dwd_transaction
    GROUP BY customer_id
    HAVING COUNT(transaction_id) > 100;
    

通过以上示例,可以清晰地看到数据从 ODS 层经过 DWD 层、DWS 层到 DM 层的流转过程。在每一层,数据都经过了一定的处理和转换,以适应不同的业务需求和分析场景。严格遵循数据分层的标准流向,可以有效地提高数据处理的效率和质量,保障数据的准确性和一致性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IOS开发学习日记(十五)

目录 App启动过程及生命周期 App的启动 UIApplication UIApplicationDelegate 通过App生命周期回调实现启动页 闪屏的实现 简单实现闪屏功能 App启动过程及生命周期 App的启动 main函数前 动态链接 / 二进制文件加载 / runtime / 类的加载 ...... main函数 int main(int…

数据结构-线性表的顺序表示

目录 前言一、线性表1.1 线性表的概念1.2 线性表的逻辑特征 二、线性表的抽象数据类型三、线性表的顺序表示和实现3.1 线性表的顺序表示3.2 基本操作的实现 总结 前言 本篇文章介绍线性表的基本概念,并使用顺序存储结构实现线性表。 本篇文章使用的程序设计语言为C…

使用ANSI转义序列设置终端文本颜色

在使用ANSI转义序列设置终端文本颜色时,背景颜色和文本(前景)颜色的区分主要通过不同的ANSI代码来实现。ANSI转义序列使用格式为\033[代码m的结构,其中\033是转义字符(等同于\e),m指示颜色设置的…

Python with MATLAB

Python with MATLAB 原文:Python with MATLAB - 知乎 (zhihu.com) 我问来自俄罗斯的实习生,你对网上争辩MATLAB和Python谁好谁坏有什么看法。实习生表示他不会Python,但是只要能完成老板布置的工作,哪个语言都无所谓。再说了&am…

c#调用c++生成的dll,c++端使用opencv, c#端使用OpenCvSharp, 返回一张图像

c代码&#xff1a; // OpenCVImageLibrary.cpp #include <opencv2/opencv.hpp> #include <vector> extern "C" { __declspec(dllexport) unsigned char* ReadImageToBGR(const char* filePath, int* width, int* height, int* step) { cv::Mat i…

事件驱动架构详解:触发与响应构建高效系统

目录 前言1. 事件驱动架构概述1.1 什么是事件1.2 事件驱动架构的核心概念 2. 事件驱动架构的实现2.1 基于消息队列的实现2.2 基于发布-订阅模式的实现2.3 基于流处理的实现 3. 事件驱动架构的优势3.1 松耦合性3.2 可扩展性3.3 异步处理3.4 灵活性 4. 事件驱动架构的应用场景4.1…

【深度学习】记录为什么没有调用GPU

排查CLIP为什么评测推理没有调用GPU&#xff0c;主要是这个代码&#xff1a;https://github.com/OFA-Sys/Chinese-CLIP/blob/master/cn_clip/eval/extract_features.py 第一次认为&#xff1a;因为model并没有to.cuda()。 但是又发现&#xff0c;model.cuda(args.gpu) # 已经加…

机器学习常见知识点 3:Boosting集成学习技术和XGB、LGB

文章目录 1、Boosting 的工作原理常见的 Boosting 算法优点和缺点如何进行加权投票 2、XGB1. XGBoost中的梯度提升2. 目标函数3. 树的构建与优化4. 处理缺失值与特征重要性 3、LGB核心特征1. 基于直方图的决策树学习2. 叶子优先策略3. 处理类别特征4. 缺失值处理 工作原理数据预…

镜像发布至dockerHub

1、login 没有账号的话去注册一个 https://hub.docker.com docker login 输入账号密码和账号2、修改镜像名格式 可以直接招我的修改 格式为你的 hub名/镜像名 3、推送

svm和决策树基本知识以及模型评价以及模型保存

svm和决策树基本知识以及模型评价以及模型保存 文章目录 一、SVM1.1&#xff0c;常用属性函数 二、决策树2.1&#xff0c;常用属性函数2.2&#xff0c;决策树可视化2.3&#xff0c;决策树解释 3&#xff0c;模型评价3.1&#xff0c;方面一&#xff08;评价指标&#xff09;3.2&…

DockerHub 镜像加速

Docker Hub 作为目前全球最大的容器镜像仓库&#xff0c;为开发者提供了丰富的资源。Docker Hub 是目前最大的容器镜像社区&#xff0c;DokcerHub的不能使用,导致在docker下pull镜像无法下载,安装kubernetes镜像也受到影响,下面请看解决方式。 1.加速原理 Docker下载加速的原理…

Android基于MediaBroswerService的App实现概述

mSession.setPlaybackState(mStateBuilder.build()); // 5. 关联 SessionToken setSessionToken(mSession.getSessionToken()); } } 根据包名做权限判断之后&#xff0c;返回根路径 Override public BrowserRoot onGetRoot(String clientPackageName, int clientUid, Bundl…

如何生成protobuf文件

背景 protobuf是一种用于序列化结构数据的工具&#xff0c;实现数据的存储与交换&#xff0c;与编程语言和开发平台无关。 序列化&#xff1a;将结构数据或者对象转换成能够用于存储和传输的格式。 反序列化&#xff1a;在其他的计算环境中&#xff0c;将序列化后的数据还原为…

FreeBSD通过CBSD管理低资源容器jail 网络NAT配置

jail容器里的系统有时候并不需要公开的地址&#xff0c;所以给它们配置内网地址即可。但是这些系统一般都有上网的需求&#xff0c;这时候可以使用nat进行解决。 CBSD可以配置NAT规则&#xff0c;只需要命令cbsd natcfg&#xff0c;配置好后cbsd naton启动即可&#xff1a; % …

Vue3.4新增的defineModel的使用

define-model的作用 在3.3及之前的版本&#xff0c;父子组件之间的通讯&#xff0c;一直都是靠props&#xff08;父传子&#xff09;和emit&#xff08;子传父&#xff09;来实现。而define-model整合了这两种方法&#xff0c;只需要在父组件中定义define-model的方法&#xf…

Spring容器中的Bean作用域

在Spring框架中&#xff0c;开发者确实主要关注两件事&#xff1a;开发Bean和配置Bean。Spring容器负责根据配置文件或注解来创建Bean实例&#xff0c;并通过依赖注入&#xff08;DI&#xff09;来管理Bean之间的依赖关系&#xff0c;这体现了控制反转&#xff08;IoC&#xff…

GIT回滚

1. 使用 git revert git revert 命令会创建一个新的提交&#xff0c;这个提交会撤销指定提交的更改。这通常用于公共分支&#xff08;如 main 或 master&#xff09;&#xff0c;因为它不会重写历史。 git revert HEAD # 撤销最近的提交 # 或者指定一个特定的提交哈希值 …

实际中应对网络丢包故障的方法

1.网络数据包发送时通时断&#xff0c;丢包严重 故障现象&#xff1a;通常故障发生时&#xff0c;该方向网络出现震荡性中断。使用Ping命令测试&#xff0c;发现在一段时间内数据包发送延时比正常值略高&#xff0c;间隔一小段时间数据包又全部丢失&#xff0c;丢包率超过60%&a…

Net开源项目推荐-WPF控件样式篇

Net开源项目推荐-WPF控件样式篇 HandyControlWPFDeveloperswpf-uidesignLive-ChartsAvalonDock HandyControl WPF控件库,比较常用的WPF开源控件库&#xff0c;对WPF原有控件样式都进行了重写和扩展&#xff0c;也增加了许多特别的控件&#xff0c;非常好用 github仓库&#x…

Day14—基于Langchain-chatchat搭建本地智能

一、基于Langchain-chatchat搭建本地智能 知识问答系统 1、项目介绍 基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现&#xff0c;开一种利用 langchain 思想实现的基于本地知识库的问答应用&#xff0c;目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知…