数据开发/数仓工程师上手指南(一)数仓概念总览

前言

笔者毕业最开始从事的就是大数据开发和数据仓库建设工作,途中曾担任过人工智能工程师和计算机视觉工程师,没想到最后兜兜转转还是回到了最原本的工作数据开发工程师。但很少有写关于本职工作的技术内容输出。

之前笔者撰文内容大部分都是关于算法建模这块,大部分算是赋能计算这块内容,大家也多很关注这块,但是随着大环境改变,企业更注重多领域均衡发展,也就是比原来工作环境要求人才多元化,需要掌握多维的知识而不是深耕单一领域的。说白了就是更卷了,因此一些离不开数据体系搭建的知识可以说是必须要掌握的。就比如说公司的数仓建设和数仓体系架构的基本知识。因此借由此机会给大家好好分享企业级数仓建设以及最前沿的数据分析技术。

笔者的人工智能应用技术和实践项目还是会一直更新的,不过速度暂时没有往常那么快,谢谢大家的支持!

一、数据仓库概念

首先我们可以先在脑子里面建立一个中转站的概念,好比你开车上路,是想从国道开往高速,肯定高速开车速度要快而且体验感要好。那么你就把数据仓库认为是一个国道汇总到高速的一个高速中转站,负责收集这些不同地方来源的数据,统一归纳整理好再放到高速上去用,达到高效数据中转的效果。

数据仓库的目的就是为了统筹集中所有可以使用的数据,构建面向分析的集成数据环境,通过最终数据分析结果为企业提供决策导向支持。对于整个数据仓库而言,它不需要生产数据,也不用消费数据,而是通过数仓的一系列处理运算操作,将结果提供给外部。

1.数据仓库架构

我们再以整体架构为例来理解:

ODS(Operational Data Store)

  • 英文全称:Operational Data Store
  • 含义:操作型数据存储层。用于存储从业务系统中抽取的原始数据,数据一般未经处理或仅进行了简单的清洗,保持其原始状态。

DWD(Data Warehouse Detail)

  • 英文全称:Data Warehouse Detail
  • 含义:明细数据层。将ODS层的原始数据进行清洗、转换,存储详细的、经处理的数据,用于支持详细的业务分析需求。

DWS(Data Warehouse Summary)

  • 英文全称:Data Warehouse Summary
  • 含义:汇总数据层。对DWD层的数据进行聚合和汇总,生成更高层次的统计数据和指标,便于快速查询和分析。

DIM(Dimension)

  • 英文全称:Dimension
  • 含义:维度数据层。存储用于数据分析的维度数据,这些维度数据描述了事实表中的度量数据的上下文,如时间、地点、产品、客户等。

ADS(Application Data Store)

  • 英文全称:Application Data Store
  • 含义:应用数据层。存储为特定应用或分析需求准备的汇总数据,支持特定的业务应用、报表和分析需求。

在这里插入图片描述

1.1数据采集层

首先我们需要存储对应业务相关的数据,这块数据来源有很多途径,不仅只是我上图所画的那些途径,通过外部来源数据进行整合。因为数据来源不同,非一致性质格式数据,可能有的为日志格式数据或者是日志格式数据和JSON格式数据,所以我们需要通过ETL进行数据的转换处理,统一格式放入我们的数据仓库中。

1.2.数据加工层

数据加工层为数据仓库核心功能,需要将汇总的数据全部处理成我们可以进行分析的数据,其中我们还不希望损失原始数据信息,所以我们要尽可能建立很多规则表格来保存我们收集到的数据信息,数据就是资产。

在这个理念下我们就衍生出了很多个数据仓库分层理念,一般我们将数据仓库分为三层,自下而上,逐层提取精炼。从提取开始分别为:数据引入层(ODS,Operation Data Store),数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。
在这里插入图片描述
我们还是根据数据入库流程架构来分析:

1.2.1数据引入层ODS(Operational Data Store)

一般来说ODS可以说得上是作为一张原始数据表的映射表,存放未经过处理的原始数据至数据仓库系统,结构上与原始数据信息保持一致,是数据仓库的数据准备缓存区,还可以到保存历史数据记录的作用,也可增加字段。存储的历史数据是只读的。
在这里插入图片描述
在离线数仓中,业务数据定期通过ETL流程导入到ODS中,导入方式有全量、增量两种

  • 全量导入:数据第一次导入时,选择此种方式
  • 增量导入:数据非第一次导入,每次只需要导入新增、更改的数据,建议使用外连接&全覆盖方式
1.2.2数据公共层CDM(Common Data Model)

数据公共层CDM(Common Data Model,又称通用数据模型层),包括DIM维度表、DWD和DWS,由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。

其中这CDM中构建三层DIM维度表,DWD和DWS的过程为:
在这里插入图片描述
首先我们最后都是要为ADS层服务的,那么首先我们要提取出业务以及分析主题两个抽象事物,其中需要统一口径。

1.2.2.1 公共维度汇总层DIM(Dimension)

公共维度汇总层(DIM)主要由维度表(维表)构成。维度是逻辑概念,是衡量和观察业务的角度。维表是根据维度及其属性将数据平台上构建的物理化的表,采用宽表设计的原则。因此,公共维度汇总层(DIM)首先需要定义维度,建立整个企业的一致性维度。降低数据计算口径和算法不统一风险。

如果我们需要对一个招标业务进行构建DIM公共维度汇总层构建维度表,首先,详细了解招标业务的需求,确定需要分析和查询的主要维度。对于招标业务,可能需要考虑的维度有:

  • 招标项目
  • 投标公司
  • 招标类别
  • 地理区域
  • 时间维度(年、季度、月、日)
  • 项目负责人
  • 投标状态

这里暂时不展开,在往后详细数据仓库数据建模流程中会详细讲解建模过程。

1.2.2.2 明细粒度事实层DWD(Data Warehouse Detail)

在数据仓库架构中,DWD(明细数据层)是非常关键的一环,它将ODS层中的原始数据进行清洗和转换,提供细粒度的明细数据,支持进一步的数据分析和应用。以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,即宽表化处理。明细粒度事实层的表通常也被称为逻辑事实表。

倘若我们还是以招标业务来进行数据建模,明细事实表应包含所有需要分析的详细数据。

明细事实表结构

  • DWD_招标明细:
    • 招标项目ID
    • 招标项目名称
    • 招标类别ID
    • 地区ID
    • 项目负责人ID
    • 投标公司ID
    • 投标金额
    • 投标日期
    • 投标状态(如投标、未中标、中标等)
    • 投标次数
    • 其他相关字段(如评审分数、评审意见等)
1.2.2.3公共汇总粒度事实层DWS(Data Warehouse Summary)

构建公共汇总粒度事实层(DWS)是数据仓库中的一个重要步骤,目的是将详细的数据进行汇总,提供更高效的查询和分析支持。以业务过程作为建模驱动。以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段物理化模型。构建命名规范、口径一致的统计指标,为上层提供公共指标,建立汇总宽表、明细事实表。

公共汇总粒度事实层的表通常也被称为汇总逻辑表,用于存放派生指标数据。

首先,确定需要进行汇总的数据以及汇总的维度和指标。对于招标业务,可能需要以下汇总:

  • 按时间汇总(年、季度、月)
  • 按地区汇总
  • 按投标公司汇总
  • 按招标类别汇总
  • 按项目负责人汇总

设计汇总粒度的事实表结构,选择合适的度量值(Measures)和维度(Dimensions)。例如:

  • 汇总度量值
    • 总投标金额
    • 中标金额
    • 投标次数
    • 中标次数
  • 维度
    • 时间维度
    • 地区维度
    • 投标公司维度
    • 招标类别维度
    • 项目负责人维度

根据确定的维度和度量值,创建汇总粒度的事实表:

-- 创建DWS汇总事实表
CREATE TABLE DWS_招标汇总 (时间ID INT,地区ID INT,投标公司ID INT,招标类别ID INT,项目负责人ID INT,总投标金额 DECIMAL(18, 2),中标金额 DECIMAL(18, 2),投标次数 INT,中标次数 INT,PRIMARY KEY (时间ID, 地区ID, 投标公司ID, 招标类别ID, 项目负责人ID)
);

通过ETL过程将DWD层的明细数据汇总后加载到DWS层。可以使用SQL聚合函数来实现数据的汇总。

-- 插入汇总数据到DWS_招标汇总表
INSERT INTO DWS_招标汇总 (时间ID, 地区ID, 投标公司ID, 招标类别ID, 项目负责人ID, 总投标金额, 中标金额, 投标次数, 中标次数)
SELECT 时间ID,地区ID,投标公司ID,招标类别ID,项目负责人ID,SUM(投标金额) AS 总投标金额,SUM(CASE WHEN 投标状态 = '中标' THEN 投标金额 ELSE 0 END) AS 中标金额,COUNT(*) AS 投标次数,SUM(CASE WHEN 投标状态 = '中标' THEN 1 ELSE 0 END) AS 中标次数
FROM FACT_招标
GROUP BY 时间ID,地区ID,投标公司ID,招标类别ID,项目负责人ID;

在这里插入图片描述
以上便是整个数仓开发架构核心理念。

3.数据应用层

数据应用层一般是存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成。主要是提供给数据产品和数据分析使用的数据,一般会存放在ES、PostgreSql、Redis等系统中供线上系统使用,也可能会存在Hive或者Druid中供数据分析和数据挖掘使用。

一般来说就是数据报表BI了:
在这里插入图片描述数据仓库擅长数据分析,如果直接开放业务查询接口,会加重其负担

2.数据仓库VS数据库

谈到二者的区别,那我们就要了解二者设计的目的,是要解决什么需求。先从设计目的开始分析:

2.1设计目的

数据库(Database)

  • 设计目的:主要用于在线事务处理(OLTP),支持日常业务操作和事务处理。
  • 功能:处理频繁的数据插入、更新和删除操作,确保数据的实时性和一致性。
  • 使用场景:用于支持业务应用程序,如电子商务网站、银行交易系统、企业资源规划(ERP)系统等。

数据仓库(Data Warehouse)

  • 设计目的:主要用于在线分析处理(OLAP),支持复杂的查询和数据分析。
  • 功能:聚合、清洗和转换大量的历史数据,支持决策支持系统(DSS)和商业智能(BI)应用。
  • 使用场景:用于支持数据分析和商业报告,如市场分析、销售趋势分析、财务报表分析等。
2.2数据结构和存储

数据库

  • 数据结构:通常是高度规范化的(第三范式),以减少数据冗余和提高数据一致性。
  • 存储方式:存储当前的操作数据,数据量相对较小,数据频繁更新。
  • 示例:客户信息表、订单表、库存表等。

数据仓库

  • 数据结构:通常是非规范化的(如星型或雪花型模式),以提高查询性能和分析效率。
  • 存储方式:存储大量的历史数据,数据量庞大,数据更新频率较低。
  • 示例:销售事实表、客户维度表、时间维度表等。
2.3.性能优化

数据库

  • 优化目标:优化事务处理性能,确保快速的读写操作。
  • 技术:使用索引、事务处理、锁机制等技术来保证数据一致性和操作性能。

数据仓库

  • 优化目标:优化查询性能,支持复杂的多维分析和大规模数据处理。
  • 技术:使用分区、聚合索引、物化视图等技术来提高查询速度。
2.4.数据处理

数据库

  • 数据处理:处理实时数据,支持并发的读写操作。
  • 数据加载:主要通过应用程序直接插入或更新数据。

数据仓库

  • 数据处理:处理批量数据,数据从多个源系统抽取、转换后加载(ETL)。
  • 数据加载:通常通过ETL流程进行批量数据加载,数据加载过程可能在非高峰期进行。
2.5. 用户与操作

数据库

  • 用户:主要是应用程序和终端用户,进行日常的业务操作。
  • 操作类型:CRUD操作(创建、读取、更新、删除),注重事务的原子性和一致性。

数据仓库

  • 用户:主要是数据分析师、数据科学家、商业用户,进行数据分析和报表生成。
  • 操作类型:复杂的查询和分析操作,注重数据的整合和历史数据分析。
2.6.数据集成

数据库

  • 数据集成:通常处理单一业务领域的数据,集成度较低。
  • 数据源:主要来自内部业务系统。

数据仓库

  • 数据集成:处理多个业务领域的数据,集成度较高,跨多个系统和数据源。
  • 数据源:来自多个异构数据源,包括内部业务系统、外部数据源、日志数据等。
总结

数据库

  • 设计用于支持日常业务操作和事务处理。
  • 数据结构高度规范化,注重数据的一致性和实时性。
  • 优化事务处理性能,处理频繁的读写操作。

数据仓库

  • 设计用于支持数据分析和决策支持系统。
  • 数据结构非规范化,存储大量的历史数据。
  • 优化查询性能,支持复杂的多维分析和大规模数据处理。
数据库(Database)数据仓库(Data Warehouse)
面向事务分析
数据类型细节、业务综合、清洗过的数据
数据特点当前的、最新的历史的、跨时间维护
目的日常操作长期信息需求、决策支持
设计模型基于ER模型、面向应用事务星型/雪花模型,面向业务决策
操作读/写大多为读
数据规模GB到TB>=TB

3.数据仓库基本特征

数据仓库具有一些独特的特征,使其在数据存储、管理和分析方面与传统的操作型数据库(OLTP)系统有所不同。数据仓库是面向主题设计的,属于OLAP(在线分析处理)系统,主要操作是批量读写;关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方式设计。

3.1. 面向主题(Subject-Oriented)

数据仓库以主题为导向来组织数据,而不是以应用程序或事务为导向。主题可以是销售、客户、产品、财务等,它们反映了业务的主要领域。这种主题导向的数据组织方式便于用户进行跨部门和跨业务领域的分析。

3.2.集成性(Integrated)

数据仓库集成了来自多个异构数据源的数据。数据在加载到数据仓库之前,需要进行清洗、转换和统一,确保数据的一致性和准确性。这包括处理数据格式、度量单位、编码和命名规则等方面的差异。

3.3非易失性(Non-Volatile)

一旦数据被加载到数据仓库中,通常不会被更新或删除。数据仓库中的数据是只读的,旨在提供历史数据的快照,以便进行长期的趋势分析和报告。新的数据会定期加载进数据仓库,而不是对现有数据进行更新。

3.4时变性(Time-Variant)

数据仓库存储随时间变化的历史数据。这意味着数据仓库中的每个数据记录都与一个特定的时间点或时间段相关联,这有助于用户进行趋势分析、时间序列分析和历史数据查询。数据仓库能够保存多年的数据,提供跨时间段的分析视角。

3.5面向分析(Analytical Orientation)

数据仓库的设计和优化是为了支持复杂的查询和数据分析,而不是高频率的事务处理。它使用的技术和架构(如星型和雪花型模型)旨在提高查询性能,支持多维分析(OLAP)和数据挖掘(Data Mining)。

3.6支持决策支持系统(DSS)

数据仓库是企业决策支持系统(DSS)的核心,旨在为管理层提供可靠的数据基础,支持战略决策、业务规划和运营管理。它能够集成不同业务领域的数据,提供跨部门的分析能力。

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢

以上就是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/49653.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++入门基础:C++中的循环语句

循环语句是编程语言中用来重复执行一段代码直到满足特定条件的一种控制结构。它们对于处理需要重复任务的场景非常有用,比如遍历数组、累加数值、重复执行某项操作直到满足条件等。 但是在使用循环语句的时候需要注意下哈,有时候一不小心会构成死循环或者…

Ubuntu上安装anaconda创建虚拟环境(各种踩坑版)

之前都是在Windows桌面版进行深度学习的环境部署及训练,今天尝试了一下在Ubuntu上进行环境部署,踩了不少坑,提供一些解决办法给大家避雷。 目录 一、下载和安装anaconda 1. 下载 2. 安装 二、创建虚拟环境 一、下载和安装anaconda 1. …

uniapp入门超详细教程:如何从零开始搭建项目

目录 一、介绍 二、环境搭建 2.1.需要下载的软件 2.1.1 HBuilderX 2.1.2 下载微信开发者工具 2.2 创建uniapp项目 2.2.1 新建项目 2.2.2 项目基本结构 2.2.3 在微信开发者工具上运行 2.2.4 发布微信小程序 三、pages.json 页面路由 四、组件 4.1 视图容器 4.1.1 v…

RabbitMQ入门详解

前言 本篇文章将详细介绍rabbitmq的基本概念知识,以及rabbitmq各个工作模式在springboot中如何使用。 文章目录 介绍 简介 RabbitMQ 核心 生产者与消费者 Exchange Queue 工作模式 简单模式 工作队列模式 发布订阅模式 路由模式 主题模式 SpringBoot中…

扭蛋机潮玩小程序搭建,扭蛋机行业的创新

在当下潮玩市场中,扭蛋机具有盲盒的未知性和惊喜体验感,商品丰富,并且价格相对低廉,获得了极高的人气。年轻人开始对扭蛋机逐渐“上头”,为了扭到喜欢的商品不断地进行复购下单,在这场随机性的扭蛋游戏中&a…

【故障排查】Docker启动Nacos报错:No DataSource set 问题解决

Nacos报错内容 Nacos Server did not start because dumpservice bean construction failure : No DataSource set原因分析 Nacos 配置的是单机模式,使用mysql 进行存储配置文件,Nacos的启动脚本已经配置了MySQL的连接方式,根据错误提示&a…

Window下安装Zookeeper

一、下载 地址:https://archive.apache.org/dist/zookeeper/zookeeper-3.5.6/ 解压:非中文、没有空格目录下 新建data目录,用于存放数据文件 二、配置 进入conf目录,复制zoo_sample.cfg 为zoo.cfg 打开zoo.cfg 修改dataDir&…

江苏科技大学24计算机考研数据速览,有专硕复试线大幅下降67分!

江苏科技大学(Jiangsu University of Science and Technology),坐落在江苏省镇江市,是江苏省重点建设高校,江苏省人民政府与中国船舶集团有限公司共建高校,国家国防科技工业局与江苏省人民政府共建高校 &am…

层次分析模型

一、算法简介 决策问题:面临多种方案,需要根据一定的标准选择某一种方案 归一化处理(让指标在同一数量级,且保证在同一指标下其差距不变): 给指标加上权重(加权) 科学地设定权重? 二、python…

2. 深度学习的项目流程(批量化打包数据、构建模型、训练模型、波士顿房价预测、激活函数、多层感知机)

深度学习流程 1. 深度学习基本流程1.1 流程图1.2 代码实现1.3 基本概念 2. 深度学习项目流程2.1 批量化打包数据2.2 构建模型2.3 训练模型(1)筹备训练(2)开始训练 2.4 模型推理 3. 深度学习实现波士顿房价预测3.1 数据读取、切分、…

数据库之PHP联动

目录 一、软件安装 二、软件讲解 三、搭配环境 四、编辑软件配置 五、成果展示 如果有人问:为什么非要用xampp、VS code编辑软件?不用phpstudy等其他工具。 那么我只想说:因为xampp、VS code编辑软件免费(ಡωಡ)hiahiahia 一、软件安装 下载连…

Java语言程序设计基础篇_编程练习题**15.19 (游戏:手眼协调)

**15.19 (游戏:手眼协调) 请编写一个程序,显示一个半径为10像素的实心圆,该圆放置在面板上的随机位置,并填充随机的顔色,如图15-29b所示。单击这个圆时,它会消失,然后在另一个随机的位置显示新的随机颜色的…

Python task

任务1 实现wordcount: 代码如下: import re def wordcount(text):#全部小写text text.lower()text re.sub(r[^\w\s], , text)#切分words text.split()#计算频率word_count {}for word in words:if word in word_count:word_count[word] 1else:wo…

MPI框架以及PIPE数据流向细节

一、海思MPP内部处理流程图 各模块功能介绍: (1)VI:捕获视频图像,可对其做剪切、缩放、镜像等处理,并输出多路不同分辨率的图像数据. (2)AI:捕获⾳频数据,然后AENC 模块⽀持按多种⾳…

华盈生物-小分子靶点筛选服务:助力药物发现的利器

在药物发现的过程中,确定小分子化合物的靶点是至关重要的一步。华盈生物为科学家们提供了两种高效的小分子靶点筛选方案,助力研究人员精准锁定靶点,加速新药研发进程。 方案一:荧光标记与HuProt人类蛋白质组芯片结合 华盈生物的H…

lua 游戏架构 之 游戏 AI (三)ai_attack

这段Lua脚本定义了一个名为 ai_attack 的类,继承自 ai_base 类。 lua 游戏架构 之 游戏 AI (一)ai_base-CSDN博客文章浏览阅读119次。定义了一套接口和属性,可以基于这个基础类派生出具有特定行为的AI组件。例如,可以…

MongoDB教程(十六):MongoDB高级索引

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、全文索…

开源软件项目:趋势、参与经验与收获

在当今这个全球经济与科技日新月异的时代,开源软件项目(Open Source Software, OSS)正以前所未有的速度蓬勃发展,成为推动技术创新、促进产业合作、加速知识共享的重要力量。随着云计算、大数据、人工智能等技术的兴起&#xff0c…

matlab 绘制参数方程

matlab 绘制参数方程 绘制参数方程绘制结果 绘制参数方程 clc; clear; close all;axis_length 100;% 定义参数t的范围 t 0:0.01:100;% 计算x和y的值 x t.^2 1; y 4*t - t.^2;% 绘制函数图像 plot(x, y); xlabel(x); ylabel(y); title(Plot of the curve xt^21, y4t-t^2…

机器学习之主成分分析案例-红酒主成分分析

🍷 机器学习实战:使用PCA与sklearn红酒数据集进行特征降维与模型预测对比 在机器学习中,主成分分析(PCA)是一种有效的降维技术,它通过寻找数据中的主成分来减少特征数量,同时尽量保留数据的结构…