3、如何从0到1去建设数据仓库

1、数仓实施过程

1.1 数据调研

        数据调研包括:业务调研、需求调研

       业务调研

                需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点

                各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据

                是怎样存储的

业务调研完后的产出:

        业务调研表、各个业务流程图


需求调研

        主要调研 分析师、运营人员的数据需求 和 现有报表系统中的数据需求        


1.2 数仓架构设计

数据域(主题域)的划分

        进行数据调研后,需要对 业务过程或维度进行归纳、抽象出数据域

        数据域的特点:

                为保证数仓的稳定性,数据域需要从业务过程中抽象提炼

                并且长期维护和更新,但不轻易变动

                划分数据域时,既要能覆盖当前所有的业务需求,又要在有新的业务进入时

                毫无影响的进入已有的数据域或者扩展新的数据域


构建总线矩阵

        构建总线矩阵的目的是为了明确两个事情:

                1、明确每个数据域下有哪些业务过程

                2、明确每个业务过程与哪些维度相关


1.3 规范定义

        规范定义主要包括:表命名规范、字段命名规范、ETL开发规范 (后续章节会单独介绍这块内容)

1.4 模型设计

        模型设计主要包括:事实表设计、维度表设计 (后续章节会单独介绍这块内容)

1.5 代码开发

        ETL开发过程

1.6 评审

        对设计的模型、开发代码进行评审

1.7 上线及配置质量监控

        调度任务上线及配置质量监控任务

1.8 总结

        数仓的建设是一个高度迭代和动态的过程,一般采用螺旋式实施方法。

        在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审

        在架构设计、规范定义、模型设计等过程中,都要引入评审机制,以确保实施过程的正确性

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/163906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python数据结构与算法-16_优先级队列

优先级队列 你可能比较奇怪,队列不是早就讲了嘛。这里之所以放到这里讲优先级队列,是因为虽然名字有队列, 但其实是使用堆来实现的。上一章讲完了堆,这一章我们就趁热打铁来实现一个优先级队列。 实现优先级队列 优先级队列(Pr…

UWA报告使用技巧小视频,你get了么?(第十一弹)

随着玩家对手游渲染品质的要求日益趋上,60帧、各种花式后处理导致发热、耗电等问题日趋明显。本期UWA报告使用技巧将分享关于GPU优化的专题姊妹篇。 《GPU性能优化篇》 UWA专注于手游GPU性能的优化,以确保您的游戏体验得以最佳展现。基于最新发布的GOT …

141.【Git版本控制】

Git-深入挖掘 (一)、Git分布式版本控制工具1.目标2.概述(1).开发中的实际常见(2).版本控制器的方式(3).SVN (集中版本控制器)(4).Git (分布版本控制器)(5).Git工作流程图 (二)、Git安装与常用命令1.Git环境配置(1).安装Git的操作(2).Git的配置操作(3).为常用的指令配置别名 (可…

轻松解决rpm软件包的依赖问题 yum download ,rpm和deb不同系列

centos rpm系列的 为它往往有很多依赖项目。比如,我们来查看一下net-tools的依赖项有哪些: yum deplist net-tools 推荐使用以下几种方法: 1.repotrack 我这里也以上期讲到的Mariadb为例演示,以下操作需要在有网络的环境下进…

国内企业出海首选的免费开源订单管理系统(OMS)解决方案

用开源智造Odoo订单管理系统 (OMS) 解决方案实现"订单到收款"流程自动化 开源智造Odoo 订单管理软件功能消除了手动操作瓶颈,可防止出错,还建立了从销售报价到订单履行的顺畅工作流来确保及时开票和付款,从而帮助您理顺订单处理过程…

Python将多个视频帧组合成.mp4视频

已经有很多文章描述了如何将视频拆分成视频帧,例如:https://blog.csdn.net/WYKB_Mr_Q/article/details/124929081 那我们如何将很多视频帧重新组合成视频呢? 这里我们主要用到了 OpenCV 库中的 VideoWriter 类。 OpenCV种的 cv2.VideoWrit…

jdbc批量插入或更新数据

mybatis可以批量插入或更新数据,不过mybatis底层也是基于jdbc来实现的,如何使用jdbc批量操作数据?本文给出demo。 /*** JDBC分批次批量插入* * throws IOException*/public static void testJDBCBatchInsertUser() throws IOException {Conne…

工作流引擎的架构设计主要考虑以下方面

工作流引擎的架构设计主要考虑以下方面,以驰骋工作流引擎为例来说明。 高度抽象和封装:为了适应各种业务场景,工作流引擎应具备高度抽象和封装的特性,以便统一处理各流程。灵活配置:工作流引擎应支持灵活的配置&#…

Linux之实现简易的shell

1.打印提示符并获取命令行 我们在使用shell的时候&#xff0c;发现我们在输入命令是&#xff0c;前面会有&#xff1a;有用户名&#xff0c;版本&#xff0c;当前路径等信息&#xff0c;这里我们可以用环境变量去获取: 1 #include <stdio.h>2 #include <stdlib.h>…

python如何快速查找到想要的文档

字多不看版&#xff0c;直接体验 待补充 演示代码 # -*- coding:UTF-8 -*-# region 导入必要的依赖包 import os import subprocess from enum import Enum模块名 pyperclip try:import pyperclip # 需要安装 pyperclip 模块&#xff0c;以支持粘贴板操作 except ImportEr…

PTA-成绩转换

本题要求编写程序将一个百分制成绩转换为五分制成绩。转换规则&#xff1a; 大于等于90分为A&#xff1b;小于90且大于等于80为B&#xff1b;小于80且大于等于70为C&#xff1b;小于70且大于等于60为D&#xff1b;小于60为E。 输入格式: 输入在一行中给出一个整数的百分制成…

羊大师教你如何科学控制体重,轻松瘦下来

羊大师教你如何科学控制体重&#xff0c;轻松瘦下来 我们都知道&#xff0c;控制体重对于保持健康和美丽至关重要。然而&#xff0c;许多人在减肥的道路上走得波折重重&#xff0c;常常陷入挫败和不知所措的境地。那么&#xff0c;如何科学控制体重&#xff0c;轻松瘦下来呢&a…

项目经理只需要有PMP证书就行?

就目前而言&#xff0c;大部分人对于项目经理的认识还停留在&#xff1a;有项目管理经验&#xff0c;有对应的工作年限&#xff0c;有PMP证书。所以绝大多数人都认为只要报考了PMP项目管理&#xff0c;取得PMP证书&#xff0c;即可加入项目经理的圈子&#xff0c;薪资翻倍。 但…

协同过滤与矩阵分解讲解(PPT)

总览 协同过滤算法&#xff0c;就是一种完全依赖用户和物品之间行为关系的推荐算法。 从字面理解&#xff0c;协同大家的反馈、评价和意见一起对海量的信息进行过滤&#xff0c;从中筛选出用户可能感兴趣的信息。 知识概括 从这几个方面进行分析。 一、基于用户的协同过滤 显示…

6个PPT素材网站,让你快速做出好看的PPT

找PPT模板一定要收藏好这6个网站&#xff0c;能让你快速做出好看的PPT&#xff0c;重点十可以免费下载&#xff0c;赶紧收藏&#xff01; 1、菜鸟图库 https://www.sucai999.com/search/ppt/0_0_0_1.html?vNTYwNDUx 菜鸟图库网有非常丰富的免费素材&#xff0c;像设计类、办公…

力扣labuladong——一刷day48

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、力扣1602. 找到二叉树中最近的右侧节点二、力扣437. 路径总和 III三、力扣560. 和为 K 的子数组 前言 二叉树的递归分为「遍历」和「分解问题」两种思维模式…

第7章-使用统计方法进行变量有效性测试-7.4.2-多元线性回归

目录 多元线性回归模型 总体回归函数 样本回归函数 线性回归模型的假定 普通最小二乘法&#xff08;Ordinary Least Squares&#xff0c;OLS&#xff09; 拟合优度指标 F检验 回归系数的t检验 Python中构建多元线性回归模型 数据理解 数据读取 数据清洗 相关分析 …

想考教师编制专业不对口怎么办?

很多人在想要步入教师行业时&#xff0c;会遇到一个问题&#xff1a;专业不对口。这种情况可能会让你感到困惑和沮丧&#xff0c;但不要气馁&#xff0c;因为有很多方法可以让你实现自己的梦想。 可以通过提高自己的教育水平和能力来弥补专业不对口的缺陷。你可以通过参加教师资…

品牌小红书koc投放策略分享,纯干货!

作为中国具有影响力的时尚美妆社交平台&#xff0c;小红书与其充满活力的用户群体成为品牌寻找优质KOC合作的理想平台。本文伯乐网络传媒将探讨品牌如何利用小红书的KOC投放策略&#xff0c;实现更广泛的市场覆盖和更有效的品牌营销。 一、明确目标受众与KOC合作需求 在开始策…

containerd Snapshots功能解析

containerd Snapshots功能解析 snapshot是containerd的一个核心功能&#xff0c;用于创建和管理容器的文件系统。 本篇containerd版本为v1.7.9。 本文以 ctr i pull命令为例&#xff0c;分析containerd的snapshot “创建” 相关的功能。 ctr命令 ctr image相关命令的实现在cmd…