【数据仓库】数据仓库常见的数据模型——维度模型

文章部分图参考自:多维数据模型各种类型(星型、雪花、星座、交叉连接) - 知乎 (zhihu.com)

文章部分文字canla一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)-腾讯云开发者社区-腾讯云 (tencent.com)

目录

一、维度模型

(1)、星型模型(Star Schema)

(2)、雪花模型(Snowflake Schema)

(3)、星座模型(Galaxy Schema)

(4)、交叉连接

二、选择模型的考虑因素


一、维度模型

在数据仓库的设计和实施过程中,选择合适的数据模型对于优化查询性能提升数据分析效率至关重要。星型模型雪花模型星座模型是3种流行的数据仓库建模方法,它们各自具有独特的结构、优势和局限性。本文将深入探讨这三种模型的特点、适用场景以及如何根据业务需求进行选择。

维度建模四个步骤:

选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

1、星型模型(Star Schema)

星型模型是一种简单直观的数据模型。其主要目的是优化查询性能,使数据分析更加高效。星型模型的设计思路源自于对多维数据模型的需求,即通过简化数据结构来支持快速的查询操作。

1、结构:

星型模型由一个中心的事实表(Fact Table)和多个维度表(Dimension Tables)构成。中心事实表包含与业务过程相关的事实指标,维度表则描述了这些事实的上下文信息。事实表包含了可度量的数据,如销售额或利润,而维度表则包含了描述这些数据的属性,如时间、地点或产品类型。事实表与维度表之间通过外键连接,形成一个类似星形的结构。

 

2、优缺点:

优点:

  • 易于理解和查询:星型模型的结构简单明了,易于理解和查询,适用于简单的分析需求。
  • 性能较高:星型模型具有较好的查询性能,因为所有的维度信息都存储在维度表中,减少了表的连接操作,查询优化相对容易,能快速处理大量数据。

缺点:

  • 数据冗余:维度表可能存在数据冗余,也可能导致数据不一致性,也增加了存储空间的消耗。
  • 维护难度大:灵活性有限,星型模型对于新增维度的处理相对困难,需要进行表结构的修改

2、雪花模型(Snowflake Schema)

雪花模型是在星型模型的基础上进行了维度表的规范化,将维度表进一步分解为多个层次的规范化表。它的目的是通过数据规范化来减少冗余,并提升存储效率。雪花模型的名字源于其表结构的层次化外观,类似雪花的形状。

1.结构:

在雪花模型中,维度表被进一步分解成多个子表,形成一个层次结构。这种规范化使得维度数据被拆分到更细粒度的表中,从而减少数据冗余。例如,产品维度表可能会被拆分成产品类别和产品子类别表。

事实表:订单事实表(与星型模型相同)
维度表:日期维度表(与星型模型相同)
维度表:客户维度表(与星型模型相同)维度表:产品维度表
产品ID | 产品名称 | 类别 |··
规范化表:产品类别表
类别ID | 类别名称 | 父类别ID |··

2.优缺点:

优点:

  • 减少冗余数据:雪花模型通过规范化维度表,减少了数据冗余,节省了存储空间。
  • 灵活性高:雪花模型支持灵活的维度层次,适用于需要频繁变更或扩展维度的场景,有助于保持数据的一致性。

缺点:

  • 查询性能较差:由于表结构复杂,查询时需要进行多个连接,性能可能受影响。
  • 难以理解和维护:雪花模型的结构复杂,维度表的规范化可能增加了数据模型的理解和维护的复杂性。

3、星座模型(Galaxy Schema)

星座模型,又称为星型集合模型(Fact Constellation Schema),是对星型模型的一种扩展。它允许多个星型模型共享维度表,因此适用于需要整合多个业务领域的数据仓库。星座模型的出现满足了更复杂数据整合的需求。

1.结构:

星座模型由多个星型模型组成,这些星型模型共享某些维度表。例如,一个数据仓库可能同时包含销售和库存的星型模型,这些模型共享时间和产品维度表,从而形成一个星座结构。

2.优缺点:

优点:

  • 整合多个业务领域:适合处理复杂的业务数据,支持多角度分析。
  • 提高维度表的复用性:通过共享维度表,减少了数据重复。

缺点:

  • 设计复杂:涉及多个星型模型,设计和维护较为复杂。
  • 查询优化难度大:由于涉及多种业务数据,查询优化和性能调优比较复杂。

(4)、交叉连接

从一张表到另一张表有多条筛选路径彼此相连接,属于交叉连接模式

二、选择模型的考虑因素

1、数据复杂性:

如果业务需求较简单,维度层次不复杂,可以选择星型模型

如果业务需求复杂,维度层次较多,可以选择雪花模型

2、查询性能要求:

如果对查询性能有较高的要求,可以选择星型模型

如果对存储空间有较高的要求,可以选择雪花模型

3、可维护性和扩展性:

如果数据模型相对稳定,变更频率较低,可以选择星型模型。 

如果需要频繁变更或扩展维度,可以选择雪花模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/54165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android插件化(四)基础之Hook

Android插件化(四)基础之Hook 1、寻找Hook点的原则 Android中主要是依靠分析系统源码类来做到的,首先我们得找到被Hook的对象,我称之为Hook点;什么样的对象比较好Hook呢?一般来说,静态变量和单例变量是相对不容易改变…

第14章 存储器的保护

第14章 存储器的保护 该章主要介绍了GDT、代码段、数据段、栈段等的访问保护机制。 存储器的保护功能可以禁止程序的非法内存访问。利用存储器的保护功能,也可以实现一些有价值的功能,比如虚拟内存管理。 代码清单14-1 该章节的代码主要实现的功能就…

详解Transformer位置编码Positional Encoding

提到 Transformer,大家就会联想到位置编码、注意力机制、编码器-解码器结构,本系列教程将探索 Transformer 的不同模块在故障诊断等信号分类任务中扮演什么样角色,到底哪些模块起作用? 前言 本期基于凯斯西储大学(CWR…

微搭低代码实战:构建个性化点餐小程序

目录 前言书籍目录第1章:从零开始,认识微搭低代码平台第2章:用户认证与登录体验优化第3章:点餐小程序功能实现,包括创建应用、页面布局、组件使用等。第4章:变量定义与初始化,讲解低代码开发中变…

Docker部署Joplin Server教程

Joplin Server 是 Joplin 应用的后端服务,提供笔记和待办事项的同步功能。它允许用户在不同设备之间同步笔记,同时支持多用户和协作功能。Joplin Server使用现代技术栈,数据库使用的是 PostgreSQL 。 主要功能 同步:在桌面、移动设备和网页应用之间同步笔记。多用户支持:允…

Qt QSerialPort数据发送和接收DataComm

文章目录 Qt QSerialPort数据发送和接收DataComm2.添加 Qt Serial Port 模块3.实例源码 Qt QSerialPort数据发送和接收DataComm Qt 框架的Qt Serial Port 模块提供了访问串口的基本功能,包括串口通信参数配置和数据读写,使用 Qt Serial Port 模块就可以…

在react中 使用redux

1.安装redux npm install reduxjs/toolkit react-redux 2.创建切片模块化数据 在Src目录下创建store目录,创建moude目录 创建tab.js import { createSlice } from reduxjs/toolkit; const tabSlice createSlice({name: tab,initialState: {Collapse: false,},re…

C# WinForm 中 DataGridView 实现单元格cell 能进编辑状态但是不能修改单元格的效果

在Windows Forms(WinForms)开发中,DataGridView 控件是一个功能强大的组件, 用于显示和管理表格数据。无论是展示大量数据,还是实现交互式的数据操作, DataGridView 都能提供多样的功能支持,比如…

CLUSTERDOWN Hash slot not served问题复现

1、一主两从 172.31.4.18:6381> cluster nodes f5e774bd5cd8f5bcba53f1297015f3245dd3f18c 172.31.4.20:638316383 master - 0 1726278342891 10 connected 5461-10922 9a79febbfb1d7a8f7a6ba3fb11e86b0f122f71e7 172.31.4.21:638616386 slave 401730ba6e1c2cd8b60243990f0…

C++设计模式(更新中)

文章目录 1、创建型模式1.1 简单工厂(Simple Factory)(1)示例(2)总结 1.2 工厂方法(Factory Method)(1)示例(2)总结 1.3 抽象工厂&…

PL/SQL程序设计入门

PL/SQL程序设计 PL/SQL起步鼻祖:hello World语法分析声明部分举例 应用举例 PL/SQL 起步鼻祖:hello World 先举个例子,用PL/SQL打印输出hello world declarev_string varchar2(20); beginv_string:hello world;dbms_output.put_line(v_str…

Sass实现文字两侧横线及Sass常用方案

Sass常用方案及Sass实现文字两侧横线 1.Sass实现文字两侧横线2.用Sass简化媒体查询3.使用继承占位符实现样式复用4.Sass 模块化5.lighten 和 darken 自我记录 1.Sass实现文字两侧横线 mixin 的基本作用: 代码复用:把常用的样式封装在一起,…

Java如何扫描指定包下所有类?

Java如何扫描指定包下所有类? Java8、jdk8、idea、反射、class背景 每次写算法题时,总觉得测试代码写起来又没营养又很麻烦,即便是借助junit测试框架也很麻烦,太重了。 正好在学习spring过程中接触到注解,研究其原理…

SpringCloud-04 OpenFeign服务调用与负载均衡

OpenFeign是一个声明式、模板化的HTTP客户端,它简化了在Java应用程序中调用RESTful API的过程。OpenFeign是Netflix开发的一个开源项目,它构建在Feign的基础上,为开发者提供了更加简单、灵活的方式来实现HTTP请求。OpenFeign的特点包括&#…

地平线秋招2025

【地平线秋招】 中秋卷起来!!! 内推码 kbrfck 内推码 kbrfck 内推码 kbrfck 投递链接:https://wecruit.hotjob.cn/SU62d915040dcad43c775ec12c/mc/position/campus?acotycoCodekbrfck&recruitType1&isLimitShowPostScope…

深入剖析:C++类对象的内存布局与优化

深入剖析:C类对象的内存布局与优化 引言 在C编程中,理解类对象的内存布局对于优化内存使用和提高程序性能至关重要。本文将详细介绍C类对象的内存布局,包括数据成员、虚函数表指针以及静态变量和静态方法在内存中的位置。通过这些知识&…

【Google Chrome Windows 64 version及 WebDriver 版本】

最近升级到最新版本Chrome后发现页面居然显示错乱实在无语, 打算退回原来的版本, 又发现官方只提供最新的版本下载, 为了解决这个问题所有收集了Chrome历史版本的下载地址分享给大家. Google Chrome Windows version 64 位 VersionSize下载地址Date104.0.5112.10282.76 MBhtt…

MySQL从入门到精通二

第1章:MySQL基础 1.1运算符 1.1.1 算术运算符 算术运算符是MySQL中最常用的一类运算符。MySQL支持的算术运算符包括加、减、乘、除、求余。 算术运算符 符号作用符号作用加法运算%求余运算-减法运算DIV除法运算*乘法运算MOD求余运算,返回余数/除法运算…

Python|基于Kimi大模型,删除已上传的“指定文档”或“全部文档”(6)

前言 本文是该专栏的第6篇,后面会持续分享AI大模型干货知识,记得关注。 在本专栏上一篇《Python|基于Kimi大模型,实现上传文档并进行对话(5)》中,笔者有详细介绍“基于kimi大模型,上传指定文档并结合prompt,获取目标文本数据”。对此感兴趣的同学,可以直接点击翻阅查…

【洛谷】P3743 小鸟的设备 的题解

【洛谷】P3743 小鸟的设备 的题解 题目传送门 题解 水一道二分 qaq 刚开始考虑的是动态规划,但是动态规划并不能维护题目所要求的东西。所以我们将思路转向另一种求最值问题的方法:二分答案。 首先,如果一个设备在 t t t 的时间内消耗的…