数据仓库模式之详解 Inmon 和 Kimball

目录

一、前言

二、企业信息工厂(Inmon)

2.1 概念

2.2 主要组件

2.3 流程

三、多维数据仓库(Kimball)

3.1 概念

3.2 核心组件

3.3 流程

 四、异同及用途对比

4.1 异同对比

4.2 特征比较


一、前言

大部分关于数据仓库构建与讨论,都受到两位有影响力的思想领袖Bill Inmon和Ralph Kimball的影响,他们各有不同的数据仓库建模和实施方法。

  • Inmon把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据,又成为企业信息工厂
  • Kimball则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维数据仓库。

 在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。目前主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构本。文将详细介绍 Kimball 和 Inmon 理论在实际数据仓库建设中的应用。

二、企业信息工厂(Inmon)

Bill Inmon的企业信息工厂(Corporate Information Factory, CIF)是两种主要的数据仓库建设模式之一。Inmon关于数据仓库的组成是这样描述的:“面向主题的、整合的、随时间变化的、包含汇总 和明细的、稳定的历史数据集合”。

2.1 概念

Inmon 模式从流程上看是自顶向下的,即从数据源到数据仓库再到数据集市的(先有数据仓库再有数据市场)一种瀑布流开发方法。对于Inmon模式,数据源往往是异构的,比如从自行定义的爬虫数据就是较为典型的一种,数据源是根据最终目标自行定制的。这里主要的数据处理工作集中在对异构数据的清洗,包括数据类型检验,数据值范围检验以及其他一些复杂规则。在这种场景下,数据无法从stage层直接输出到dm层,必须先通过ETL将数据的格式清洗后放入dw层,再从dw层选择需要的数据组合输出到dm层。

在Inmon模式中,并不强调事实表和维度表的概念,因为数据源变化的可能性较大,需要更加强调数据的清洗工作,从中抽取实体-关系。

2.2 主要组件

CIF的组成部分包括:

  • 1)应用程序。应用程序处理业务流程。应用程序产生的明细数据流转到数据仓库和操作型数据存储中,继而用作分析。
  • 2)数据暂存区。介于业务系统源数据库和目标数据仓库之间的一个数据库。暂存区是用于数据抽取、转换和加载的地方,对最终用户透明。暂存区中的大部分数据是短时留存的,通常只有相当少的一部分数据是持久性数据。
  • 3)集成和转换。在集成层,来自不同数据源的数据被转换整合为数仓和ODS里的标准企业模型。
  • 4)操作型数据存储(ODS)。操作型数据存储是业务数据的集成数据库。
  • 5)数据集市。数据集市为后续的数据分析提供数据。这里说的数据通常是数据仓库的子集,用于支持特定分析或特定种类的消费者。
  • 6)操作型数据集市(OpDM)。操作型数据集市是专注于运营决策支持的数据集市。
  • 7)数据仓库。数据仓库为企业数据提供了一个统一的整合入口,以支持管理决策、战略分析和规划。
  • 8)运营报告。运营报告从数据存储中输出。
  • 9)参考数据、主数据和外部数据。

数据仓库和操作性数据存储的区别:

  1. 操作性数据存储数据可能直接来源于应用系统,也可能来自其他数据库。
  2. 操作型数据存储中通常包括当前的或近期的(30~90天)数据,而数据仓库还包含历史(通常是很多年的)数据。
  3. 操作型数据存储的数据变化较快,而数据仓库的数据相对稳定。不是所有的组织都会建设操作型数据存储,操作型数据存储的存在满足了企业对低延迟数据的需求。
  4. 操作型数据存储可以作为数据仓库的主要来源,还可用于对数据仓库做审计。

2.3 流程

通常,Inmon都是以数据源头为导向。

  1. 首先,需要探索性地去获取尽量符合预期的数据,尝试将数据按照预期划分为不同的表需求。
  2. 其次,明确数据的清洗规则后将各个任务通过ETL由Stage层转化到DW层,这里DW层通常涉及到较多的UDF开发,将数据抽象为实体-关系模型。
  3. 接着,在完成DW的数据治理之后,可以将数据输出到数据集市中做基本的数据组合。
  4. 最后,将数据集市中的数据输出到BI系统中去辅助具体业务。
     

三、多维数据仓库(Kimball)

Kimball的多维数据仓库是数据仓库开发的另一个主要模式。Kimball将数据仓库简单地定义为“专为查询和分析而构建的事务数据的副本”(Kimball,2002)。但是,“副本”的说法并不精确。仓库数据存储在多维数据模型中。多维模型旨在方便数据使用者理解和使用数据,同时还支持更优的查询性能。它不是以实体关系模型的规范化要求组织的。

3.1 概念

Kimball 模式从流程上看是是自底向上的,即从数据集市到数据仓库再到数据源(先有数据集市再有数据仓库)的一种敏捷开发方法。对于Kimball模式,数据源往往是给定的若干个数据库表,数据较为稳定但是数据之间的关联关系比较复杂,需要从这些OLTP中产生的事务型数据结构抽取出分析型数据结构,再放入数据集市中方便下一步的BI与决策支持。


3.2 核心组件

  • 1)业务源系统。企业中的操作型/交易型应用程序。这些应用程序产生数据,数据再被集成到操作型数据存储和数据仓库中。此组件等同于企业信息工厂图中的应用程序系统。
  • 2)数据暂存区域。Kimball的暂存区域包括需要集成的流程和用于展示的转换数据,可以与企业信息工厂的集成、转换和数据仓库组件的组合进行类比。Kimball的重点是分析类数据的高效终端交付,比 Inmon的企业管理数据范围要小。Kimball的企业数据仓库可以适配数据暂存区域架构。
  • 3)数据展示区域。与企业信息工厂中的数据集市类似,关键的架构差异在于“数据仓库总线”的集成范式,如应用于若干个数据集市的共享或一致的维度。
  • 4)数据访问工具。Kimball方法侧重于最终用户的数据需求。这些需求推动采用适当的数据访问工具

3.3 流程

通常,Kimball都是以最终任务为导向。

  1. 首先,在得到数据后需要先做数据的探索,尝试将数据按照目标先拆分出不同的表需求。
  2. 其次,在明确数据依赖后将各个任务再通过ETL由Stage层转化到DM层。这里DM层数据则由若干个事实表和维度表组成。
  3. 接着,在完成DM层的事实表维度表拆分后,数据集市一方面可以直接向BI环节输出数据了,另一方面可以先DW层输出数据,方便后续的多维分析。

Kimball往往意味着快速交付、敏捷迭代,不会对数据仓库架构做过多复杂的设计,在变换莫测的互联网行业,这种架构方式逐渐成为一种主流范式。

 四、异同及用途对比

4.1 异同对比

这两种结构的相似之处:

  • 一、都是假设操作型系统和分析型系统是分离的;
  • 二、数据源(操作型系统)都是众多;
  • 三、ETL整合了多种操作型系统的信息,集中到一个企业数据仓库。

最大的不同就是企业数据仓库的模式不同:

  • inmon是采用第三范式的格式,kimball采用了多维模型–星型模型,并且还是最低粒度的数据存储。
  • 其次,维度数据仓库可以被分析系统直接访问(这种访问方式毕竟在分析过程中很少使用)。
  • 最后就是数据集市的概念有逻辑上的区别,在kimball的架构中,数据集市用维度数据仓库的高亮显示的表的子集来表示。

4.2 特征比较

特征InmonKimball
开发周期漫长快速交付
开发难度
维护难度
技能要求专家级入门级
数据要求企业级特定业务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/155268.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小微初创企业,如何利用媒体宣传快速成长

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 对于小微初创企业来说,利用媒体宣传可以快速提升品牌知名度、扩大影响力,进而促进企业的成长。 1.确定宣传目标:是增加销售、提升品牌知名度、还是推…

JVM对象创建与内存分配

对象的创建 对象创建的主要流程: 类加载推荐博客:JVM类加载机制详解 类加载检查 虚拟机遇到一条new指令时,首先将去检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已被加载、解析…

Failed to load resource: net::ERR_UPLOAD_FILE_CHANGED 谷歌浏览器就会有这个问题 其他的浏览器没有

Failed to load resource: net::ERR_UPLOAD_FILE_CHANGED 10 10: Difficulties in file uploading through all browsers and applications

mac添加Chrome插件的方法

如果是.crx的插件 更改后缀crx为zip 后续步骤同下文.zip文件 如果是.zip的插件 使用终端进行解压 注意不要用解压工具解压,一定要用终端,命令行解压 // 进入到“插件名.zip”文件的目录下,输入下面命令: unzip 插件名.zip -…

「ResNet-18」70 个犬种的图片分类

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…

LeetCode【45】跳跃游戏2

题目: 思路: 注意和跳跃游戏【55】不同的是,题目保证可以跳到nums[n-1];那么每次跳到最大即可 代码: public class LeetCode45 {public static int jump(int[] nums) {int jumps 0;int currentEnd 0;int farthest 0;for(int…

Android Serializable / Parcelable

Serializable 序列化,将对象转为二进制序列 Parcelable 不是序列化,属于进程间通信,不需要IO/操作,没有拷贝内存的操作, Object -> ShareMemory -> Object 不需要IO,使用内存共享等方式 Kotlin inline fun 内联函数 TCP协议将数据包拆分,进行发送,保证网络数据的可…

基于纹理特征的kmeas聚类的图像分割方案

Gabor滤波器简介 在图像处理中,以Dennis Gabor命名的Gabor滤波器是一种用于纹理分析的线性滤波器,本质上是指在分析点或分析区域周围的局部区域内,分析图像中是否存在特定方向的特定频率内容。Gabor滤波器的频率和方向表示被许多当代视觉科学…

二十一、数组(3)

本章概要 Arrays的setAll方法增量生成 Arrays的setAll方法 在Java 8中, 在RaggedArray.java 中引入并在 ArrayOfGenerics.java.Array.setAll() 中重用。它使用一个生成器并生成不同的值,可以选择基于数组的索引元素(通过访问当前索引&…

Android项目更新依赖和打包步骤和问题汇总

目录 1、Android 项目打包,32位包升级到64位包问题一:ERROR: Conflicting configuration : armeabi-v7a,x86-64,arm64-v8a,x86 in ndk abiFilters cannot be present when splits abi filters are set : x86,armeabi-v7a,arm64-v8a 2、Android项目依赖升…

pytest-base-url插件之配置可选的项目系统URL

前言 ①当我们的自动化代码完成之后,通常期望可以在不同的环境进行测试,此时可以将项目系统的URL单独拿出来,并且可以通过pytest.ini配置文件和支持pytest命令行方式执行。 ② pytest-base-url 是一个简单的pytest插件,它通过命…

【数据结构】HashMap 和 HashSet

目录 1.哈希表概念 2冲突 2.1概念 2.2 冲突-避免 2.3冲突-避免-哈希函数设计 2.4 冲突-避免-负载因子调节 ​编辑 2.5 冲突-解决-开散列/哈希桶 2.5冲突严重时的解决办法 3.实现 4.性能分析 5.与Java集合类的关系 1.哈希表概念 在顺序结构中,元素关键码和存…

【vue+eltable】修改表格滚动条样式

<style lang"scss" scoped> ::v-deep .el-table__body-wrapper::-webkit-scrollbar {width: 10px; /*纵向滚动条的宽度*/height: 10px; /*横向滚动条的高度*/ } /*定义滚动条轨道 内阴影圆角*/ ::v-deep .el-table__body-wrapper::-webkit-scrollbar-track {bo…

Java 多线程之 volatile(可见性/重排序)

文章目录 一、概述二、使用方法三、测试程序3.1 验证可见性的示例3.2 验证指令重排序的示例 一、概述 在Java中&#xff0c;volatile 关键字用于修饰变量&#xff0c;其作用是确保多个线程之间对该变量的可见性和禁止指令重排序优化。 当一个变量被声明为volatile时&#xff0…

高德地图点击搜索触发输入提示

减少调用次数&#xff0c;不用每输入一次调用一次&#xff0c;输入完后再触发搜索 效果图&#xff1a; ![Alt](https://img-home.csdnimg.cn/images/20220524100510.png dom结构 <div class"seach"><van-searchshow-actionv-model"addressVal"…

【使用vscode在线web搭建开发环境--code-server搭建】

官方版本下载 https://github.com/coder/code-server/releases?q4.0.0&expandedtrue使用大于版本3.8.0,因为旧版本有插件市场不能访问的情况版本太高需要更新环境依赖 拉取安装包 []# wget "https://github.com/coder/code-server/releases/download/v4.0.0/code-…

探访九牧绿色黑灯工厂,找寻“科技卫浴 世界九牧”的答案

文 | 螳螂观察 作者 | 余一 你所想象中的工厂是怎么样的&#xff1f;灯火通明、人声鼎沸、人来人往&#xff1f;如果告诉你一座工厂既没有灯&#xff0c;也没有人&#xff0c;但却还在持续生产&#xff0c;你会不会觉得这是不可思议的事&#xff1f; 如果不是亲眼见证&#…

Simulink 自动代码生成:手写代码替换生成代码Code Replacement Tool使用

目录 前言 代码替换库操作步骤 代码生成验证 总结 前言 在实际工程开发过程中&#xff0c;Simulink生成的代码都是构建的算法实现的&#xff0c;纯软件实现&#xff0c;生成的代码大多也是直接在CPU上运行的。实际还有一些MCU集成了像Cordic&#xff0c;协处理器等。有些代…

WinEdt 11.1编辑器的尝鲜体验

WinEdt 11.1编辑器的尝鲜体验 2023年5月19日&#xff0c;WinEdt 11.1版本发布了&#xff0c;相比WinEdt 10.3, 最新版更加漂亮&#xff0c;更加友好&#xff0c;更加好用了&#xff01; 最大的改变是WinEdt 11.1 有了自带的WinEdtPDF阅读器&#xff0c;所以不再需要下载第三方…

ros2工作空间

我们先不管ros2工作空间是什么样子的&#xff0c;如果是我自己来搞一个工作空间&#xff0c;我一定是这样安排 一个文件夹用来放自己存放的文件&#xff0c;。。。。。。。。。。对应src文件夹 一个文件夹用来放编译后的文件&#xff0c;。。。。。。。。。。。对应intall文件…