一文说清什么是数据仓库

01 数据仓库的概念

数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员开发出了“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。

目前对数据仓库(Data Warehouse)的标准定义,业界普遍比较认可的是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出:数据仓库是一个面向主题的、集成的、相对稳定的(非易失的)、反映历史变化的数据集合,通常用于支持企业管理决策。这个定义有些复杂并且难以理解。下面我们将它分解开来进行说明。

  • 面向主题

传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据。例如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于“去年谁是我们这款产品的最佳用户”这样的问题。这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。

  • 集成

集成的概念与面向主题是密切相关的。还用销售的例子,假设公司有多条产品线和多种产品销售渠道,而每个产品线都有自己独立的销售数据库。此时要想从公司层面整体分析销售数据,必须将多个分散的数据源统一成一致的、无歧义的数据格式后,再放置到数据仓库中。因此数据仓库必须能够解决诸如数据分散存储、产品命名冲突、计量单位不一致等问题。当完成了这些数据整合工作后,该数据仓库就可称为是集成的。

  • 随时间变化

为了发现业务变化的趋势、存在的问题,或者新的机会,需要分析大量的历史数据。这与联机事务处理(OLTP)系统形成鲜明的对比。联机事务处理反映的是当前时间点的数据情况,要求高性能、高并发和极短的响应时间,出于这样的需求考虑,联机事务处理系统中一般都将数据依照活跃程度分级,把历史数据迁移到归档数据库中。而数据仓库关注的是数据随时间变化的情况,并且能反映在过去某个时间点的数据是怎样的。换句话说,数据仓库中的数据是反映了某一历史时间点的数据快照,这也就是术语“随时间变化”的含义。当然,任何一个存储结构都不可能无限扩展,数据也不可能只入不出地永久驻留在数据仓库中,它在数据仓库中也有自己的生命周期。到了一定时候,数据会从数据仓库中移除。移除的方式可能是将细节数据汇总后删除、将老的数据转储到大容量介质后删除和直接物理删除等。

  • 非易失

非易失指的是,一旦进入到数据仓库中,数据就不应该再有改变。操作型环境中的数据一般都会频繁更新,而在数据仓库环境中一般并不进行数据更新。当改变的操作型数据进入数据仓库时会产生新的记录,这样就保留了数据变化的历史轨迹。也就是说,数据仓库中的数据基本是静态的。这是一个不难理解的逻辑概念。数据仓库的目的就是要根据曾经发生的事件进行分析,如果数据是可修改的,将使历史分析变得没有意义。

图片

对数据仓库的概念再来做一个总结,我们抓住两个重点:第一,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;第二,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

02 数据仓库技术发展历程

图片

03 为什么要建立数据仓库?

现在,大家应该已经熟悉并了解了数据仓库的概念,那么数据仓库里的数据从哪里来呢?通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样,可能是Oracle、MySQL、SQL Server等关系数据库里的结构化数据,可能是文本、CSV等平面文件或Word、Excel文档中的非结构化数据,还可能是HTML、XML等自描述的半结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源,提供给后面的即席查询、分析系统、数据集市、报表系统、数据挖掘系统等。

从以上描述可以看到,从存储的角度看,数据仓库里的数据实际上已经存在于业务应用系统中,那么为什么不能直接操作业务系统中的数据用于分析,而要使用数据仓库呢?其实这个问题我们可以反过来想一下,不建立数据仓库,数据分析时直接访问业务系统中的数据会存在哪些问题?自然就会有答案了。

我们来列举一些直接访问业务系统无法工作的业务场景:

  • 某些业务数据由于安全或其他因素不能直接访问。

  • 很难建立和维护需要汇总来源于多个业务系统数据的报表。

  • 业务系统的数据格式,如日期、数字的格式不统一。

  • 业务系统的表结构为事务处理性能而优化,有时并不适合查询与分析。

  • 没有适当的位置存储元数据。

  • 通常事务处理的优先级比分析系统高,所以如果分析系统和事务处理运行在同一硬件之上,分析系统往往性能很差。

  • 有误用业务数据的风险且极有可能影响业务系统的性能。

尽管需要增加软硬件的投入,但建立独立数据仓库与直接访问业务数据相比,无论是成本还是带来的好处,这样做都是值得的。随着处理器和存储成本的逐年降低,数据仓库方案的优势更加明显,在经济上也更具可行性。

04 数据仓库价值

图片

  • 提供全面准确的业务洞察:通过对多源数据的整合和分析,数据仓库能够帮助企业获得全面准确的业务洞察,发现隐藏在数据中的规律和趋势。

  • 支持决策制定:数据仓库能够为企业的决策制定提供有力支持,通过多维分析和可视化报表,让企业能够更直观地了解业务状况,制定更准确的战略。

  • 增强企业竞争力:通过数据仓库对市场的洞察力和预测力,企业能够更灵活地应对市场变化,提高竞争力。

  • 降低运营风险:通过对历史数据的分析,数据仓库能够揭示出业务发展过程中的问题和风险,帮助企业及时调整策略,降低运营风险。

05 数据仓库应用场景

针对不同需求的用户 , 数据仓库可以开发如下几种应用:即席查询系统(Ad hoc query)、联机分析处理系统(OLAP)、领导信息系统(Executive Information System)、业务流程重整(Business Process Reengineering)。

数据仓库被广泛应用于各大行业:

  • 电商行业:在电商行业中,数据仓库可用于对用户行为、购买偏好、流量分布等进行深入分析,为企业提供个性化推荐和营销策略。

  • 金融行业:在金融行业中,数据仓库可用于对客户画像、风险评估、欺诈检测、市场趋势等进行分析,帮助金融机构做出更准确的信贷和投资决策。

  • 医疗行业:在医疗行业中,数据仓库可用于对病患画像、疾病分布、治疗效果等进行分析,为医疗机构提供更精确的疾病诊断和治疗方案。

  • 电信行业:在电信行业中,数据仓库可用于客户流失预测、网络性能监测、个性化服务推荐,帮助企业优化客户服务。

  • 物流行业:在电信行业中,数据仓库可用于路线优化、仓储管理、供应链可视化,帮助企业提高物流效率,降低仓储成本。

  • 制造业:在制造业中,数据仓库可用于对产品生产流程、设备运行状况、质量控制等进行分析,提高生产效率和产品质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/52558.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【研赛论文】数学建模2024华为杯论文word/latex模板

国赛结束,研究生瞩目的研赛马上就要来了,相信研究生同学也是在努力的准备当中,在这里祝愿大家能够获得一个好的名次。一举冲出重围,拿下国奖。在数模比赛当中,论文是参赛者唯一能够与评阅老师进行沟通的方式&#xff0…

工厂安灯系统在优化生产流程上的优势

工厂安灯系统通过可视化的方式,帮助工厂管理者和操作工人及时了解生产状态,快速响应问题,从而优化生产流程。 一、安灯系统实时监控与反馈 安灯系统的核心功能是实时监控生产线的状态。通过在生产现场设置灯光、显示屏等设备,工人…

VUE + NODE 历史版本安装

以node 12.20.0为例子,想下载哪个版本,后面写哪个版本 https://registry.npmmirror.com/binary.html?pathnode/v12.20.0/ 安装国内镜像7.1.0 cnpm npm install -g cnpm7.1.0 -g --registryhttps://registry.npmmirror.com 安装vue脚手架4.5.15 cnpm …

【最新顶刊综述】【多模态学习】Vision + X:A Survey on Multimodal Learning in the Light of Data

VisionX:基于数据的多模态学习综述 论文链接 0.论文摘要和信息 摘要 摘要——我们以多感官的方式感知世界并与世界交流,不同的信息源由人脑的不同部分复杂地处理和解释,构成一个复杂但和谐统一的感知系统。为了赋予机器真正的智能&#x…

【信创】麒麟KOS上安装使用网络抓包工具Wireshark

原文链接:【信创】麒麟KOS上安装使用网络抓包工具Wireshark Hello,大家好啊!今天给大家带来一篇关于如何在麒麟桌面操作系统上安装和使用Wireshark的文章。Wireshark是一款强大的网络协议分析工具,广泛应用于网络故障排查、网络流…

OCR在线识别网站现已上线!

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 如有侵犯,请联系作者下架 由作者亲自开发的ocr识别网站哈哈,暂时汇聚了三十多种验证码模型以及算法,欢迎各路朋友去尝试,网站地址如下 http://gbj5w3.natappfree.cc/ocr 验证码类型包括但…

qt绘制时钟

代码 #include "widget.h" #include "ui_widget.h"#include <QWidget> #include <QPaintEvent> //绘图事件 #include <QDebug> //测试 #include <QPainter> //画家 #include <QPen> //笔 #include <QBrush> //画刷 …

JDK下载安装教程(国产化生产环境无联网服务器部署JDK实操)

-----------------------------生产环境实操&#xff0c;记录时间2024年09-11日----------------------------- 前言&#xff1a;一定要下载适合自己系统版本的JDK 1.32位系统就下载32位系统的JDK&#xff0c;64位系统就下载64位系统的JDK&#xff0c;否则会报错&#xff01;…

C语言小游戏--贪吃蛇实现

C语言小游戏--贪吃蛇实现 1.游戏实现背景2.Win32 API介绍2.1什么是Win32 API2.2控制台程序(Console)2.3控制台屏幕的坐标COORD2.4GetStdHandle2.4.1函数语法2.4.2函数的使用 2.5GetConsoleCursorInfo2.5.1函数语法2.5.2函数的使用 2.6CONSOLE_CURSOR_INFO2.6.1结构体结构2.6.2结…

【佳学基因检测】在织梦网站中, 创建或修改目录:/var/www/html/cp 失败! DedeTag Engine Create File False

【佳学基因检测】在织梦网站中, 创建或修改目录&#xff1a;/var/www/html/cp 失败&#xff01; DedeTag Engine Create File False 在使用 DedeCMS&#xff08;一个常用的内容管理系统&#xff09;时&#xff0c;如果遇到“创建或修改目录&#xff1a;/var/www/html/cp 失败&…

系统架构师考试学习笔记第四篇——架构设计实践知识(18)面向服务架构设计理论与实践

本章考点&#xff1a; 第18课时主要学习面向服务架构设计理论与实践。根据考试大纲&#xff0c;本课时知识点会涉及单选题型&#xff08;约占2~5分&#xff09;和案例题&#xff08;25分&#xff09;&#xff0c;本课时内容偏重于方法的掌握和应用&#xff0c;根据以往全国计算…

[数据集][目标检测]水面垃圾检测数据集VOC+YOLO格式2027张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;2027 标注数量(xml文件个数)&#xff1a;2027 标注数量(txt文件个数)&#xff1a;2027 标注…

【代码随想录训练营第42期 Day56打卡 - 图论Part6 - 并查集2 - 冗余连接问题

目录 一、做题心得 二、题目与题解 题目一&#xff1a;108. 冗余连接 题目链接 题解&#xff1a;并查集 题目二&#xff1a;109. 冗余连接II 题目链接 题解&#xff1a;并查集 三、小结 一、做题心得 冗杂连接问题是图论章节应用并查集的经典问题。所有的顶点通过边相…

互联网+教育中小学校园云解决方案

1. “互联网”教育的定义与目标 “互联网”教育是指利用信息技术&#xff0c;包括移动互联网、云计算、大数据和物联网等&#xff0c;推动教育变革和创新。其目标是构建一个网络化、数字化、个性化和终身化的教育体系&#xff0c;实现学习型社会的建设&#xff0c;培养创新人才…

【Linux:文件系统】

了解磁盘结构 盘片可读可写一面盘面有一个磁头&#xff0c;一个盘片俩磁头磁盘本质是一个机械设备磁盘中的盘片高速旋转是为了定为扇区磁盘中的磁头 左右摆动定义磁道磁盘的读写单位&#xff1a;4kb /512字节 如何找到一个指定的扇区 找到指定的磁头&#xff08;header)找到指定…

动手学深度学习(pytorch土堆)-03Transforms简单入门学习

1 torchvision中的transforms主要是对图片进行一些变换。 transforms结构及用法 将特定格式图片经过transforms里面的工具处理输出预期的图像 Totensor使用 tensor数据类型可以理解为包装了一些反向神经网络所需要的一些参数 PIL_Image读取 img_path"hymenoptera_da…

【软件测试】测试的分类

目录 &#x1f384;为什么要对软件测试进行分类&#xff1f; &#x1f333;按照测试目标分类 &#x1f6a9;界面测试 &#x1f6a9;功能测试 &#x1f6a9;性能测试 &#x1f6a9;可靠性测试 &#x1f6a9;安全性测试 &#x1f6a9;易用性测试 &#x1f3c0;标准性和规…

QT Creater实现国庆节主题项目【0基础完成版】

本文适用对象 想要学习qt creater的小白;想要学习c++制作软件的编程爱好者。可以先下载这篇博客绑定的资源,然后一边操作,一边学习,会更高效~0. 创建初始项目 一步步来操作吧,首先下载qt creter,之前发布过相关资源,大家直接查找下载,或者自行下载。 1. 初始代码 mai…

RLFD: Imitation Bootstrapped Reinforcement Learnin

CoRR 2023 paper 视觉或向量输入下的RLFD方法&#xff0c;利用模仿学习得到的策略&#xff0c;以自举方式引导在强化学习的策略优化以及价值函数优化。同时&#xff0c;为了更好的表征&#xff0c;IBRL选取VIT-based的网络以及添加Dropout 到policy。 Method 首先利用模仿学…

2024.9.11

在界面上显示当前时间&#xff0c;再设置一个闹钟&#xff0c;到了时间就吱吱响&#xff08;至少5遍&#xff09; #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget),speecher(new QTe…