数据仓库 基础教程

数据仓库 基础教程

1. 数据仓库概述

Data Warehousing Tutorial

数据仓库(Data Warehouse,简称DW或者DWH)是通过集成来自多个异构数据源的数据来构建的。它支持分析报告、结构化和/或特别查询和决策制定。本教程采用循序渐进的方法来解释数据仓库的所有必要概念。


“数据仓库”一词最早是由Bill Inmon在1990年提出的。根据Inmon的说法,数据仓库是面向主题的、集成的、时变的、非易失性的数据集合。这些数据有助于分析人员在组织中做出明智的决策。

由于事务的发生,操作数据库每天都要经历频繁的变化。假设业务主管想要分析任何数据(如产品、供应商或任何消费者数据)的先前反馈,那么该主管将没有可用的数据来分析,因为先前的数据已经由于事务的变化而更新。

数据仓库在多维视图中为我们提供一般化和整合的数据。除了一般化和统一的数据视图外,数据仓库还为我们提供了在线分析处理(OLAP)工具。这些工具帮助我们在多维空间中进行交互式和有效的数据分析。这种分析的结果是数据泛化和数据挖掘。

将关联、聚类、分类、预测等数据挖掘功能与OLAP操作集成在一起,增强了多层次抽象知识的交互式挖掘。这就是为什么数据仓库现在已经成为数据分析和在线分析处理的重要平台。


理解数据仓库

  • 数据仓库是一个数据库,它与组织的操作数据库分开。
  • 数据仓库中不需要进行频繁的更新。
  • 它拥有统一的历史数据,这有助于组织分析其业务。
  • 数据仓库帮助管理人员组织、理解和使用他们的数据来制定战略决策。
  • 数据仓库系统有助于集成各种不同的应用系统。
  • 数据仓库系统有助于合并历史数据分析。

为什么要将数据仓库与操作数据库分开?

数据仓库与操作数据库需要分开的原因如下:

  • 操作数据库是为众所周知的任务和工作负载构建的,例如搜索特定记录、索引等。相较而言,数据仓库查询通常很复杂,它们呈现的是一种通用的数据形式。
  • 操作型数据库支持并发处理多个事务。操作数据库需要并发控制和恢复机制,以确保数据库的健壮性和一致性。
  • 操作数据库查询允许读取和修改操作,而OLAP查询只需要对存储的数据进行只读访问。
  • 操作数据库维护当前数据,而数据仓库维护历史数据。

数据仓库的特点

数据仓库的主要特性如下所述:

面向主题—数据仓库是面向主题的,因为它提供围绕主题的信息,而不是组织正在进行的操作。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库并不关注正在进行的操作,而是关注用于决策制定的数据建模和分析。

集成式:通过集成关系数据库、平面文件等异构数据源的数据来构建数据仓库。这种集成增强了对数据的有效分析。

时变性−数据仓库中收集的数据以特定的时间段标识。数据仓库中的数据从历史角度提供信息。

非易失性−非易失性是指添加新数据时不擦除原有数据。数据仓库与操作数据库保持分离,因此操作数据库的频繁更改不会影响数据仓库。

数据仓库不需要事务处理、恢复和并发控制,因为它是物理存储的,与操作数据库是分开的。


数据仓库的应用

如前所述,数据仓库帮助业务主管去组织、分析和使用他们的数据进行决策。数据仓库是企业管理 计划-执行-评估“闭环”反馈系统的唯一组成部分。数据仓库广泛应用于以下领域:−

金融服务

银行服务

消费品服务

零售部门

控制生产


数据仓库的类型

信息处理、分析处理和数据挖掘是下面讨论的三种类型的数据仓库应用

信息处理−数据仓库可以对存储在其中的数据进行处理。数据可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理。

分析处理−数据仓库支持对存储在其中的信息进行分析处理。可以通过基本的OLAP操作来分析数据,包括切片分析、向下钻取(drill down)、向上钻取(drill up,)和旋转(pivoting)。

数据挖掘−数据挖掘通过发现隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以通过可视化工具呈现出来。

OLAP VS OLTP

Sr.No.Data Warehouse (OLAP)Operational Database(OLTP)
1它涉及信息的历史处理。它涉及到日常的处理。
2OLAP系统由知识工作者(如执行人员、经理和分析师)使用。OLTP系统由文员、dba或数据库专业人员使用。
3它被用来分析业务。它是用来经营业务的
4它关注的是信息输出。它关注的是数据输入。
5它基于星型模式、雪花模式和事实星座模式。它基于实体关系模型。
6它关注的是信息输出。它是面向应用的。
7它包含历史数据。它包含当前数据。
8它提供了汇总和合并的数据。它提供了原始的和非常详细的数据。
9它提供了数据的汇总和多维视图。它提供了详细而扁平的数据关系视图。
10用户数量数以百计。用户数量以千为单位。
11访问的记录数以百万计。访问的记录数以10计。
12数据库大小从100GB到100tb。数据库大小为100mb ~ 100gb。
13这些都是高度灵活的。它提供了高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/31664.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JDBC之API(DriverManager)详解

之前在 JDBC 的快速入门写代码的时候,遇到了很多的API。这篇博客主要学习一些API。 目录 一、API(介绍) 二、JDBC之API——DriverManager (1)DriverManager (获取 Connection 的连接对象) 1、…

路由器的Wi-Fi性能是否限制了你的网速?这里有你想要的答案

​你的无线网络速度阻碍了你吗?信不信由你,升级到超快的互联网计划可能不值得。以下是如何判断路由器的Wi-Fi速度是否阻碍了你,以及你能做些什么。 如何测试你的Wi-Fi速度 比较你的有线速度和无线速度可以表明你的路由器是否阻碍了你。虽然很多人认为“Wi-Fi”和“互联网”…

rknn转换后精度差异很大,失真算子自纠

下面是添加了详细注释的优化代码: import cv2 import numpy as np import onnx import onnxruntime as rt from onnx import helper, shape_inferencedef get_all_node_names(model):"""获取模型中所有节点的名称。参数:model (onnx.ModelProto): O…

现代易货交易:重塑物品交换的新纪元

在数字时代的浪潮中,交易模式正在经历一场革命。其中,现代易货交易模式以其独特的魅力,逐渐在市场中崭露头角。这种交易模式不仅是对古老“以物换物”的复兴,更是对物品价值和交换方式的全新定义。 现代易货:物品交换的…

openppp2 命令行接口详解

openppp2 是一个工作在 OSI/3 Layer 网络通信层的虚拟以太网工具链的开源软件,在查阅本文之前,人们可以查阅以下资料。 开源仓库: liulilittle/openppp2: PPP PRIVATE NETWORK™ 2 VPN Next Generation Reliable and Secure Virtual Etherne…

LeetCode 19.删除链表的倒数第N个结点

链接 https://leetcode.cn/problems/remove-nth-node-from-end-of-list/description/ 题目: 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例1: 输入:head [1,2,3,4,5], n 2 输出:[1,2,3,5…

电动汽车厂商Rivian将全新设计元素融入由虚幻引擎驱动的车机界面

Rivian Automotive(简称:“Rivian”),是美国一家电动汽车厂商,该品牌创办于2009年,总部位于加州埃尔文,专注于生产电动皮卡车Rivian R1T和电动SUV Rivian R1S。 Rivian的车主们正追寻这样一条道…

Qt坐标系统

目录 概述 渲染 逻辑表示 锯齿绘制 坐标转换 模拟时钟示例 Window-Viewport转换 概述 坐标系统由QPainter类控制。与QPaintDevice和QPaintEngine类一起,QPainter构成了Qt绘画系统的基础。QPainter用于执行绘制操作,QPaintDevice是一个二维空间的抽…

番外篇 | YOLOv8算法解析和实战应用:车辆检测 + 车辆追踪 + 行驶速度计算

前言:Hello大家好,我是小哥谈。YOLOv8是ultralytics公司在2023年1月10号开源的,是YOLOv5的下一个重大更新版本,目前支持图像分类、物体检测和实例分割任务,在还没有开源时就收到了用户的广泛关注。它是一个SOTA模型,建立在以前YOLO版本的成功基础上,并引入了新的功能和改…

开发中遇到的错误 - @SpringBootTest 注解爆红

我在使用 SpringBootTest 注解的时候爆红了&#xff0c;ait 回车也导不了包&#xff0c;后面发现是因为没有加依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId>…

【shell脚本速成】函数

文章目录 一、函数1.1、函数介绍1.2、函数定义1.3、函数调用 &#x1f308;你好呀&#xff01;我是 山顶风景独好 &#x1f388;欢迎踏入我的博客世界&#xff0c;能与您在此邂逅&#xff0c;真是缘分使然&#xff01;&#x1f60a; &#x1f338;愿您在此停留的每一刻&#xf…

网络虚拟化考题

vrrp讲过吗&#xff1f;&#xff1f;&#xff1f; d 每一层都是什么设备啊 abcd 为啥流量不可控不可视 c是啥意思 讲过吗 abc aNET网络虚拟化是啥啊 为啥&#xff1f;&#xff1f; 啥是CDN&#xff1f;&#xff1f;&#xff1f;&#xff1f;&#xff1f;

Java数据类型与运算符

1. 变量和类型 变量指的是程序运行时可变的量&#xff0c;相当于开辟一块空间来保存一些数据。 类型则是对变量的种类进行了划分&#xff0c;不同类型的变量具有不同的特性。 1.1 整型变量&#xff08;重点&#xff09; 基本语法格式&#xff1a; int 变量名 初始值;代码示…

舔狗日记Puls微信小程序源码

源码介绍&#xff1a; 这是一款舔狗日记Puls微信小程序源码&#xff0c;提供每日一舔的功能&#xff0c;让你舔到最后&#xff0c;什么都有&#xff01; 源码通过API获取一些舔狗日记&#xff0c;内置了100多句舔狗日记&#xff0c;让你摆脱上班摸鱼的无聊时光&#xff0c; …

TIM: A Time Interval Machine for Audio-Visual Action Recognition

标题&#xff1a;TIM&#xff1a;一种用于视听动作识别的时间间隔机器 源文链接&#xff1a;openaccess.thecvf.com/content/CVPR2024/papers/Chalk_TIM_A_Time_Interval_Machine_for_Audio-Visual_Action_Recognition_CVPR_2024_paper.pdfhttps://openaccess.thecvf.com/cont…

社区项目-项目介绍环境搭建

文章目录 1.技术选型2.原型设计1.安装AxureRP2.进行汉化3.载入元件库4.基本设计 3.元数建模1.安装元数建模软件2.新建项目3.新增一个刷题模块主题域4.新增数据表 subject_category5.新增关系图&#xff0c;将表拖过来6.新增题目标签表7.新增题目信息表8.新增单选表、多选表、判…

​Claude 3.5 最新体验:助力硕博生与科研人员高效完成论文,超越ChatGPT4o !

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 要不说AI领域的进展真的是日新月异&#xff0c;发展速度已经大大超过预期进度。娜姐本来在准备AI降重工具的测评文章&#xff08;最近好多小伙伴需要&#xff09;。 昨天晚上…

ECharts 词云图案例二:创意蒙版应用

ECharts 词云图案例二&#xff1a;创意蒙版应用 引言 在数据可视化领域&#xff0c;ECharts 以其强大的功能性和灵活性&#xff0c;成为开发者和设计师的首选工具之一。继上一篇关于 ECharts 词云图的详细介绍后&#xff0c;本文将探索词云图的进阶应用——使用蒙版来创造更具…

【C#上位机应用开发实战】—— UI界面设计与实践代码

在C#上位机应用开发中&#xff0c;UI界面设计是至关重要的一环。一个好的UI设计不仅可以提升应用的用户体验&#xff0c;还可以提高应用的易用性和效率。本文将介绍一些UI界面设计的实战经验和技巧。 在这个示例中&#xff0c;我们创建了一个名为MainForm的窗体类。该窗体包含了…

AI在线免费视频工具2:视频配声音;图片说话hedra

1、视频配声音 https://deepmind.google/discover/blog/generating-audio-for-video/ https://www.videotosoundeffects.com/ &#xff08;免费在线使用&#xff09; 2、图片说话在线图片生成播报hedra hedra 上传音频与图片即可合成 https://www.hedra.com/ https://www.…