Database数据库 vs Data Warehouse数据仓库 vs Data Mart数据集市 vs Data Lake数据湖

1.DATABASE 数据库

  • 数据库是一个结构化的数据集合,用于存储、管理和检索数据。数据库设计用于支持事务处理(OLTP,Online Transaction Processing)和日常操作。

在这里插入图片描述

  • 数据库通常由数据库管理系统(DBMS)控制,其中关系数据库管理系统(RDBMS)是最流行的子集。

  • 企业通常在需要快速访问数据时使用数据库。例如,航空公司可能依赖数据库来处理顾客的在线购票,而像亚马逊这样的电子商务公司可能使用数据库来跟踪库存水平并推荐顾客可能感兴趣的产品。

为了确保事务的完整性,数据库需要具备四个组成部分:
在这里插入图片描述

  1. 原子性(Atomicity):整个事务要么全部执行成功,要么全部不执行。

  2. 一致性(Consistency):事务执行前后,数据库必须保持一致性约束。

  3. 隔离性(Isolation):确保多个事务可以并发执行,而不会导致数据库状态不一致。

  4. 持久性(Durability):一旦事务执行完成,对数据库的更新和修改必须被永久保存,即使系统发生故障也不能丢失。

在这里插入图片描述


2. Data Warehouse 数据仓库

  • 数据仓库是一个集中的数据存储平台,帮助企业从各种运营源收集和整合数据。
  • 这些数据被用于生成报告,用于数据分析和业务智能工作。数据仓库在运营的关键方面起着支柱作用。

在这里插入图片描述

许多当今领先的企业,包括航空、酒店、医疗保健和零售行业,都在使用数据仓库来优化数据收集,减少浪费,并提高数据生成的效率。
在这里插入图片描述

  • 大多数情况下,数据仓库存储结构化数据,通常来自数据库。

数据仓库的一些好处:
在这里插入图片描述

    1. 数据集成
      数据仓库使企业能够从各种外部来源收集数据,然后将这些数据整合到一个中心存储平台中。这样数据分析团队可以更轻松地分析所有数据,因为不存在数据孤岛。
    1. 数据历史
      数据仓库可以按照时间顺序存储数据,使分析人员能够查看数据如何随时间变化。例如,Microsoft团队可以确定谁创建了文件,谁修改了它,以及何时修改的。
    1. 更好的数据质量
      数据仓库使组织能够通过打破数据孤岛来提高数据质量。这使得组织能够充分发挥结构化数据的潜力,获得宝贵的洞察。
    1. 更好的数据洞察
      有了更多的有价值数据,并减少了数据孤岛,分析团队可以更好地理解他们的数据基础设施,从而获得更深入的洞察。进而,他们可以找出增强业务智能和影响的最佳路径。

3.DATA Mart 数据集市

  • 数据集市是数据仓库的一个子集,通常专注于单个部门、功能区域或业务单位的数据需求

在这里插入图片描述

  • 与整个企业数据存储在数据仓库中不同,数据集市通常是针对特定用户群体或特定用途进行优化和设计的

  • 数据集市可以独立于整体数据仓库进行构建和部署,或者作为数据仓库的一部分存在。

  • 数据集市提供了更具体、更精细化的数据视图和分析能力,以满足特定业务需求。

在这里插入图片描述


以下是数据集市的三种类型:
在这里插入图片描述

    1. 独立数据集市(Independent Data Mart
      独立数据集市不依赖于现有的数据仓库,通常专注于特定的业务目标。数据可以来自内部或外部来源,可以根据需要进行数据分析和业务智能工作。
    1. 依赖数据集市(Dependent Data Mart
      依赖数据集市建立在现有数据仓库之上。数据存储在集中位置,并且在运行分析时仅访问相关的数据。
    1. 混合数据集市(Hybrid Data Mart
      混合数据集市整合了来自外部运营来源的数据与现有数据仓库中的数据。其主要优点包括更高的速度、灵活性和处理大型存储结构的能力。

数据集市能够根据不同的业务需求和用户需求,提供定制化的数据视图和访问权限,以支持更有效的数据分析和业务决策。


4.DATA LAKE 数据湖

  • 数据湖(Data Lake)是一个数据存储库,可以存储结构化数据、半结构化数据和非结构化数据,而无需预定义数据结构。

  • 数据湖强调数据的存储和采集,而不是预定义的数据处理。

  • 数据湖的运作方式类似其名字所暗示的:所有数据,无论其格式如何,都以原始形式存储。
    在这里插入图片描述

可以想象每个企业数据的一小部分就像水滴一样。这些小水滴数据自由流动,从各种源头汇聚成河流,最终汇入数据湖,形成一个庞大的数据湖泊。
在这里插入图片描述

  • 数据湖的主要优势之一是可以在不进行预处理的情况下存储数据。数据只是简单地流入数据湖,等待分析师和业务用户未来的请求,用于其他业务功能。

  • 此外,这种自由流动的过程意味着可以收集、存储和检索比以往任何时候都多的数据。

  • 由于数据湖本身是非结构化的,因此更容易访问和修改其中的数据。

在这里插入图片描述

  1. 无限数据源:由于其自由流动的特性,数据湖可以处理来自无限数量来源的数据。

  2. 原始和非结构化数据的存储:由于数据湖的灵活构造,它可以接收结构化和非结构化数据,与大多数传统数据仓库不同。

  3. 消除数据孤岛:数据湖消除了数据孤岛,帮助组织最大化利用所有数据的潜力,包括非结构化数据。

  4. 降低成本:数据湖通过消除过时的传统数据存储方法,可以为组织节省大量资金。


创作不易~ 一键三连呀🤣

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45728.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

golang json反序列化科学计数法的坑

问题背景 func CheckSign(c *gin.Context, signKey string, singExpire int) (string, error) {r : c.Requestvar formParams map[string]interface{}if c.Request.Body ! nil {bodyBytes, _ : io.ReadAll(c.Request.Body)defer c.Request.Body.Close()if len(bodyBytes) >…

PostgreSQL(二十二)缓冲区管理器

目录 一、缓冲区概述 1、缓冲区结构 2、buffer_tag结构 3、Backend进程读取操作 4、写脏块 二、缓冲区管理器结构 1、第一层:Buffer Table layer(缓冲区表层) 2、第二层:Buffer Descriptor Layer(缓冲区描述层…

秋招Java后端开发冲刺——Mybatis使用总结

一、基本知识 1. 介绍 MyBatis 是 Apache 的一个开源项目,它封装了 JDBC,使开发者只需要关注 SQL 语句本身,而不需要再进行繁琐的 JDBC 编码。MyBatis 可以使用简单的 XML 或注解来配置和映射原生类型、接口和 Java POJO(Plain …

Elasticsearch 建议(Suggesters):实现自动补全和拼写检查

引言 在现代搜索引擎中,自动补全和拼写检查功能已成为提升用户体验的重要工具。Elasticsearch,作为一款强大的分布式搜索和分析引擎,提供了多种Suggesters API来帮助开发者实现这些功能。本文将详细介绍Elasticsearch中的四种主要Suggester—…

Bertopic环境安装与文本主题聚类

文章目录 1.环境配置(一)安装:anaconda1. 理解:为什么需要anaconda2. 下载anaconda3. 启动anaconda(二)安装:python环境(三)安装:依赖包hdbscan的安装问题解决方案1. 安装build-tools-for-visual-studio2. 安装hdbscan(四)安装transformers、BERTopic等重要依赖包2…

【Flask从入门到精通:第八课:ORM、Flask-SQLAlchemy】

ORM ORM 全拼Object-Relation Mapping,中文意为 对象-关系映射。主要实现模型对象到关系数据库数据的映射。 ORM提供了一种面向对象操作数据库的方式给开发者。不需要编写原生SQL语句也能操作数据库,实现了业务代码与底层数据的解耦。 优点&#xff1…

Linux rpm打包(rpmbuild、spec文件)(rpmlint)(Red Hat Package Manager)(rpm包制作、安装包制作)

文章目录 RPM 打包概述定义与重要性核心组件- rpm:基本命令行工具,用于安装、查询、验证和卸载RPM包。- rpmbuild:用于构建 RPM 软件包的工具。- spec 文件:定义了如何构建 RPM 包的脚本,包括包描述、版本、构建指令等…

硬件产品经理:电子产品加工成本

目录 1、板材费用 2、SMT、THT加工 3、组装费 4、测试费 电子产品的加工主体可以分为四个大的部分: 1、板材费用 首选就是PCB的板材费用,一般是按照平米计算的,普通双层板是400左右/平米。 量产会更便宜一些。 如果沉金或其他加工工艺,成本会增加不少。 2、SMT、THT加工…

Milvus 核心设计 (4) ---- metric及index原理详解与示例(2)

目录 背景 Binary Embedding 定义与特点 常见算法 应用场景 距离丈量的方式 Jaccard Hamming 代码实现 Index BIN_FLAT BIN_IVF_FLAT Sparse embeddings 定义 应用场景 优点 实现方式 距离丈量方式 IP Index SPARSE_INVERTED_INDEX 应用场景 优势 SPAR…

零信任的架构结合模块化沙箱,实现一机两用的解决方案

零信任沙箱是深信达提出的一种数据安全解决方案,它将零信任原则与SDC沙箱技术的优势相结合。零信任原则是一种安全概念,核心思想是“永不信任,总是验证”。它要求对每一个访问请求都进行严格的身份验证和授权,无论请求来源于内部还…

从RL的专业角度解惑 instruct GPT的目标函数

作为早期chatGPT背后的核心技术,instruct GPT一直被业界奉为里程碑式的著作。但是这篇论文关于RL的部分确写的非常模糊,几乎一笔带过。当我们去仔细审查它的目标函数的时候,心中不免有诸多困惑。特别是作者提到用PPO来做强化学习,…

【微信小程序知识点】手机号验证组件

手机验证组件,用于帮助开发者向用户发起手机号申请,必须经过用户同意后,才能获得由平台验证后的手机号,进而为用户提供相应的服务。 手机号验证组件分为两种:手机号快速验证组件以及手机号实时验证组件。 1.手机号快速…

【微信小程序知识点】自定义构建npm

在实际开发中,随着项目的功能越来越多,项目越来越复杂,文件目录也变得很繁琐,为了方便进行项目的开发,开发人员通常会对目录结构进行优化调整,例如:将小程序源码放到miniprogram目录下。 &…

【C++】使用gtest做单元测试框架写单元测试

本文主要介绍在将gtest框架引入到项目里过程中遇到的问题。 我的需求如下: 用CMake构建项目。我要写一些测试程序验证某些功能,但是不想每一个测试都新建一个main函数。 因为新建一个main函数就要在CMakeList.txt里增加一个project,非常不方便。 于是我搜了下,C++里有没…

Portainer工具

Portainer是一款免费、开源的Docker的图形化管理工具,其能够提供状态显示面板、应用模板快速部署、容器镜像网络数据卷的基本操作(包括上传下载镜像,创建容器等操作)、事件日志显示、容器控制台操作、Swarm集群和服务等集中管理和…

深入理解JS中的闭包

闭包是JavaScript中一个非常强大的特性,它允许函数访问并操作函数外部的变量。在深入理解闭包之前,我们需要先了解JavaScript的作用域和作用域链的概念。 1、作用域和作用域链 在JavaScript中,作用域决定了代码块中变量和其他资源的可见性。…

Flink实时开发添加水印的案例分析

在Flink中,处理时间序列数据时,通常需要考虑事件时间和水印(watermarks)的处理。以下是修改前后的代码对比分析: 修改前的代码: val systemDS unitDS.map(dp > {dp.setDeviceCode(DeviceCodeEnum.fro…

Macos 远程登录 Ubuntu22.04 桌面

这里使用的桌面程序为 xfce, 而 gnome 桌面则测试失败。 1,安装 在ubuntu上,安装 vnc server与桌面程序xfce sudo apt install xfce4 xfce4-goodies tightvncserver 2,第一次启动和配置 $ tightvncserver :1 设置密码。 然后修改配置&#xff1a…

JVM 之对象的结构与创建

1.对象的创建 1.1类加载 当Java 虚拟机遇到一条字节码 new 指令时,首先将去检查这个指令的参数是否能在常量池中定位到 一个类的符号引用,并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,那 必须先执行相应的类加载过…

Python MySQL 教程

Python MySQL 教程 引言 Python 是一种广泛使用的高级编程语言,以其简洁明了的语法和强大的功能而闻名。MySQL 是一种流行的开源关系数据库管理系统 (RDBMS),广泛用于各种应用程序,包括数据密集型 Web 应用程序。Python MySQL 教程将指导您如何使用 Python 语言与 MySQL 数…