1.DATABASE 数据库
- 数据库是一个结构化的数据集合,用于存储、管理和检索数据。数据库设计用于支持事务处理(
OLTP,Online Transaction Processing
)和日常操作。
-
数据库通常由数据库管理系统(DBMS)控制,其中关系数据库管理系统(RDBMS)是最流行的子集。
-
企业通常在需要快速访问数据时使用数据库。例如,航空公司可能依赖数据库来处理顾客的在线购票,而像亚马逊这样的电子商务公司可能使用数据库来跟踪库存水平并推荐顾客可能感兴趣的产品。
为了确保事务的完整性,数据库需要具备四个组成部分:
-
原子性(Atomicity):整个事务要么全部执行成功,要么全部不执行。
-
一致性(Consistency):事务执行前后,数据库必须保持一致性约束。
-
隔离性(Isolation):确保多个事务可以并发执行,而不会导致数据库状态不一致。
-
持久性(Durability):一旦事务执行完成,对数据库的更新和修改必须被永久保存,即使系统发生故障也不能丢失。
2. Data Warehouse 数据仓库
- 数据仓库是一个集中的数据存储平台,帮助企业从各种运营源收集和整合数据。
- 这些数据被用于生成报告,用于数据分析和业务智能工作。数据仓库在运营的关键方面起着支柱作用。
许多当今领先的企业,包括航空、酒店、医疗保健和零售行业,都在使用数据仓库来优化数据收集,减少浪费,并提高数据生成的效率。
- 大多数情况下,数据仓库存储结构化数据,通常来自数据库。
数据仓库的一些好处:
-
- 数据集成:
数据仓库使企业能够从各种外部来源收集数据,然后将这些数据整合到一个中心存储平台中。这样数据分析团队可以更轻松地分析所有数据,因为不存在数据孤岛。
- 数据集成:
-
- 数据历史:
数据仓库可以按照时间顺序存储数据,使分析人员能够查看数据如何随时间变化。例如,Microsoft团队可以确定谁创建了文件,谁修改了它,以及何时修改的。
- 数据历史:
-
- 更好的数据质量:
数据仓库使组织能够通过打破数据孤岛来提高数据质量。这使得组织能够充分发挥结构化数据的潜力,获得宝贵的洞察。
- 更好的数据质量:
-
- 更好的数据洞察:
有了更多的有价值数据,并减少了数据孤岛,分析团队可以更好地理解他们的数据基础设施,从而获得更深入的洞察。进而,他们可以找出增强业务智能和影响的最佳路径。
- 更好的数据洞察:
3.DATA Mart 数据集市
- 数据集市是数据仓库的一个子集,通常专注于单个部门、功能区域或业务单位的数据需求。
-
与整个企业数据存储在数据仓库中不同,数据集市通常是针对特定用户群体或特定用途进行优化和设计的。
-
数据集市可以独立于整体数据仓库进行构建和部署,或者作为数据仓库的一部分存在。
-
数据集市提供了更具体、更精细化的数据视图和分析能力,以满足特定业务需求。
以下是数据集市的三种类型:
-
- 独立数据集市(
Independent Data Mart
)
独立数据集市不依赖于现有的数据仓库,通常专注于特定的业务目标。数据可以来自内部或外部来源,可以根据需要进行数据分析和业务智能工作。
- 独立数据集市(
-
- 依赖数据集市(
Dependent Data Mart
)
依赖数据集市建立在现有数据仓库之上。数据存储在集中位置,并且在运行分析时仅访问相关的数据。
- 依赖数据集市(
-
- 混合数据集市(
Hybrid Data Mart
)
混合数据集市整合了来自外部运营来源的数据与现有数据仓库中的数据。其主要优点包括更高的速度、灵活性和处理大型存储结构的能力。
- 混合数据集市(
数据集市能够根据不同的业务需求和用户需求,提供定制化的数据视图和访问权限,以支持更有效的数据分析和业务决策。
4.DATA LAKE 数据湖
-
数据湖(
Data Lake
)是一个数据存储库,可以存储结构化数据、半结构化数据和非结构化数据,而无需预定义数据结构。 -
数据湖强调数据的存储和采集,而不是预定义的数据处理。
-
数据湖的运作方式类似其名字所暗示的:所有数据,无论其格式如何,都以原始形式存储。
可以想象每个企业数据的一小部分就像水滴一样。这些小水滴数据自由流动,从各种源头汇聚成河流,最终汇入数据湖,形成一个庞大的数据湖泊。
-
数据湖的主要优势之一是可以在不进行预处理的情况下存储数据。数据只是简单地流入数据湖,等待分析师和业务用户未来的请求,用于其他业务功能。
-
此外,这种自由流动的过程意味着可以收集、存储和检索比以往任何时候都多的数据。
-
由于数据湖本身是非结构化的,因此更容易访问和修改其中的数据。
-
无限数据源:由于其自由流动的特性,数据湖可以处理来自无限数量来源的数据。
-
原始和非结构化数据的存储:由于数据湖的灵活构造,它可以接收结构化和非结构化数据,与大多数传统数据仓库不同。
-
消除数据孤岛:数据湖消除了数据孤岛,帮助组织最大化利用所有数据的潜力,包括非结构化数据。
-
降低成本:数据湖通过消除过时的传统数据存储方法,可以为组织节省大量资金。