数据湖与湖仓一体是如何演变而来的?详谈大数据存储架构的变迁

在大数据存储架构的发展历程中,可以划分为三个显著的演进阶段。首先,随着Hadoop和Hive等初期项目的出现,数据仓库(Data Warehouse)的概念得以确立;随着数据仓库的不断演化,同时有了云与对象存储的诞生;大数据与 AI 的时代到来之后,数据湖(Data Lake)这个概念就被凸显了出来。

近几年,出现了一个新的存储概念,或者是说到了一个新的阶段,叫做湖仓一体(Lakehouse)。传统数仓大家都比较了解,今天这篇文章,我们会着重看一下后面这两个阶段,也就是数据湖和湖仓一体。

bd7496a6015a42a223468ec5e02d68f5.jpeg大数据存储架构的变迁

一、为什么要有「数据湖」?

数据湖的出现主要是为了解决数据烟囱(Data Silos)的问题。数据烟囱的形成主要源于不同的业务或团队由于历史原因导致数据隔离,无法进行有效连接。随着企业内部业务的增加,数据格式日益多样化,除了传统的结构化数据,还涉及大量的半结构化和非结构化数据。这些数据也需要被纳入企业的数据管理和运维体系中。传统的数据仓库架构难以满足这种多样化的数据存储需求。

其次,分散的数据管理也是数据烟囱问题的一个关联因素。由于数据分布在不同的位置,数据管理和权限控制变得分散,对于不同业务和团队进行管理需要大量的工作量。

再者,存储与计算的耦合(存算耦合)是另一个问题。这主要与传统的Hadoop架构,如HDFS和YARN,的设计理念有关。然而,对于基于公有云的现代大数据架构来说,这种存算耦合的设计显得缺乏弹性,无论是在运维弹性还是成本控制方面。

最后,随着人工智能(AI)行业的迅速发展,特别是在机器学习和深度学习领域,数据湖需要为基于这些技术的业务提供更好的支持。除了数据存储外,还需要与深度学习框架进行对接,提供如POSIX等更适合算法工程师的接口,而不仅仅是传统的SQL或其他方式。

帆软数仓搭建解决方案>>>
https://s.fanruan.com/5iyug


二、什么是「数据湖」?

这里引用维基百科上的一句简介:

A data lake is a system or repository of data stored in its natural/raw format, usually objectblobs or files.

翻译一下:

数据湖是一个存储系统或数据仓库,其中的数据以其自然的或原始的格式存储,通常以对象、块或文件的形式存在。

38b81d972e82bea71d88dba7ce037007.jpeg

数据湖与传统数据仓库最大的区别在于数据存储的方式。数据湖更倾向于将数据以其原始格式存储,而不进行预处理或转换。要构建一个有效的数据湖,关键在于选择一种既经济实惠又能支持海量数据的底层存储解决方案。目前,云上的对象存储技术似乎是一个理想的选择,它不仅成本低廉和可靠,还能够处理大规模的数据存储需求。然而,对象存储也并非完美无缺,接下来将对其进行详细比较和分析。

简洁地说,数据湖的核心理念是「 Everything in one place」,即所有数据都首先存储在数据湖中。无论是进行数据仓库构建还是进行后续的ETL处理,都可以在后续阶段进行。这里的“后置ETL”指的是ETL过程仍然存在,但它被转变为一个后续处理步骤。由于采用了对象存储和存算分离的架构,数据湖的整体设计也更符合云原生的理念。

三、为什么要有「湖仓一体」?

在数据湖架构中,尽管数据仓库仍然存在,但由于其在数据处理流程中的后置位置,可能导致数据处理的滞后。特别是对于如 Hive 这类传统组件,要实现近实时或基于 Hive 的增量数据更新相对复杂,尤其是在缩短分区(partition)时间窗口的情况下。

此外,尽管数据湖已经存在,但与机器学习和深度学习的集成仍然面临挑战。在湖仓一体的阶段,需要解决如何更好地支持深度学习等先进技术的问题。

数据重复拷贝和重复ETL也是一个关键问题。由于ETL和数据仓库都被放置在数据处理流程的后端,可能导致数据从数据湖同步或复制到数据仓库,进而产生数据的重复拷贝或重复ETL,这可能会造成数据质量问题和不必要的资源浪费。

最后,基于对象存储这样的存储解决方案,需要提供更多的高级特性支持,例如ACID事务、多版本数据索引和零拷贝克隆等。这些特性对于确保数据一致性、提高数据查询效率和减少数据存储成本都是非常重要的。

四、什么是「湖仓一体」?

湖仓一体的设计理念包括几个关键因素。首先,它需要采用一个统一开放的底层文件格式,例如Parquet、ORC等,这些都是业界广泛认可的高效存储格式。这种统一的文件格式有助于确保数据的高效存储和查询。

其次,湖仓一体还需要一个开放的存储层,这包括如Delta Lake、Iceberg、Hudi等开源组件。这些组件提供了额外的数据管理功能,如事务支持、版本控制等,使数据湖更加健壮和可靠。

第三,湖仓一体需要与多种计算引擎进行集成。无论是Spark、Presto还是其他商业计算引擎,都应该能够无缝地与湖仓一体的存储层结合,为用户提供多样化的计算和查询选项。

最后,湖仓一体还需要与深度学习框架进行紧密集成。以Uber开源的Petastorm项目为例,Petastorm为TensorFlow、PyTorch等深度学习框架提供了Parquet格式的读写支持。这种集成能力使得深度学习任务可以直接从数据湖中读取数据,极大地提高了数据处理的效率和灵活性。

总体而言,湖仓一体的目标是构建一个集统一文件格式、开放存储层、多样化计算引擎和深度学习框架于一体的,用于数据处理和分析的大数据平台,以满足现代大数据应用的多样化需求。

3b9aeae315a894044c1ae50409007e93.jpeg

五、结语

在大数据领域的持续发展中,数据存储和处理架构也经历了从数据仓库到数据湖,再到湖仓一体的演进。湖仓一体旨在通过统一的开放文件格式、灵活的存储层、多样的计算引擎集成以及与深度学习框架的紧密结合,构建一个更加高效、灵活和功能丰富的数据处理和分析平台。对于上层的数据应用与分析工具FineBI而言,湖仓一体架构提供了一个更加完善和集成的数据管理解决方案,使FineBI能够更加高效地连接、查询和分析数据,为企业用户提供更加强大和灵活的数据分析能力。

湖仓一体的出现不仅弥补了数据湖架构中的不足,还为企业提供了一个更加完整和集成的数据管理解决方案。未来,随着大数据和机器学习技术的进一步发展,湖仓一体架构有望成为企业数据管理的主流模式,同时为FineBI这样的数据应用与分析工具提供了更广阔的应用场景和发展空间,为企业在数据驱动决策和创新应用方面提供强大的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity DOTS中的baking(四)blob assets

Unity DOTS中的baking(四)blob assets blob assets表示不可变的二进制数据,在运行时也不会发生更改。由于blob assets是只读的,这意味着可以安全地并行访问它们。此外,blob assets仅限于使用非托管类型,这意…

一-容量管理是什么?

容量管理的定义 随着企业对外服务的内容和用户不断增长,企业会不断增加对硬件和云基础设施的投入,用于满足业务发展的需要。但是很多业务和技术架构师很可能没有关心或思考过采购这些IT资源的必要性,或者应采购多少IT资源才算合理。当前很多…

C++引用学习day2

思维导图 定义一个矩形类(Rectangle),包含私有成员:长(length)、宽(width), 定义成员函数: 设置长度:void set_l(int l) 设置宽度:void set_w(int w) 获取长度&#…

STL和泛型编程

STL和泛型编程 一.STL六大部件"前开后闭"区间 二.容器(1)顺序容器1.array源码剖析 2.vector源码剖析vector的迭代器 3.list源码剖析迭代器的设计规则关于重载操作符关于重载->和*操作符 4.forward_list源码剖析 5.deque源码剖析底层数据结构操作实现deque的设计de…

设置定时闹钟,语音播报

widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QTime>//时间类 #include<QtTextToSpeech>//文本转语音类 QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget {Q_OBJECTpublic:W…

不再混淆!一文搞懂ECMAScript和JavaScript的真正差异

深入解析ECMAScript和JavaScript的区别 1. 引言2. ECMAScript和JavaScript的定义3. ECMAScript和JavaScript的关系4. ECMAScript的发展历史5. JavaScript的实现和应用6. ECMAScript和JavaScript的区别7. 总结8. 参考资料 1. 引言 大家好&#xff0c;这里是程序猿代码之路。本文…

【Vue】实现的底层原理

底层原理 在 Vue 中实现数据对象和UI模板之间绑定关系&#xff0c;从而实现数据变化自动更新UI的核心机制&#xff0c;主要依赖于响应式系统。Vue的响应式系统基于JavaScript的对象属性访问器&#xff08;getter和setter&#xff09;和依赖收集的概念来实现。下面是这一机制的…

【MATLAB源码-第13期】基于matlab的4ASK的误码率BER和误符号率SER理论和实际对比仿真。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 "4ASK" 是一种数字调制技术&#xff0c;代表4级振幅移移键控&#xff08;4-Level Amplitude Shift Keying&#xff09;调制。它是一种数字通信中常用的调制方式之一&#xff0c;用于将数字信号转换为模拟信号以便传…

分享全栈开发医疗小程序 -带源码课件(课件无解压密码),自行速度保存

课程介绍 分享全栈开发医疗小程序 -带源码课件&#xff08;课件无解压密码&#xff09;&#xff0c;自行速度保存&#xff01;看到好多坛友都在求SpringBoot2.X Vue UniAPP&#xff0c;全栈开发医疗小程序 - 带源码课件&#xff0c;我看了一下&#xff0c;要么链接过期&…

GPT2从放弃到入门(四)

引言 体验地址&#xff1a;https://huggingface.co/spaces/greyfoss/gpt2-chatbot 上篇文章我们通过Gradio作为前端轻松地连接到训练好的Chatbot&#xff0c;本文介绍如何分享你创建好的模型给你的朋友。 当你训练好的模型推送到Huggingface Hub上后&#xff0c;其实还可以进一…

Linux 挂载磁盘

第一种方式&#xff08;不分区&#xff09; 磁盘不分区&#xff0c;直接挂载到某个目录。 查看磁盘列表 fdisk -l [root]# fdisk -lDisk /dev/vdb: 214.7 GB, 214748364800 bytes, 419430400 sectors Units sectors of 1 * 512 512 bytes Sector size (logical/physical): …

Codeforces Round 934 (Div. 2) ---- D. Non-Palindromic Substring --- 题解

目录 D. Non-Palindromic Substring &#xff1a; 题目描述&#xff1a; 思路解析&#xff1a; 下面给出两种代码的代码实现&#xff1a; 代码一&#xff1a;线段树实现hash判断回文字符串 代码二&#xff1a;manacher判断回文字符串 D. Non-Palindromic Substring &#…

大数据Hadoop生态圈体系视频课程

课程介绍 熟悉大数据概念&#xff0c;明确大数据职位都有哪些&#xff1b;熟悉Hadoop生态系统都有哪些组件&#xff1b;学习Hadoop生态环境架构&#xff0c;了解分布式集群优势&#xff1b;动手操作Hbase的例子&#xff0c;成功部署伪分布式集群&#xff1b;动手Hadoop安装和配…

codeforces div4 Double Strings

#include<iostream> #include<algorithm> #include<cstring> #include<map> using namespace std; int T, n; string s[900005]; map<string, int>mm;//存放每一个字符串是否出现过 int main() {cin >> T;while (T--){mm.clear();//每次清…

服务端测试开发必备技能:Mock测试

什么是mock测试 Mock 测试就是在测试活动中&#xff0c;对于某些不容易构造或者不容易获取的数据/场景&#xff0c;用一个Mock对象来创建以便测试的测试方法。 Mock测试常见场景 无法控制第三方系统接口的返回&#xff0c;返回的数据不满足要求依赖的接口还未开发完成&#…

linux 离线安装 dotnet tool

1. 在官网下载对应的nuget包,比如: dotnet-dump NuGet Gallery | dotnet-dump 3.1.57502 注意文件名称: dotnet-dump.3.1.57502.nupkg 我犯了一个错误,下载比较慢,然后通过迅雷来下载,结果没有后缀名称. 2. 然后拷贝到linux上,比如: 拷贝到dp文件夹下, 在dp文件夹上级执行命…

2965: 寻宝猎人(贪心)

2965: 寻宝猎人 题目描述 寻宝猎人Tom发现了一处宝藏&#xff0c;宝藏为一个N * M 的矩阵组成&#xff0c;矩阵的每一个点都包含一个钱袋&#xff0c;钱袋中装有若干金币。现在Tom只想从这个矩阵中拿走一块 3 * 3 的矩阵&#xff0c;请问他能拿走的最大金币数量。 输入 第一行输…

mfc140.dll丢失的解决方法,快速修复win10系统dll问题

在Windows 10操作系统环境下&#xff0c;如果发现系统中关键的动态链接库文件mfc140.dll丢失&#xff0c;可能会引发一系列运行问题。mfc140.dll是Microsoft Foundation Class Library&#xff08;微软基础类库&#xff09;的重要组成部分&#xff0c;对于许多基于该库开发的应…

ACL访问控制协议

ACL 1. Access Control List 2. ACL是一种包过滤技术。 3. ACL基于IP包头的IP地址、四层TCP/UDP头部的端口号、[5层数据] 基于三层和四层过滤 4. ACL在路由器上配置&#xff0c;也可以在防火墙上配置&#xff08;一般称为策略&#xff09; 5. ACL主要分为2大类&…

代码随想录算法训练营第三十五天|860. 柠檬水找零,406. 根据身高重建队列,452. 用最少数量的箭引爆气球

860. 柠檬水找零 题目 在柠檬水摊上&#xff0c;每一杯柠檬水的售价为 5 美元。顾客排队购买你的产品&#xff0c;&#xff08;按账单 bills 支付的顺序&#xff09;一次购买一杯。 每位顾客只买一杯柠檬水&#xff0c;然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾…