数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式

简介: 数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。

作者 张良模 阿里云智能资深产品专家

image.png

谈到数据仓库,我们往往容易忽略“数据”两个字,阿里云有着很多业务场景和业务体系,在这些数据应用之下我们如何管理数据的呢?数据仓库是如何帮到我们以及它自身是如何演进的?

 

数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。

image.png

第一 启动成本高、建设周期长,价值难以快速验证

对于数仓的建设人员,面临的挑战是业务人员希望数仓建设周期能更短。而传统数据仓库往往要面临从采购服务器,建立物理仓库到逻辑仓库等一个较长的周期,所以数据仓库面临的第一个挑战就是怎样去降低建设周期。

 

第二 如何处理多样数据,拥抱新技术,充分挖掘数据价值

随着大数据的到来,传统数据仓库管理的大多是结构化数据。如何对半结构化的数据进行统一全面的管理就成为传统数据仓库面临的第二个挑战。

 

第三 难以共享企业数据资产、数据创新成本高

数据仓库更加强调管理和安全,在强调安全的情况下如何在组织里以及整个生态上下游中更好的共享和交换数据,成为了新的挑战。例如在企业的部门间或业务间依然存在为数不少的数据孤岛,数据共享成本高,缺乏企业级别的统一的数据获取出口,由此导致数据消费方获取数据困难,难于自助分析,严重依赖IT部门支持来满足企业更广泛的数据需求。

 

第四 平台架构复杂、运营成本高

随着数据处理种类的多样化和数据量的不断变大,不同的技术被叠加在一起从而使得数据仓库架构变得越发复杂。同一企业里往往会同时存在各种技术类型的数据仓库。所以如何简化数据仓库的架构也是面临的一个重要挑战。一般需要投入专业团队负责管理复杂的数据平台,同时对资源利用率不高的情况进行管理和治理。

 

第五 满足业务需要的扩展性、弹性、灵活性

业务快速发展的企业,经常会有大促活动,补数据,处理非常规事件的需求,如何快速扩展数仓性能,提高业务峰谷的响应时效,也带来很多挑战。

 

对于传统数据仓库面临的这些挑战,在技术和业务的驱动下新型数据仓库如何应对呢?这里可以看到六个主要的驱动力。

image.png

 

   第一 我们希望有一个统一的数据平台,能去连接,去存储和处理多种数据。

   第二 实时化,企业基于数据驱动能实时对业务作出支撑和决策的信息,这里有更高时效性的要求。

   第三 数据量变得非常庞大,在海量数据中如何找到想要的数据,就需要有一张地图,要对数据进行管理和治理。

   第四 传统数据仓库中,数据的存储采用集中的方式,一定要把数据集中在同一个存储中。而在新的业务驱动下,需要去连接数据而不是统一存储在一起。

  第五 数据仓库之上如何支持更多智能化的应用,信息化的业务以及业务的信息化等关系。这就是数仓智能化和智能化数仓的需求驱动力。

  第六  数据领域的不同角色对数据平台有着不同需求。例如数据工程师,数据分析人员,数据科学家等,他们对数据平台的响应时间,处理速度,数据量,开发语言等有着不同的需求。所以更多的做好分析服务,成为数据管理平台第六个驱动力。

 

据仓库在不断地演进过程中,从30年前的概念来看已经注入了更多新的内涵。对于新的内涵,我们可以从数据仓库的基础架构,数据架构,数据分析以及服务模型四个角度来明显看到云原生,湖仓一体,离线实时一体化、服务模型的SAAS化的演进趋势。

 

云原生 — 数仓基础架构的演进方向

 

云原生是数仓基础架构的一个基本的演进方向。传统数据仓库是基于物理服务器或云上托管服务器的模式。而云原生的情况下可以更多去应用云的基础服务,包括存储服务,网络服务以及更多的监控服务。这就意味着在云上用原生服务可以获得云的自服务、弹性等能力,云数仓就可以更好的去集成更多的云上服务,包括如何把日志数据从各种数据源抽取到数据仓库中,也包括如何进行全链路的数据管理和机器学习等。所以云原生往往包含了如何构建和如何与云上服务原生的集成。

image.png

 

如图,云原生的情况下在底层充分利用了云的弹性计算,存储以及安全能力。在此之上可以看到我们把所有云的复杂性都屏蔽掉,作为数据平台的用户,只需开通服务,通过web方式创建项目空间,五分钟开通一个数据仓库进行数据仓库后面模型的开发。大大简化了服务交付的周期以及数据仓库整个底层架构,技术架构构建过程。另一方面是云原生数仓的扩展性,不管你提交了一个只需要1CU的作业还是提交一个可能需要10000CU的作业,平台都会按你的需要调度资源来进行数据处理。所以云原生又给我们带来近乎无限的扩展性。

 

湖仓一体 — 数仓数据架构的演进方向

 

讲到湖仓一体,先来看湖仓一体背后的原因。不得不说到今天为止数据仓库仍然是企业管理数据最优的解决方案。各个企业大都有自己的数据仓库,只不过可能是基于不同的技术形态构建的数据仓库。在处理策略,对语义的支持上,对场景的优化上以及工程经验上,数据仓库是目前沉淀下来的一个最优的方案。在此之上,企业数据量越来越大,需要更灵活更敏捷的数据探索能力。同时,对未知数据存在先存储下来再进一步探索的诉求。由此,企业在架构上需要融合数据分析的最优化和可探索两个方面的优势,从处理策略到语义支持,以及使用案例上,数据仓库和数据湖分别带给企业不同的优势。数据仓库在易管理,数据质量高,而数据湖在可探索,灵活性强方面为我们带来优势。我们要思考和讨论如何将两种方式结合起来共用,这就是提出“湖仓一体”的背景。

image.png

在MaxCompute以数据仓库为主的场景下,将数据仓库对数据管理的最优工程经验,管理经验和数据湖对数据管理的灵活性,数据处理的灵活性更好的结合在一起, 2019年我们在全球率先提出了“湖仓一体”的全新数据管理架构。基于MaxCompute数据仓库来提供安全可靠的,结构化的数据管理方式,以及在此之上由DataWorks提供数据血缘,数据地图和数据治理等能力。这些能力如何延伸到数据湖中?今天我们可见的数据湖包括基于云上的对象存储OSS,也包含企业中基于Hadoop HDFS的数据湖,对于这两类数据湖如何基于已有的灵活性能够获得更容易探索能力,能提升它们得数据处理性能,管理能力和安全性?

 

我们所做的就是把数据仓库和数据湖两者打通,通过数据湖构建DLF,发现数据湖的元数据,进行结构化的统一管理,融合湖的灵活和便捷优势。这就是以仓为中心的湖仓一体新型数据管理的架构,数据仓库在企业数据的管理方式上往前又推进了一步。

image.png

 

离线实时一体 — 数仓数据分析的演进方向

 

在企业的数据仓库中,通过SLS、Kafka等订阅的方式进行数据采集,通常有三种路径。第一种可能是将一部分数据归档在数据仓库中,然后进行全量的分析。第二种是进行实时的查询分析,比如风控场景下查一个电话号码过去三年的通话记录,要马上查出来,就需要进行实时的连接分析。第三种是进行一些关联的多维度查询,对这些实时数据等进行关联的基础上,后面再来进行批量的处理,实时处理以及点查。实时数据的获取,计算以及应用这三方面,构成了整个数仓由离线向实时发展的三个核心含义。这里最核心的就是计算。计算的本质无外乎两个,一个是主动计算,另一个是被动计算。离线计算往往是被动计算,需要数仓工程师通过定义任务来调度作业,才能计算出新的结果。在实时离线一体化中,除了被动计算,还要有主动计算能力。当数据流入后,不做人工干预,任何作业的插入和重启都能自动算出新的结果或中间结果。参与实时计算就最大程度的增加了主动计算的过程,而主动的结果带给我们的好处就是无需重新调度任何作业就能拿到想要的结果数据。

image.png

 

在离线和实时一体的情况下虽然可以解决业务上的一些问题,但架构会非常复杂。所以阿里云提出离线实时一体化的数仓架构。简化是说我们只需要核心的几个产品,就可以实现离线和实时一体化的架构。数据源包括了交易数据以及各个服务器生成的人的行为数据和物的行为数据,通过日志服务,定期归档到Hologres,之后,实时数仓加上流计算来进行实时计算,然后在下面是全量的数仓,整个完成了主动计算、被动计算和数据的实时获取。结果数据可以不用做任何搬迁,直接通过Hologres来做实时分析。将实时的数据获取,实时的数据计算和实时的数据分析服务三者打通为一体,架构上做了最大程度的简化,这就是今天所说的离线实时一体化的云数据仓库。

 

SaaS模式 — 数仓服务模式的演进方向

 

基于数仓基础架构、数据管理架构、数据分析架构的演进,这些产品的服务是如何被交付的呢?那就是通过SaaS化的方式向客户来交付数据仓库,可以最简化的去使用数据仓库的服务。

image.png

 

数据仓库的构成有几种方式,第一种是说基于物理服务器自建数据仓库,这是大家最为熟悉的方式。第二种是在云上基于Hadoop,也可以基于各种MPP的数据库去构建和搭建半托管的云上数据仓库。第三种和第四种就属于比较深的云原生的形式,第三种是典型Snowflake的方式,这种方式下云基础服务其实并不会暴露给数据仓库的管理者,所以我们把它叫做嵌入式的,将IaaS这一层嵌入到PaaS层中,但最终数据仓库是通过SaaS的完全web的方式暴露出来的。2021年全球Forrester评测中有13家厂商参与了评估,其中以SaaS模式交付数据仓库服务的只有三家,分别是谷歌的BigQuery,Snowflake和阿里云MaxCompute。

image.png

可以看到通过云计算的数据仓库服务,从自建到云原生,帮我们最大化的降低了数据仓库的管理复杂度,整个架构少了很多层,无需管理集群和软件,通过服务化的方式达到免运维,将底层的所有这些需管理的内容去掉,后台升级是由云厂商来提供服务的,只需要管理自己的数据和数据模型,通过web方式来使用数据仓库服务。在数据仓库里存储的数据与云存储一样,按存储量付费。计算也是一样的,不计算不花钱。充分体现了SaaS化的优势。同时,在匹配业务需求上具备非常强的弹性能力,我们有很多客户日常只需要一万核的算力,在双十一当天需要三万核的算力。在这种SaaS模式的服务下,用户在完全无感知的情况下我们就可以保证充沛的弹性能力去满足数据仓库的各种工作需求了。

image.png

综上,数据仓库从1990年的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库的一路演进,基础架构的云原生,数据架构的湖仓一体,数据分析的离线实时一体化以及数仓服务模式的SaaS化,是最为主要的四个演进的方向和特征。 阿里云正在通过全新数据仓库架构给企业带来具备更优体验的数据管理的方式。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为路由器命令手册_华为路由器+蒲公英路由器,如何做双层路由器映射?

今天上午,有一个客户反馈,他们的软件和linux系统无法实现外网访问了。客户的网络拓扑是这样的,光猫接蒲公英路由器X5,蒲公英路由器的LAN 口IP是192.168.0.1,然后从蒲公英路由器的LAN口连接一根网线到华为路由器WAN口&a…

行业务实派:解锁数据价值,翼方健数全栈隐私安全计算技术

数智化时代,数据已成为最核心、最具价值的生产要素。其中,如何应用可落地的技术,共享和保护数据,促进数据要素进一步流通,释放数据价值,受到业内普遍关注。 隐私计算,被业内誉为打破“数据隐私…

ctrl c 失效了_[安卓+PC双端]超C女仆无馬中字

这周基本啥也没发,传个小游戏吧就~点赞(150) 投币(随缘)推荐用用吉里吉里模拟器玩~应该是女仆类的游戏,我没玩过也不清楚哦链接失效我就不补了,如果点赞在今天内达标,那就今晚20:00补发,不要错…

浅谈分布式一致性:Raft 与 SOFAJRaft

简介: SOFAJRaft已开源 作者 | 家纯 来源 | 阿里技术公众号 一 分布式共识算法 (Consensus Algorithm) 1 如何理解分布式共识? 多个参与者针对某一件事达成完全一致:一件事,一个结论。 已达成一致的结论,不可推翻。 2 有哪些…

OpenKruise v0.9.0 版本发布:新增 Pod 重启、删除防护等重磅功能

简介: OpenKruise 是阿里云开源的云原生应用自动化管理套件,也是当前托管在 Cloud Native Computing Foundation (CNCF) 下的 Sandbox 项目。它来自阿里巴巴多年来容器化、云原生的技术沉淀,是阿里内部生产环境大规模应用的基于 Kubernetes 之…

00后确实卷,公司新来的卷王,我们这帮老油条真干不过.....

都说00后躺平了,但是有一说一,该卷的还是卷。这不,前段时间我们公司来了个00后,工作没两年,跳槽到我们公司起薪18K,都快接近我了。后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了。最…

rsa 返回值 验签 失败_解析蛋糕、面包制作失败的原因

其实这些问题的答案大多都隐藏在搅拌盘、烤炉和烤盘中掌握好这些基础知识就能告别这些常见的失误01﹏﹏﹏好的蛋糕始于搅拌盘做蛋糕的过程实质上是化学变化的过程,一系列的配料遵照严格的顺序倒入搅拌盘里混合并产生特殊效应。想做出蛋糕心松软、湿润和细腻质感的黄…

阿里云资深技术专家李克畅谈边缘云计算趋势与实践

简介: 2021年5月15日,以“相信边缘的力量”为主题的全球边缘计算大会在深圳成功召开。 阿里云资深技术专家李克,分享阿里云在边缘云计算的探索和实践,如何为行业提供广覆盖、低成本、高可靠的边缘基础设施。 2021年5月15日&#…

阿里云江岑:云原生在边缘形态下的升华

简介: 5月20-22日,第十三届中国系统架构师大会(SACC2021)在云端进行网络直播,主题为“数字转型、架构重塑”。阿里云边缘云原生技术专家江岑,分享了阿里云在边缘云原生的探索实践,并从应对技术挑…

对数据“投入”却没有“产出”?听听 Gartner 的最新分析

作者 | 宋慧出品 | CSDN云计算(ID:CSDNcloud)关于数据中台的问题,CSDN 在一年前采访了 Gartner 研究总监孙鑫,采访中,孙鑫提到 数据分析将是改变“游戏规则”的技术、企业的中台需要可组装的架构 。经过一年…

实时计算 Flink 版总体介绍

简介: 实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品&#xff0c…

来电科技:基于Flink+Hologres的实时数仓演进之路

简介: 本文将会讲述共享充电宝开创企业来电科技如何基于FlinkHologres构建统一数据服务加速的实时数仓 作者:陈健新,来电科技数据仓库开发工程师,目前专注于负责来电科技大数据平台离线和实时架构的整合。 深圳来电科技有限公司&…

你说精通 Redis ,你看过持久化的配置吗?

作者 | 阿Q来源 | 阿Q说代码今天让我们从理论和配置两个层面来揭开Redis持久化的神秘面纱。所谓持久化可以简单理解为将内存中的数据保存到硬盘上存储的过程。持久化之后的数据在系统重启或者宕机之后依然可以进行访问,保证了数据的安全性。Redis有两种持久化方案&a…

matlab from有什么用,Matlab函数使用'fromworkspace'将向量传递给simulink

我想编写一个包含simulink块的matlab函数 . 该函数应将数据加载到simulink模型中,运行它,然后从函数返回数据 .我能想到的唯一方法就是在simulink中使用To Workspace和From Workspace块 . 问题是From Workspace块不从功能范围中获取变量,只从…

一种低延迟的超时中心实现方式

简介: 在很多产品中都存在生命周期相关的设计,时间节点到了之后需要做对应的事情。超时中心(TimeOutCenter,TOC)负责存储和调度生命周期节点上面的超时任务,当超时任务设置的超时时间到期后,超时…

浪潮云海OpenStack X版本技术贡献中国第一

10月6日,OpenStack社区发布第24个版本 Xena(简称X版本),浪潮云海在Nova、Cyborg、Cinder、Masakari、Manila等核心项目的技术贡献排名再次获得「中国第一」、全球前三,已连续4个版本荣登社区技术贡献国内榜首&#xff…

【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践

简介: 获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:https://www.aliyun.com/product/bigdata/spark 作者 美的暖通与楼宇事业部 先行研究中心智能技术部 美的暖通 IoT 数据平台建设背景 美的暖通与楼宇事业部&#xff0…

mysql 默认时间字段 1067,mysql替datetime类型字段设置默认值default

操作服务器环境为Linux centos5.7安装的mysql版本 MariaDB,图简单直接使用命令install上去的。在自己mac上测试数据库修改Alter语句没有问题的,ALTER TABLE XXX.XXX ADD COLUMN createtime datetime NOT NULL DEFAULT NOW() AFTER userinfo;但是在服务器…

tcp ip协议_网络通信-TCP/IP协议族简述

导读:计算机与网络设备要相互通信需要遵守同样的规则。例如,如何找到通信目标、该使用哪种语言通信、怎么结束通信等规则。不同的硬件、操作系统之间的通信都需要遵循同一种规则,这种规则也称为是协议。下面本文主要从以下三个点讨论与互联网…

网站图片全自动加密_11 个值得收藏的在线工具和资源网站

pdf.toPDF 格式免费转换工具,可将 PDF 与其他文件类型相互转换,其他文件类型可自行查看。网站还提供常用的 PDF 工具,包括压缩、修复、拆分和解锁 PDF。ilovepdf完全免费。与 pdf.to 的区别是它支持转换的文件类型少,但 PDF 工具丰…