Cloudera:开放式数据湖仓,释放数据分析潜力

湖仓模式在实施过程中存在一个严重的矛盾:虽然数据湖是开放的,但湖仓却不是。

作者 | Cloudera首席技术官Ram Venkatesh、Cloudera 产品管理副总裁 Priyank Patel

供稿 | Cloudera

Cloudera 客户运行着地球上最大的一些数据湖。这些湖为关键任务大规模数据分析、商业智能 (BI) 和机器学习用例,包括企业数据仓库,提供动力。近年来,创造了“数据湖仓”一词来描述这种对数据湖中的数据进行表分析的架构模式。在匆匆奔向这个术语的过程中,许多厂商忽略了这样一个事实,即数据架构的开放性是其持久性和长盛不衰的保证。

关于数据仓库和数据湖

数据湖和数据仓库将海量的各种类型数据统一到一个中心位置。但是有着截然不同的架构世界观。数仓是为SQL 分析垂直集成的,而数据湖优先考虑 SQL 之外的分析方法的灵活性。

为了能兼得鱼与熊掌——数据湖中分析的灵活性和数仓中简单快速的 SQL,企业经常部署数据湖来补充他们的数仓,在数据提取、转换、加载 (ETL) 或 ELT 管道的最后一步让数据湖为数仓系统提供数据。在这样做的过程中,他们等于接受了数据在仓库中的锁定。

但可以有一个更好的方法:用 Hive 元存储,这是过去十年数据平台一个出人意料的好产品。随着用例的成熟,我们看到高效的交互式 BI 分析和事务语义来修改数据的需求。

数据湖仓的迭代

第一代 Hive元存储试图解决在数据湖上高效运行 SQL 的性能考虑。它提供了数据库、模式和表的概念,用于描述数据湖的结构,让 BI 工具可以有效地充分使用数据。它添加了描述数据逻辑和物理布局的元数据,支持基于成本的优化器、动态分区裁剪以及针对 SQL 分析的一些关键性能改进。

第二代 Hive元存储添加了对使用 Hive ACID 的事务更新的支持。数据湖仓虽然尚未正式命名,但已开始热闹。事务性启用了持续摄取和插入/更新/删除(或合并)的用例,从而打开了数仓样式的查询、功能以及从其他数仓系统到数据湖的迁移。这对我们的许多客户来说非常有价值。

Delta Lake项目采用不同的方法来解决这个问题。Delta Lake为数据湖中的数据添加了事务支持。可以进行数据策管,为数据湖带来了运行数仓式分析的可能性。

渐渐的在某个时刻,“数据湖仓”这个词因为这种架构模式而被造出来了。我们相信湖仓是简洁地定义这种模式的好方法,并很快在客户和行业中获得了共识。

开放数据湖仓满足互操作性需求

在过去几年中,随着新数据类型的诞生和新的数据处理引擎的出现,为了简化分析,企业所期望的两全其美真的需要分析引擎的灵活性。如果企业海量有价值的数据需要被管理,那么企业必须能够开放的选择不同的分析引擎,甚至是供应商。

湖仓模式在实施过程中存在一个严重的矛盾:虽然数据湖是开放的,但湖仓却不是。

在能够添加 Impala、Spark 等引擎之前,Hive元存储一直遵循 Hive为先的演进。Delta lake是Spark为主的演进;如果客户想要自由选择不同的引擎而不只是表格式,他们的选择极为有限。

客户从一开始就要求更多。更多格式、更多引擎、更多互操作性。今天,Hive 元存储被多个引擎和多个存储选项使用。除了 Hive 和 Spark,还有 Presto、Impala 等等。Hive元存储是有机地演进支持这些用例,因此集成通常很复杂且容易出错。

为满足互操作性需求而设计的开放数据湖仓从根本上解决了这一架构问题。它会让那些全押在一个平台上的人感到不安,但社区驱动的创新能帮助解决现实世界的问题,以务实的方式帮助使用同类最佳工具,并克服供应商的锁定。

开放湖仓Apache Iceberg的诞生

Apache Iceberg 从一开始构建时,其目标就是在多个分析引擎在云原生规模上轻松实现互操作。这项创新的诞生之地 Netflix 需要将 100 PB 规模的 S3 数据湖构建到数仓中,这可能是最佳示例了。云原生表格式由其创建者开源到 Apache Iceberg 中。

Apache Iceberg 真正的超级力量是它的社区。在过去三年中,Apache Iceberg 社区有机地蓬勃发展,增加了一系列令人赞叹的优异集成:

  • 数据处理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink
  • 多种文件格式:Parquet、AVRO、ORC
  • 社区中的大型采用者:Apple、LinkedIn、Adobe、Netflix、Expedia 等
  • AWS Athena、Cloudera、EMR、Snowflake、腾讯、阿里巴巴、Dremio、Starburst 的托管服务

使这个多样化的社区蓬勃发展的原因是数千家公司的集体需求,以确保数据湖可以演变为包含数据仓库,同时保持跨引擎的分析灵活性和开放性。这使得开放式湖仓成为可能:为未来提供无限的分析灵活性。

Cloudera拥抱Iceberg模式

在 Cloudera,我们为我们的开源根基感到自豪,并致力于社区贡献。自 2021 年以来,我们为日益壮大的 Iceberg 社区在 Impala、Hive、Spark 和 Iceberg 上做出了数百项贡献。我们扩展了 Hive 元存储将集成添加到我们的许多开源引擎中以充分利用 Iceberg 表。2022 年初,我们在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 的技术预览,使 Cloudera 客户能够在我们的数据仓库、数据工程和机器学习服务中实现 Iceberg 的模式和时间旅行能力。

我们的客户一直告诉我们,无论是现代 BI、AI/ML、数据科学还是更多,分析需求都在迅速发展。选择由 Apache Iceberg 提供支持的开放数据湖仓让企业可以自由选择分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511369.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文读懂云原生一体化数仓

简介:阿里云云原生一体化数仓产品技术深度解读。 本文大纲 一、云原生一体化数仓的发布背景 1 市场情况 2 挑战和痛点 二、云原生一体化数仓是什么 三、云原生一体化数仓的技术理念 1 离线实时一体 2 湖仓一体 3 分析服务一体 4 全链路数据治理 一…

西安交大计算机考研分数线2020院线,西安交通大学2020考研复试分数线已公布

2020西安交通大学考研复试分数线已公布!点击查看>>34所自划线院校2020考研复试分数线。2020考研国家线已公布,当前2020考研考生需全力准备考研复试/调剂工作>>考研复试学习指南,让你不再盲目备战​西安交通大学公布2020年硕士研究…

Graphcore 联合百度飞桨提交 MLPerf Training 2.0,IPU 性能再下一城

作者 | 宋慧 出品 | CSDN 云计算&AI 科技大本营 为 AI 与机器学习提供更高性能的支持,是芯片厂商的竞争特点。最近,AI 芯片厂商 Graphcore 联合国内知名的深度学习平台百度飞桨,共同提交了 MLCommons 的 AI 基准评测 MLPerf Training 2.…

创新推出 | Serverless 调试大杀器:端云联调

简介:端云联调功能,不仅提升了 Serverless 应用的开发者的开发效率并且带来了良好的开发体验;让本地开发环境突破网络限制,真正实现和云端环境融为一体,一文带你了解,端云联调功能是如何解决应用调试难题的…

密立根油滴实验的计算机仿真实验报告,H-D光谱实验的计算机仿真

对H-D光谱实验进行计算机仿真,由计算机控制的摄谱仪进行氢氘光谱摄谱,对谱线寻峰,计算出里德伯常量、氢氘质量比和同位素位移,并画出了氢原子的能谱图。维普资讯 http://www.wendangwang.com第2 7卷第9期物理实验PH Y SI CS EXPERI EN TA T 1 N M 0Vo . 7 NO 9 12 .Se p., 0 20…

独家交付秘籍之招式拆解(第一回)

简介:上一回说到经历种种交付难题的王小锤一行人,意外发现一本交付秘籍,打开了新世界。本次他们带着具体交付场景来到阿里云,与交付宗师阿莫探讨秘籍中的招式以及招式背后的秘密。 作者:吕莫、新钰 前情介绍 大家好…

白鲸开源再获数千万元融资,完善 DataOps 开源生态,打造下一代云原生智能DataOps平台

Apache DolphinScheduler是首个由国人主导并贡献到Apache的大数据工作流调度领域的顶级项目。作为已经十分流行的开源调度项目,已有48位Committer和21位PMC,360 Contributors 积极参与到社区的共建中。自开源以来,Apache DolphinScheduler稳步…

国内唯一,阿里云容器服务进入 Forrester 领导者象限

简介:近日,国际权威咨询机构 Forrester 发布《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》报告,报告显示,阿里云进入全球公共云容器平台"领导者"象限,这是中国云计算厂商首次进入…

ps4看b站 f怎么调html5,b站html5,b站怎么切换到HTML5版播放器?

b站怎么切换到HTML5版播放器?目前来说B站只能使用HTML5播放器,因为FIASH已经停止维护,所以现在不需要设置,只能使用HTML5播放器b站怎么做切换到html5视频播放器1. 在网页上搜索哔哩哔哩弹幕网,进入官网页面。2. 在哔哩…

K8s Ingress Provider 为什么选择 MSE 云原生网关?

简介:在虚拟化时期的微服务架构下,业务通常采用流量网关 微服务网关的两层架构,流量网关负责南北向流量调度和安全防护,微服务网关负责东西向流量调度和服务治理,而在容器和 K8s 主导的云原生时代,Ingress…

在 Kubernetes 上执行 GitHub Actions 流水线作业

作者 | Addo Zhang来源 | 云原生指北GitHub Actions 是一个功能强大、“免费” 的 CI(持续集成)工具。与之前介绍的 Tekton 类似,GitHub Actions 的核心也是 Pipeline as Code 也就是所谓的流水线即代码。二者不同的是,GitHub Act…

将信息系学生的计算机文化学,计算机等级考试(国家)-关系数据库操作语言sql(四)...

计算机等级考试(国家)-关系数据库操作语言sql(四) (8页)本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!10.90 积分关系数据关系数据库库操作操作语语言言SQL(四四)设计题设计题 在SQL Server 2000中&a…

系统困境与软件复杂度,为什么我们的系统会如此复杂

简介:读 A Philosophy of Software Design 有感,软件设计与架构复杂度,你是战术龙卷风吗? 作者 | 聂晓龙(率鸽) 来源 | 阿里技术公众号 读 A Philosophy of Software Design 有感,软件设计与架…

节省 58% IT 成本,调用函数计算超过 30 亿次,石墨文档的 Serverless 实践

简介:石墨文档使用函数计算搭建文档实时编辑服务,由函数计算的智能调度系统自动分配执行环境,处理多用户同时编写文档带来的峰值负载,函数计算的动态扩缩容能力保障应用的可靠运行。 作者 | 金中茜 对石墨文档来说,“…

剖析 Netty 内部网络实现原理

作者 | 张彦飞allen来源 | 开发内功修炼Netty 是一个在 Java 生态里应用非常广泛的的网络编程工具包,它在 2004 年诞生到现在依然是火的一塌糊涂,光在 github 上就有 30000 多个项目在用它。所以要想更好地掌握网络编程,我想就绕不开 Netty。…

计算机专业学术论文精选,计算机科学与技术专业本科生毕业论文精选.doc

郑州大学远程学院计算机科学与技术学院本科生毕业论文(设计)题 目:期刊稿件管理系统之专家在线审稿子系统设计与实现学生姓名:学 号:专业班级:指导教师:完成时间: 2015年9月8日目 录摘要IAbstractII引言1第…

免费体验,阿里云智能LOGO帮你解决设计难题

简介:超实用!零基础搞定一个高大上的智能logo设计 新年过后,往往是大家一年中士气最足的时候,散去了年末的疲惫和emo,重燃对新一年的热情和希望。 想创业的朋友们同样意气风发,趁着新年的劲头想大干一场。…

第十一届吴文俊人工智能科学技术奖颁奖盛典召开,66个项目成果摘得中国智能科学技术奖励最高殊荣

7月16日上午,我国智能科学技术最高奖“吴文俊人工智能科学技术奖”颁奖盛典在北京隆重举行,66个获奖项目及个人受到表彰奖励。中国工程院院士、浙江大学教授潘云鹤荣获“吴文俊人工智能最高成就奖”,并颁授荣誉奖牌和100万人民币奖金。欧洲科学院院士、华…

企业拥抱开源之前,必须了解的七件事

简介:新的时代,开源的发展越来越蓬勃,开源和云的关系越来越复杂,耦合度越来越高,云是开源软件允许的最佳环境之一,也为开源软件插上安全高效的腾飞引擎。本文试图从企业软件的历史,结合开源软件…

在浙学大学计算机基础,艺术设计-浙江大学本科生院.PDF

艺术设计-浙江大学本科生院浙江2010 级艺术设计专业培养方案大培养目标 学培养具有较为宽厚的艺术设计理论知识和专业技能,具备较为宽泛的交叉知识结构和创新能力,能在浙 学校、设计院、媒体、广告、装潢等文化艺术领域从事教学、科研、设计及管理工作的…