贾扬清谈云原生-让数据湖加速迈入3.0时代

简介: 摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生--让数据湖加速迈入3.0时代》的分享。

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生--让数据湖加速迈入3.0时代》的分享。

image.png

本文主要从存储服务化、计算多元化、管理智能化等方面讲述了数据湖的演讲历程。

以下是精彩视频内容整理:

数据湖演进历程

数据湖1.0   2019年以前

  • 存储:存算分离,冷热数据分层,以Hadoop生态为主
  • 管理:无官方管理服务,用户自行处理扩缩容、磁盘运维等管理工作
  • 计算:初步实现计算云原生化,但缺乏计算的弹性以及多样性

数据湖的概念想必大家都不陌生。2019年以前提到数据湖概念时,一定程度上是基于存算分离这样一个朴素的想法,能够弹性的做存储规模的扩缩,根据计算需求灵活配置计算资源。在那个时候,存储基本可以服务化标准化,计算也可以和存储分开规划,如何更好管理上层数据和计算弹性则相对比较缺乏。

数据湖2.0   2019~2021

  • 存储:以对象存储为中心,统一存储承载生产业务,大规模、高性能
  • 管理:提供面向OSS/EMR等垂直湖管理系统,缺乏产品间联动
  • 计算:计算弹性化,用户根据负载进行计算伸缩

基于数据湖1.0的基础,我们进一步构建了很多能力。尤其在存储标准化后,像阿里云对象存储OSS,开始成为一个数据湖非常标准的底层的存储解决方案,它本身的稳定性、规模和性能,为数据湖底座提供了一个很好的基础。可以在上面做一些单集群,比如拉起 EMR 这样一个集群,进行一些数据的管理、控制,不过还是一个比较初步的状态。只要有计算集群,就可以在计算集群里引用数据湖的数据,对元数据进行管理。同时,因为云原生这样的方式,更加弹性的计算也变得更有可能。在存储、计算、管理三个指标中,存储是走的最快的;计算多元化是走的比较好的;管理也在逐渐构建。

数据湖3.0   2021

  • 存储:以对象存储为中心,构建企业级数据、全兼容、多协议、统一元数据
  • 管理:面向湖存储+计算的一站式湖构建和管理,做到智能“建湖”和“治湖”
  • 计算:计算不仅云原生化、弹性化,同时实时化、AI化、生态化

在提到数据湖3.0的时候,基本上的思考是在存储、计算、管理这三个指标上面都有进一步的发展。存储,需要做更多的兼容性、更好的一致性,以及更好的持久性。更加重要的一点是在管理上,数据湖不光是百川汇聚,扔在那的一堆数据,而是能够井井有条的管理。湖上存储了哪些数据、这些数据在如何被使用、使用的频率如何、数据的质量又怎么样,这些在传统的数据仓库领域经常考虑到的问题在数据湖中也同样存在。湖也应该有像仓一样的完整成熟的管理体系。至于计算,不仅是计算体量的弹性,更是一个计算的多样化的过程。以前我们更多的在做ETL,现在则更多的开始做实时的计算、AI的计算,以及非常多的生态计算引擎和湖的结合。以上是数据湖3.0需要解的一些核心问题。

存储从「成本中心」到「价值中心」的升级

  • 平滑上云--100% 兼容 HDFS,存量数据平滑迁移上云
  • 降低运维难度--全服务化形态,降低运维难度
  • 极致性价比--冷热分层,单桶万亿级文件数量,成本降低 90%
  • 加速 AI 创新--数据按需流动,大幅降低计算等待时间,高效管理

基于对象存储OSS这样一个底层的存储,我们实现了非常平滑的迁移上云,降低了运维、管理等难度。一个统一且标准的存储状态使得很多技术可以沉淀。比如冷热分层,在用户不需要关心的情况下,自动依赖OSS的冷存和热存的分配,以此降低存储成本。包括在AI领域,很多时候大家可能对于不同的存储形态不熟悉,更喜欢像 CPFS 这样传统的文件系统。CPFS 跟 OSS 的打通,在存储上提供了很多新功能,可以解决用户的迁移烦恼。

image.png

「建湖」 「管湖」 「治湖」的智能化升级

  • 数据智能入湖

多数据源一键入湖,支持离线/实时入湖方式

  • 数据计算的元数据服务化

服务化元数据,满足单表百万分区元数据管理

  • 统一的数据权限管理

对接多引擎,支持库/表/列等细粒度数据访问控制

  • 湖仓一体数据治理

数据湖与数据仓库的统一数据开发与全链路数据治理

我们花了一年多时间构建了一个新的产品,阿里云数据湖构建(Data Lake Formation,DLF),在建湖、管湖、治湖方面,更好的管理数据湖。首先关注的是数据如何更加标准化体系化的入湖,不光是写一堆的脚本,还要更好的管理起来,以更简易的方式将多元的数据汇聚到数据湖里。第二个就是元数据服务。在数仓里,元数据是和数仓整个建在一起的。构建一个数据湖时,存储放在OSS里面,针对元数据的管理,尤其是元数据的服务跟更加上层的例如 BI 之类的工具的组合,DLF 提供了一个更加服务化、标准化的元数据管理这一层。元数据所带来的数据权限、数据质量等更好的治理了这一层。而Dataworks 跟数据湖的打通,也使我们可以做更好的数据治理。在一个企业里面,数据形态非常多,有些在数据湖里,有些在仓库里。大家或许在业界听到过 LakeHouse 这样一个词语。很多时候是说,在湖上面来建立一个仓库。其实一个企业的需求,不光是从0开始在湖上建仓,因为有很多传统的数据仓库的存在,包括很多时候井井有条的像excel表一样的数据仓库其实还是有用的。所以如何把湖的灵活性跟仓的结构更好的联系在一起,支撑了我们在治湖、管湖、建湖的时候用到的一些工具和方法论。

image.png

「单一计算」到「全场景智能计算」的升级

  • 实时数据湖

实现实时数据入湖,分钟级别实时更新

  • 湖仓一体

打通湖与仓,提升企业数据业务能力,一份数据智能流动

  • 数据科学

从BI到AI场景,支持深度学习和异构计算框架

  • 计算引擎多元生态

支持Databricks、Cloudera 等多元化计算分析能力

数据湖如何更好的实时化?通过像 Hudi 这样的开源组件来实现实时的数据湖的功能。如何更好地结合数据科学的需求?比如在AI这个领域,大家经常使用到一些数据科学家们比较喜欢的基于python、基于编程的一些开发的体验,怎样把它和底层的数据湖存储、管理的这套体系结合起来?怎样把像 Databricks,Cloudera 这种非常成熟的企业级的生态产品和我们底层的数据湖结合起来?这些是我们在过去一年中,在不断的构建的一些企业级的能力或者说让我们的开发者们、工程师们更加容易地使用数据湖的一些能力。怎样做存储?怎样来做管理?怎样做更多样化的计算?这些都是数据湖发展到3.0阶段,比较核心的点。

image.png

万千企业和阿里云一起开启数据湖 3.0最佳实践

  • 6000+数据湖客户
  • EB 级数据湖容量
  • 分钟级数据实时入湖
  • TB 级但数据湖吞吐

在阿里云上,有非常多的企业在使用数据湖。在上面用到了非常大体量的存储和非常多样化的计算。在使用过程中,一起打磨了这样一个产品。从19年开始至今,数据湖的不断迭代离不开合作伙伴的信任。感谢大家。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512109.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一张图教你玩转阿里云双11上云狂欢节

一年一度的双11狂欢节已经开启啦!下面一张图教你如何玩转阿里云双11上云狂欢节! 双11主会场地址:http://click.aliyun.com/m/1000305076/

写时复制就这么几行代码,还是不会?

‍作者 | 闪客来源 | 低并发编程这里讲的是 Linux 内核里的写时复制原理。写时复制的原理网上讲述的文章很多,今天来一篇很直接的文章,通过看看 Linux 0.11 这个最简单的操作系统,从源码层面把写时复制的原理搞清楚。很简单哦,你可…

划重点|iOS15正式发布, 全新的通知推送系统,你必须要知道

简介: 今年友盟联合达摩院决策智能实验室讲算法技术,推出国内首个智能推送功能,帮助产品运营人员实现一键式触达的精细化运营。通过精心打磨的在线学习与优化算法,对推送人群与推送文案进行精准匹配,最大化用户点击量。…

万物互联下的碎片化怎么破?UINO优锘推出物联网产业元宇宙“物联森友会”

编辑 | 宋慧 出品 | CSDN云计算 移动浪潮之后,随着5G普及,IoT物联网已经成为下一个技术聚焦的领域。不过,万物互联中的“万物”终端,一直都存在着庞杂的应用场景,品类众多、技术指标各异的传感器,以及海量…

云湖共生-释放企业数据价值

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为我们带来《云湖共生-释放企业数据价值》的分享。本文主要从数据湖存储演进之路、数据湖存储3.0 进化亮点等方面分享了云湖共生带来的企业价值。 摘要&…

数据湖构建与计算

简介: 2021云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来《数据湖构建与计算》的分享。本文主要从数据的入湖和管理、引擎的选择展开介绍了数据湖方案降本增效的特性。 摘要:2021云栖大会云原生企业级数据湖专场&am…

天天讲路由,那 Linux 路由到底咋实现的!?

作者 | 张彦飞allen来源 | 开发内功修炼容器是一种新的虚拟化技术,每一个容器都是一个逻辑上独立的网络环境。Linux 上提供了软件虚拟出来的二层交换机 Bridge 可以解决同一个宿主机上多个容器之间互连的问题,但这是不够的。二层交换无法解决容器和宿主机…

治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布

简介: 10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖、湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的“数据悬河”,释放企…

函数式编程的Java编码实践:利用惰性写出高性能且抽象的代码

简介: 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所以读者不需要任何函数式编程的基础,只需要对 Java 8 有些许了解即可。 作者 | 悬衡 来源 | 阿里技术公众号 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所…

WorkManager从入门到实践,有这一篇就够了

作者 | Eason来源 | 程序员巴士前言一般情况下,我们大部分的操作都是在app打开的时候进行的,但是在某些情况下,即使app关闭了,我们也可能需要执行必要的动作,或者会采取一个动作,而不是让用户等待加载&…

终端卡顿优化的全记录

简介: 目前手机SOC的性能越来越少,很多程序员在终端程序的开发过程中也不太注意性能方面的优化,尤其是不注意对齐和分支优化,但是这两种问题一旦出现所引发的问题,是非常非常隐蔽难查的,不过好在项目中用到…

brew安装指定版本mysql,Mac 系统为 Valet 开发环境安装指定版本 MySQL

Mac 系统为 Valet 开发环境安装指定版本 MySQL由 学院君 创建于1年前, 最后更新于 5个月前版本号 #31547 views1 likes0 collects在 Mac 系统下使用 Valet 作为 Laravel 本地开发环境的话,需要自行安装 MySQL 数据库,我们通过 Homebrew 来安装。如果之前…

系统架构面临的三大挑战,看 Kubernetes 监控如何解决?

简介: 随着 Kubernetes 的不断实践落地,我们经常会遇到负载均衡、集群调度、水平扩展等问题。归根到底,这些问题背后都暴露出流量分布不均的问题。那么,我们该如何发现资源使用,解决流量分布不均问题呢?今天…

JavaScript 数组你都掰扯不明白,还敢说精通 JavaScript ?| 赠书

作者 | 哪吒来源 | CSDN博客最近小编在看文章的时候,总有很多刚刚入门的小白说精通这个,精通那个技术,更有意思的是,最近看到一则简历上说精通 JavaScript ,聊一聊发现数组还不明白,就对外说精通~所以今天小…

基于消息队列 RocketMQ 的大型分布式应用上云实践

简介: Apache RocketMQ 作为阿里巴巴开源的支撑万亿级数据洪峰的分布式消息中间件,在众多行业广泛应用。在选型过程中,开发者一定会关注开源版与商业版的业务价值对比。 那么,今天就围绕着商业版本的消息队列 RocketMQ和开源版本 …

Gartner发布2022年政府行业主要技术趋势:XaaS、数字化、超自动化等

作者 | Gartner研究副总裁 Bettina Tratz-Ryan Gartner杰出研究副总裁John Kost Gartner高级研究总监 相斌斌 供稿 | Gartner 政府领导人和民选官员在2022年不仅要面对巨大的挑战,还要把握疫情与经济复苏应对措施、不断变化的政治需求和持续数字化变革所带来的机遇…

RedShift到MaxCompute迁移实践指导

简介: 本文主要介绍Amazon Redshift如何迁移到MaxCompute,主要从语法对比和数据迁移两方面介绍,由于Amazon Redshift和MaxCompute存在语法差异,这篇文章讲解了一下语法差异 1.概要 本文档详细介绍了Redshift和MaxCompute之间SQL…

数字农业WMS库存操作重构及思考

简介: 数字农业库存管理系统在2020年时,部门对产地仓生鲜水果生产加工数字化的背景下应运而生。项目一期的数农WMS中的各类库存操作均为单独编写。而伴随着后续的不断迭代,这些库存操作间慢慢积累了大量的共性逻辑:如参数校验、幂…

数字营销行业大数据平台云原生升级实战

简介: 加和科技CTO 王可攀:技术是为业务价值而服务 王可攀 加和科技CTO 本文将基于加和科技大数据平台升级过程中面临的问题和挑战、如何调整数据平台架构以及调整后的变化,为大家介绍数字营销行业大数据平台云原生升级实战经验。主要分为以…

场景模型驱动自动化测试在盒马的探索及实践

简介: 盒马业务有如下几个特点:线上线下一体化、仓储配送一体化、超市餐饮一体化、经营作业一体化、多业态与平台化。在以上的种种原因,生鲜及物流体验是盒马的特点,但仓储配送一体化作业中,如何能更高效的提升测试效率…