云湖共生-释放企业数据价值

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为我们带来《云湖共生-释放企业数据价值》的分享。本文主要从数据湖存储演进之路、数据湖存储3.0 进化亮点等方面分享了云湖共生带来的企业价值。

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储 OSS 负责人罗庆超为我们带来《云湖共生-释放企业数据价值》的分享。

06CBD15F-2D00-40a9-B8E6-3FD4343AD6E1.png

本文主要从数据湖存储演进之路、数据湖存储3.0 进化亮点等方面分享了云湖共生带来的企业价值。

以下是精彩视频内容整理:

数据湖存储演进之路

众所周知,数据湖是一个存算分离的架构。这个架构带来的好处是存储和计算是解耦地部署及扩展的,从而实现整体系统的弹性能力。我回忆了一下数据湖存储1.0时一个客户的情况。他有一个很大的 HDFS 集群,里面存了大量的历史数据,这时候想扩计算了,但是发现计算不能直接 run 在上面,因为会影响到现有集群的稳定性。就要单独扩额外的机器来做计算的集群,扩的时候集群又变庞大了,对运维的稳定性又带来了挑战。所以当时客户就选择了存算分离的数据湖技术。好处就是把所有的数据都放到分离的对象存储上面,就可以继续跑计算集群,run Hadoop 的计算生态。为了兼容对象存储的接口和传统 Hadoop 应用的 HDFS 接口的要求,他还会部署一个 HDFS 的集群,来支撑这样的一个应用。那这个集群,就可以把传统的应用很好的 run 起来,而且他还可以提供性能优化的能力,这是数据湖1.0解决的一个问题。

随着数据湖1.0大量客户的使用,可以看到上面的应用越来越多。从 Hadoop 的应用到计算引擎,不同的计算引擎再到 AI,上面的计算生态越来越多,对存储容量的扩展性就有了更高的要求。基于这个要求,我们要解决数据的管理能力。就需要把数据全部存到对象存储上,跟1.0相比可以看到,所有的冷热数据,都会存到对象存储里,对象存储就要支持大规模高性能的能力,同样也有一个老的问题要解决。 HDFS 一些专有的接口支撑能力,还需要外部的元数据服务,run 一个元数据服务比如 JindoFS,来把传统应用支撑起来,这样就解决1.0里面的一些问题。

基于2.0我们深入的使用,也发现了一些痛点,比如要运维一个外部的元数据集群,同时对于一些存量的数据,你还要做数据导入导出的工作,为此我们提出了数据湖3.0。这里面存储架构就发生了一个质的变化。把外置的一个元数据集群,内置到对象存储里,把它做成一个服务化,无需占用客户的资源,通过 SDK 就能够访问,这样可以减少运维的难题。而且我们整个元数据统一之后,可以将历史上就已存到对象存储上面的数据快速迁移过来,不需要做数据的拷贝。因此数据湖3.0,我们实现了以对象存储为中心,全兼容、多协议、统一元数据的服务。

image.png

数据湖存储3.0 进化亮点

基于数据湖3.0,我们可以看到他有如下一些亮点:

  • 多协议接口,访问相同存储空间

如图所示,它是一个多协议接口访问的池子。这个协议可以访问相同的数据,这样就能降低应用的门槛,直接对接接口就好,对运维是一个好处

  • 性能加速器,服务端、客户端灵活选择使用

可以在客户端,服务端选择不同的加速器来提高性能

  • 全服务化形态,降低客户运维难度

通过服务化的形态部署,降低了计算机器上面部署更多软件的开销,降低了运维的代价,可以让客户更好的使用

  • 元数据互通,存量数据无缝迁移

底层让对象存储这种平坦的元数据,和基于 HDFS 目录的元数据,相互之间可以互相理解,从而在做存量数据移动的时候,只做元数据的映射修改,而数据是不用移动的,这样就可以平滑应用。

  • 冷热分层,极致性价比优化

数据湖1.0里面有热数据在 HDFS 里面,冷数据在对象存储里面,现在我们完全可以利用对象存储自身提供的,不同规格的存储类型,来实现应用的冷热分层,从而提供极致的性价比

  • 一份数据,多维的元数据描述,零数据拷贝

image.png

接口全兼容,快速完成自建HDFS迁移OSS数据湖存储

  • 100%兼容 HDFS语义计算引擎无感
  • HDFS/对象 一份数据 多协议访问,元数据互通
  • 对象接口支持 毫秒级原子10亿级目录重命名
  • 全服务化 降低运维难度,简单易用

我们实现了基于 OSS 构建的数据湖存储3.0.既然提供了百分之百兼容 HDFS 语义的能力,就可以很容易且快速完成自建HDFS迁移OSS数据湖存储。因为接口兼容了,我们可以通过一些工具、软件快速的把数据从自建的 HDFS 拷贝或者迁移到数据湖存储里面来,而且未来我们还会做,对于开源 HDFS NameNode 的一种格式解析方式。做了这个格式之后,我们可以在后台自动的做迁移,降低整个迁移的难度。那同时数据迁移到 OSS 之后,我们基于一些验证过的场景,比如一个目录下存放10亿的文件,我们也能提供对象存储级的目录操作的原子接口,可以实现秒级把这个目录完成重命名,大大的提高计算的效率,这个也是经过场景验证的。

image.png

OSS数据湖存储与CPFS数据流动,加速AI 业务创新

  • 降低95%计算等待时间,大幅提升训练效率
  • POSIX 语义兼容,业务应用天然适配
  • CPFS 提供百GB吞吐,高性能共享访问
  • 数据按需流动,多种更新模式,高效管理

建完湖之后就要修湖,修湖之后还要拉通、疏浚河道,这样才能够让水流到湖里面来。基于 OSS 构建的数据湖,也是同样的道理。我们完善了这个湖之外还打通了跟外部的存储之间的数据流动的通道。

image.png

这是典型的跟 CPFS 的一个通道,通过离线迁移的闪电立方数据迁移技术,把数据从线下,特别是在 AI 这样的场景下,把他的数据搬到云上,利用云上的技术把数据存起来。然后 CPFS 拉取需要的热数据跟 CPU 结合起来进行训练来满足高要求。比如 CPFS 可以提供百 GB 带宽的能力,快速的计算,可以降低95%的计算时间,充分发挥 CPFS 的能力。同时计算的结果又能回流归档回到 OSS 这个数据湖里面,在这个湖里面大量的数据,又会跟 EMR、MaxCompute 配合起来进行一些离线的训练,挖取更多的数据价值。所以我们会不断的去跟外部的存储系统,形成数据的流动,让湖跟外面的河连接起来,形成数据的水网。

基于 OSS 构建的数据湖存储3.0的特点

  • 稳定
  • 99.995%可用性SLA
  • 12个9数据可靠性
  • 数据不丢不错
  • 安全
  • 全链路数据加密
  • 多种加密算法
  • 一键开启Tb 级防攻击
  • 敏感数据保护
  • 弹性
  • 数十 EB 级数据存储实战
  • 单桶万亿级对象
  • 目录原子操作接口
  • 性价比高
  • 久经验证Tbps 级带宽
  • 稳定的读写时延
  • 领先的冷归档成本降 90%

基于 OSS 构建的数据湖的稳定性是非常好的,99.995%的这个可用性 SLA , 这是非常高的。12个9的数据可靠性,数据基本上不会丢不会错,只有在极限的情况下,比如数据中心因为自然灾害等故障之后才可能引起异常,但我们通过3A 这样的技术可以进一步的缓解。我经常跟别人讲一个故事,阿里常说我们要活102年,我们希望在这一百年之期,你存进去的数据, 100多年以后去访问它还是一模一样的。不管后端的数据中心、硬盘、服务器发生任何代次的更换,数据始终在那。第二个就是我们的安全能力,基于对象存储 OSS 构建的数据湖,完整的继承了对象存储上面构建的安全能力,全链路的数据加密,丰富的加密算法,特别是一键开启 TB级的防攻击能力。昨天有一个客户还在跟我交流,他说他上云最担心的就是被攻击,那我们这一套防攻击体系是和阿里整个集团的防攻击体系一脉相承,一起共建出来,经受过双十一打磨的。所以安全这块在我们构建数据湖的时候,是可以放心的。至于弹性方面,我们提供了数十 EB 级的数据存储实战。而且对象存储里面的单桶,支持万亿级的存储能力,这个数据量是非常的庞大的。而且我们完善了对象存储上面的目录原子操作接口,通过这个目录原子操作可以让重命名变得更加的高效。我们跟 EMR 团队一起配合在一些场景下面,通过这个接口可以提升,整个计算30%的性能。然后性价比方面,久经验证的 Tbps 级带宽,做双十一大促也好,红包活动也好,都是支持的。大家如果用 OSS 就可以知道,我们写入的实验和读取的实验,抖动的曲线基本上没有波动,都是比较平稳的一条线,有了这个实验,大家做程序设计的时候,各种预期就比较好计算。今年我们还发布了领先的冷归档技术。通过冷规档技术,我们可以把成本降低90%。也就是说在数据湖里面,不用的数据可以沉淀下来,需要的时候再把它找回来,那成本是非常低廉的。就可以做好数据生命周期管理,支持你做好数据治理。

通过上面的这个技术介绍,我们相信基于 OSS 的数据湖存储3.0,就像哆啦A梦的百宝袋,你可以把各种数据都放进去,也许你放进去的是垃圾数据,但是你通过数据湖上面的分析,取出来的却是各种宝贝。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512102.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据湖构建与计算

简介: 2021云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来《数据湖构建与计算》的分享。本文主要从数据的入湖和管理、引擎的选择展开介绍了数据湖方案降本增效的特性。 摘要:2021云栖大会云原生企业级数据湖专场&am…

天天讲路由,那 Linux 路由到底咋实现的!?

作者 | 张彦飞allen来源 | 开发内功修炼容器是一种新的虚拟化技术,每一个容器都是一个逻辑上独立的网络环境。Linux 上提供了软件虚拟出来的二层交换机 Bridge 可以解决同一个宿主机上多个容器之间互连的问题,但这是不够的。二层交换无法解决容器和宿主机…

治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布

简介: 10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖、湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的“数据悬河”,释放企…

函数式编程的Java编码实践:利用惰性写出高性能且抽象的代码

简介: 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所以读者不需要任何函数式编程的基础,只需要对 Java 8 有些许了解即可。 作者 | 悬衡 来源 | 阿里技术公众号 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所…

WorkManager从入门到实践,有这一篇就够了

作者 | Eason来源 | 程序员巴士前言一般情况下,我们大部分的操作都是在app打开的时候进行的,但是在某些情况下,即使app关闭了,我们也可能需要执行必要的动作,或者会采取一个动作,而不是让用户等待加载&…

终端卡顿优化的全记录

简介: 目前手机SOC的性能越来越少,很多程序员在终端程序的开发过程中也不太注意性能方面的优化,尤其是不注意对齐和分支优化,但是这两种问题一旦出现所引发的问题,是非常非常隐蔽难查的,不过好在项目中用到…

brew安装指定版本mysql,Mac 系统为 Valet 开发环境安装指定版本 MySQL

Mac 系统为 Valet 开发环境安装指定版本 MySQL由 学院君 创建于1年前, 最后更新于 5个月前版本号 #31547 views1 likes0 collects在 Mac 系统下使用 Valet 作为 Laravel 本地开发环境的话,需要自行安装 MySQL 数据库,我们通过 Homebrew 来安装。如果之前…

系统架构面临的三大挑战,看 Kubernetes 监控如何解决?

简介: 随着 Kubernetes 的不断实践落地,我们经常会遇到负载均衡、集群调度、水平扩展等问题。归根到底,这些问题背后都暴露出流量分布不均的问题。那么,我们该如何发现资源使用,解决流量分布不均问题呢?今天…

JavaScript 数组你都掰扯不明白,还敢说精通 JavaScript ?| 赠书

作者 | 哪吒来源 | CSDN博客最近小编在看文章的时候,总有很多刚刚入门的小白说精通这个,精通那个技术,更有意思的是,最近看到一则简历上说精通 JavaScript ,聊一聊发现数组还不明白,就对外说精通~所以今天小…

基于消息队列 RocketMQ 的大型分布式应用上云实践

简介: Apache RocketMQ 作为阿里巴巴开源的支撑万亿级数据洪峰的分布式消息中间件,在众多行业广泛应用。在选型过程中,开发者一定会关注开源版与商业版的业务价值对比。 那么,今天就围绕着商业版本的消息队列 RocketMQ和开源版本 …

Gartner发布2022年政府行业主要技术趋势:XaaS、数字化、超自动化等

作者 | Gartner研究副总裁 Bettina Tratz-Ryan Gartner杰出研究副总裁John Kost Gartner高级研究总监 相斌斌 供稿 | Gartner 政府领导人和民选官员在2022年不仅要面对巨大的挑战,还要把握疫情与经济复苏应对措施、不断变化的政治需求和持续数字化变革所带来的机遇…

RedShift到MaxCompute迁移实践指导

简介: 本文主要介绍Amazon Redshift如何迁移到MaxCompute,主要从语法对比和数据迁移两方面介绍,由于Amazon Redshift和MaxCompute存在语法差异,这篇文章讲解了一下语法差异 1.概要 本文档详细介绍了Redshift和MaxCompute之间SQL…

数字农业WMS库存操作重构及思考

简介: 数字农业库存管理系统在2020年时,部门对产地仓生鲜水果生产加工数字化的背景下应运而生。项目一期的数农WMS中的各类库存操作均为单独编写。而伴随着后续的不断迭代,这些库存操作间慢慢积累了大量的共性逻辑:如参数校验、幂…

数字营销行业大数据平台云原生升级实战

简介: 加和科技CTO 王可攀:技术是为业务价值而服务 王可攀 加和科技CTO 本文将基于加和科技大数据平台升级过程中面临的问题和挑战、如何调整数据平台架构以及调整后的变化,为大家介绍数字营销行业大数据平台云原生升级实战经验。主要分为以…

场景模型驱动自动化测试在盒马的探索及实践

简介: 盒马业务有如下几个特点:线上线下一体化、仓储配送一体化、超市餐饮一体化、经营作业一体化、多业态与平台化。在以上的种种原因,生鲜及物流体验是盒马的特点,但仓储配送一体化作业中,如何能更高效的提升测试效率…

基于 KubeVela 的 GitOps 交付

简介: KubeVela 是一个简单、易用、且高可扩展的云原生应用管理和交付平台,KubeVela 背后的 OAM 模型天然解决了应用构建过程中对复杂资源的组合、编排等管理问题,同时也将后期的运维策略模型化,这意味着 KubeVela 可以结合 GitOp…

BCS2022大会将提前至5月 网络安全产业空间扩容将成热门话题

年度网络安全的盛会即将开启。 2022年3月30日,2022年北京网络安全大会(BCS2022)新闻发布会在北京奇安信安全中心召开,宣布2022年北京网络安全大会“提档”至5月24日至26日,并与北辰集团国家会议中心达成战略合作&#…

基于 Istio 的全链路灰度方案探索和实践

简介: 本文介绍的基于“流量打标”和“按标路由” 能力是一个通用方案,基于此可以较好地解决测试环境治理、线上全链路灰度发布等相关问题,基于服务网格技术做到与开发语言无关。同时,该方案适应于不同的7层协议,当前已…

图像检索在高德地图POI数据生产中的应用

简介: 高德通过自有海量的图像源,来保证现实世界的每一个新增的POI及时制作成数据。在较短时间间隔内(小于月度),同一个地方的POI 的变化量是很低的。 作者 | 灵笼、怀迩 来源 | 阿里技术公众号 一 背景 POI 是 Poin…

Redis HyperLogLog 是什么?这些场景使用它~

作者 | 就是码哥呀来源 | 码哥字节在移动互联网的业务场景中,数据量很大,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时对这个数据集合做统计。统计一个 APP 的日活、月活数;统计一个页面的每天被多少个不…