MaxCompute湖仓一体介绍

简介:本篇内容分享了MaxCompute湖仓一体介绍。 分享人:孟硕 阿里云 MaxCompute产品专家 

视频链接:数据智能实战营-北京站 专题回顾

正文:

本篇内容将通过两个部分来介绍MaxCompute湖仓一体。

一、什么是 MaxCompute 湖仓一体

二、湖仓一体成功案例介绍

一、什么是 MaxCompute 湖仓一体

湖仓一体的整体架构,主要面向数据分析师,数据科学家以及大数据工程师来使用。主要应用的业务有Machine,非结构化数据分析,Ad-hoc/BI,Reporting和Learning等等。在整体架构中,DataWorks作为数据统一开发管理的平台,主要负责数据安全,开发IDE,任务调度和数据资产管理等综合工作,确保平台稳定运行。

如上图所示,在整体架构中,我们首先将数据湖集群和MaxCompute数仓集群的网络打通,然后将存储层的数据打通,确保智能Cache,冷热分层,存储优化和性能加速。在计算层,我么实现了DB级元数据的透视,避免数据孤岛。

DataWorks统一了各种数据资产,比如E-MapReduce,CDH HBase,CDH Hive和AnalyticDB for等。不但能在数据地图中看到全域的数据资产,而且还支持从数据源里抽取元素与信息。

在阿里内部,我们实现了一定程度的数据民主化。现如今,阿里集团内部所有的表,员工都能够看到表名称和的元数据信息,以及信息的安全等级。DataWorks作为中台:可以从列表中支持的数据源采集数据,纳入平台管控。

目前,统一的表级、字段级别数据血缘就现有的产品能力,只能局限于单一引擎内部的跨血缘。预计明年能够实现跨引擎的数据血缘。

在单一引擎内部,可以挂载多个hadoop集群,实现统一引擎的对接与管理。

DataWorks作为统一的数据开发平台,能够将MC的任务和hadoop任务混编在一个流程中。不但可以统一临时查询入口,发送给不同的引擎。而且可以将不同的引擎作业混合调度。比如数据集成作业,MaxCompute作业以及Hive作业等。

二、湖仓一体成功案例介绍

某互联网游戏公司的广告算法团队是湖仓一体主要客户,主要应用是机器学习DW+MC+PAI+EAS在线模型服务。该团队的自服务程度高、需要一站式的机器学习平台。而Hadoop集群有多团队共用,使用集群管控较严,无法短时间支撑大workload的创新业务。
基于以上需求,我们通过湖仓一体,将新业务平台与原有数据平台打通,即PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习,模型开发、模型发布,大规模计算等能力,提升了团队的工作效率。

数禾公司通过引入MaxCompute作为计算引擎的数据中台,不但让数据湖计算自由流动,而且解决了先前异构计算引擎存储管理,元数据管理和权限管理不同统一的问题。不但提升了整体的工作效率,而且降低了运维成本,起到了降本增效的作用。

上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构。底层是OSS数据湖存储,我们通过DLF构建了元数据管理,数据血缘管理,数据权限管理。通过JindoFS+MC的方式,实现了数据的冷热分层和本地缓存。我们结合MaxCompute和EMR,成功实现了智能数据构建与数据中台管理。

在未来,湖仓统一开发管理平台,能够实现湖仓数据的一站式管理与治理。OSS的对象存储不但支持结构化数据,也能支持非机构化数据。整个平台不但能同步联邦数据源,而且能统一元数据服务和元数据仓库。

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云原生离线实时一体化数仓建设与实践

简介:本篇内容分享了云原生离线实时一体化数仓建设与实践。 分享人:刘一鸣 Hologres 产品经理 视频链接:数据智能实战营-北京站 专题回顾 正文: 本篇内容将通过五个部分来介绍云原生离线实时一体化数仓建设与实践。 一、离线实…

议题征集|Flink Forward Asia 2022 正式启动

在这数据量爆炸性增长的时代,开源软件如雨后春笋般出现在开发者的视野中,数据的价值被重新定义。同时,越来越多的企业开启实时化道路,数据的实时分析与计算需求与日俱增。作为主打流处理的计算引擎 Apache Flink 于 2014 年正式开…

龙蜥正式开源 SysOM:百万级实战经验打造,一站式运维管理平台 | 龙蜥技术

简介:SysOM集监控、告警、诊断、修复、安全能力于一体的操作系统运维平台。 文/系统运维 SIG 如果你被突如其来的 OOPS 和满屏奇怪的函数弄得满头问号?机器内存明明很大,却申请不出来内存?业务周期抖动,ping 命令偶尔…

微软在华商业应用战略全面升级,首次推出面向医疗和生命科学的云行业套件

2022年9月29日,微软宣布进一步升级在华商业应用战略,落地一系列智能商业应用(Biz App)功能的同时,以Dynamics 365和Power Platform为基础,进一步完善商业应用战略与价值定位,助力更多客户和合作…

使用Databricks进行零售业需求预测的应用实践

简介:本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。 作者:李锦桂 阿里云开源大数据平台开发工程师 本文从零售业需求预测痛点、商店商品模型…

龙蜥开源内核追踪利器 Surftrace:协议包解析效率提升 10 倍 | 龙蜥技术

简介:如何将网络报文与内核协议栈清晰关联起来精准追踪到关注的报文行进路径呢? 文/系统运维 SIG Surftrace 是由系统运维 SIG 推出的一个 ftrace 封装器和开发编译平台,让用户既能基于 libbpf 快速构建工程进行开发,也能作为 ft…

开源要正式写进法律了?

作者 | 何苗 出品 | CSDN(ID:CSDNnews)去年,当大家还在为开源的快速发展而欢呼之际,影响了全球数百万台计算机Log4j 漏洞事件给开源软件开发者与使用者敲响了一记警钟。因而今年,开源软件及其供应链安全…

阿里云软著申请|这项保护,让我得到了10万赔偿

简介:对于企业来说,申请软件著作权是证明自己和保护自己的强力护盾。除此之外,它还有着很多不可忽视的意义与价值。阿里云软著申请,一站式智能服务,助力企业和开发者高效发展,省时省力更省心。 前几日&…

宜搭小技巧|海量数据管理难?这招帮你事半功倍

简介:一键生成数据管理页,海量数据随心管理! 话接上回,宜小搭组织大家团建,当收集完大家的报名信息后,有小伙伴想要修改已提交的信息,面对海量的数据,整理查找太费时间。 如何快速…

1024 程序员节官方剧透:重磅大咖再聚,共话中国技术新生态

在二进制垒起的计算机世界里,1024 对于程序员而言,早已不再是单纯的一串数字,不断演进的开发时代赋予了它特殊的意义。 伴随着一份份热衷与期盼,10 月 22-24 日,由湖南湘江新区管委会主办,长沙工业与信息化…

前端性能优化实战

简介:引用彼得德鲁克的一句话,“You cant manage what you cant measure。一件事如果你无法衡量它、你就无法管理它”,性能同样如此。如果没有一个准确的方案来对性能进行度量,那优化就无从谈起。那么对于我们来说,哪些…

Elastic与阿里云助力汽车及出行产业数字化转型

简介:目前,阿里云和Elastic在全国已经有很多的项目正在开展合作,而在移动出行领域与享道出行的合作案例,则是代表性的。 在汽车产业变革逐步深入的当下,云计算、大数据等信息技术成为了汽车企业经历数字化转型时的“刚…

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

简介:本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。 前提条件 已注册阿里云账号,详情请参见阿里云…

解决微服务架构下流量有损问题的实践和探索

简介:绝⼤多数的软件应⽤⽣产安全事故发⽣在应⽤上下线发布阶段,尽管通过遵守业界约定俗成的可灰度、可观测和可滚回的安全⽣产三板斧,可以最⼤限度的规避发布过程中由于应⽤⾃身代码问题对⽤户造成的影响。但对于⾼并发⼤流量情况下的短时间…

5月25日,阿里云开源 PolarDB-X 将迎来升级发布

简介:2022年5月25日,阿里云开源 PolarDB-X 将升级发布新版本!PolarDB-X 从 2009 年开始服务于阿里巴巴电商核心系统, 2015 年开始对外提供商业化服务,并于 2021 年正式开源。本次发布会将重磅推出在稳定性、生态融合以…

技术分享丨云企业网CEN2.技术揭晓

简介:随着企业数字化转型的加速,越来越多的企业选择了将业务部署在云上,这其中有超过20%的企业有全球组网的需求,这就使得云上网络的规模越来越大,复杂度也越来越高,为了应对这些变化,阿里云推出…

MAE 自监督算法介绍和基于 EasyCV 的复现

简介:自监督学习(Self-Supervised Learning)能利用大量无标注的数据进行表征学习,然后在特定下游任务上对参数进行微调。通过这样的方式,能够在较少有标注数据上取得优于有监督学习方法的精度。近年来,自监…

企业实践|分布式系统可观测性之应用业务指标监控

简介:本文主要讲述如何建立应用业务指标Metrics监控和如何实现精准告警。Metrics 可以翻译为度量或者指标,指的是对于一些关键信息以可聚合的、数值的形式做定期统计,并绘制出各种趋势图表。透过它,我们可以观察系统的状态与趋势。…

1024 程序员节城市嘉年华,共话技术生涯的一万种可能!

更硬核的技术峰会,更多元的主题论坛,更丰富的科技元素……更热血的 1024 程序员节闪亮登场!由湖南湘江新区管委会主办,长沙工业与信息化局、长沙信息产业园管委会与 CSDN 联合承办的第三届 2022 1024 程序员节将于 10 月 22 - 24 …

作业帮在线业务 Kubernetes Serverless 虚拟节点大规模应用实践

简介:目前方案已经成熟,高峰期已有近万核规模的核心链路在线业务运行在基于阿里云 ACKECI 的 Kubernetes Serverless 虚拟节点。随着业务的放量,未来运行在 Serverless 虚拟节点上的服务规模会进一步扩大,将节省大量的资源成本。 …