治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布

简介: 10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖、湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力。

b4c9779b358f8c59923ae2802aa9d8b7.jpeg

阿里巴巴集团副总裁 阿里云智能计算平台事业部高级研究员贾扬清现场分享

“当数据量变得越来越大,单位数据的价值会变得越来越小,全链路数据治理让数据从低质低效向高质高效流动。”

阿里巴巴集团副总裁,阿里云智能计算平台事业部高级研究员贾扬清在现场表示。黄河泥沙的淤积使河床不断抬高,形成了河高于地平面的“地上悬河”,在河南开封,最高的悬河达到10米,并且河床每年都会以10厘米的速度增高,而随之而来的,两边的堤坝也在不断地增高。在企业的数字化转型中,数据量变得越来越大,机器变得越来越多,团队变得越来越大,数字化转型真的变得越来越好吗?对于企业来说,表象的繁荣不代表未来不会发生一场“洪水”。在阿里巴巴,双11已经成为了日常,2021年大数据计算服务MaxCompute的日常数据处理的水位线已经超过2020年双11的峰值,不断增长的数据量已经造成了极大的成本与效率的压力。

机器的效率+人的效率=数据的效率

面对每年如此膨胀的数据,阿里巴巴的解法是通过大数据+AI一体化平台的能力,让数据效率成为企业的核心指标。在机器的效率层面,MaxCompute作为离线数仓,单日数据处理量已经达到1.7EB,但是除了数据量,更应该关注的是MaxCompute仅用10%的机器增长,就支撑了75%的数据量增长。这里面是MaxCompute在底层的存储和性能不断地追求极致的优化,并且连续5年打破TPCx-BigBench 100TB规模性能世界记录。同时Hologres作为实时数仓,峰值每秒写入5.96亿条,单表存储高达2.5PB,基于万亿级数据对外提供多维分析和服务,99.99%的查询可以在80ms以内返回结果。Hologres与MaxCompute组成离线、实时、分析、服务一体化的数据仓库,从底层就极大地简化了大数据架构的复杂度。机器层面的效率往往容易被衡量,但是人的效率却很难被量化。DataWorks从2009年开始成为阿里巴巴集团统一的大数据开发治理平台完成阿里巴巴数据中台的搭建。对一个平台的完善性与易用性,用户往往会用脚投票。目前在DataWorks上构建的大规模协同数据中台的每日活跃用户数已经超过5万,平均每3个阿里巴巴员工就有1个在使用DataWorks,服务阿里巴巴内部几乎所有部门,沉淀的全链路数据治理核心能力超过数百项。FY2020,阿里巴巴通过数据治理的综合收益超过10亿元,可以说大数据开发治理平台DataWorks与计算引擎MaxCompute、Hologres组成了大数据架构下的“Wintel联盟”,共同提高企业数据的效率。

image.png

建设经验:从小作坊到大平台到敏捷制造

数据治理也好、数据中台也好,从来也不是一个从象牙塔里想出来的产品,而是经过很多年磨出来的。阿里巴巴的数字化转型也经历过刀耕火种的年代,每个业务团队维护多套Hadoop集群,像一个个小作坊:有什么用什么,需要什么加什么,各种技术组件像搭积木一样逐渐堆砌起来。而在这个过程中,经常会非常痛苦,平台发布了一个新的功能,不知道什么原因把另一个组件搞挂了,然后技术人员花很长时间去排查另一个组件有什么问题,修复了一个组件,发布了一下,又把另一个搞挂了,问题不断冒出就像“按下葫芦浮起瓢”,好像永远没有尽头。于是,阿里巴巴开始轰轰烈烈的平台统一计划,搭建起了大平台,把开源的架构改成自研的架构,数据逐渐都迁移到MaxCompute。这个时候数据中台的概念也开始在集团内推广,逐渐将3个ONE的数据中台方法论落地到DataWorks,完成了阿里巴巴整个数据中台的搭建。至此,从核心的电商天猫淘宝,到饿了么、优酷、盒马等各个业务团队都在同一套大平台上进行一站式的协同数据开发。但是随着大平台的普及,使用的人数越来越多,数据的治理也会越变得更加复杂。在不断产生成千上万张表中,企业无法知道有多少条不规范的语句像白蚁一样正在消耗大量的计算资源;有多少张表正在重复地被复制,制造表象的“数据繁荣”;有多少脏数据在不断生产污染数据的质量;有多少张表正在被不断申请权限使用,面临数据安全的风险。这些问题都对大平台提出了严峻的挑战。于是,大平台逐渐往敏捷制造不断演进,通过全链路的数据治理能力,以全局的视角进行管控,并同时实现数据的决策的下放。

image.png

DataWorks全链路数据治理新品发布

2021云栖大会全链路数据治理峰会,DataWorks在十二年积累的数百项数据开发治理能力之上,重磅发布全链路数据治理系列新品。

数据治理中心

数据治理对于企业的大数据团队,不单是一个技术问题,更是组织和管理问题。对于整个组织来说,如何来衡量数据治理最终的效果?如何更好地发挥组织的主动性?在一些企业当中,会成立了专门的数据委员会,制定一些数据治理的规范,但是发现平台并不能很好地支持这些规范,又或者说企业购买了一个数据平台,但是却不知道如何通过平台来完成数据治理的工作。在阿里巴巴内部经常会参考一个健康分的概念,从组织设计上,数据委员会下面有平台团队,业务团队,以及风控、财务等协同团队。那对于某个业务团队来说,会制定一个今年的目标比如说把健康分从80分提升为90分,从计算、存储等方面入手,不单从业务侧、生产侧开展治理优化工作,有需求也会提给数据平台团队,对引擎和数据平台产品进行优化演进,大家一起朝这个目标努力。组织有了可测量的方式,这些部门就可以把这些数字放到自己的目标里去。同时各类的数据治理战役,各个团队的比武等等长效的运营工作,也可以通过健康分做不断地延展,达到组织数据协同的目的,发挥数据治理组织的主动性。

image.png

DataWorks全新发布的数据治理中心,针对企业计算、存储、研发、质量、安全五个方面形成企业数据治理健康分,以问题驱动的理念,覆盖事前、事中、事后的全链路主动式数据治理数据治理健康度评估企业的数据治理不再一个 “阶段性项目”,而是一个“可持续的运营项目”。

image.png

智能数据建模

企业建了一个平台,做了很多规范治理,对于业务人员的价值到底是什么?省了多少成本,治理了多少问题,对于业务人员相对是无感的。业务方只希望更快地拿到想要的数据,于是原先的数据仓库建设方式更多的是自底向上小步快跑,快速满足需求为先。而如今的全链路数据治理,让数据仓库的建设向规范化,可持续发展方向演进,强调面向业务视角自顶向下进行规范建模与面向开发视角自底向上构建数仓双管齐下。

image.png

DataWorks全新发布智能数据建模,沉淀阿里巴巴数据中台建设方法论,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据业务进行诠释。智能数据建模支持快速数据建模,包含正向建模与逆向建模,提供分钟级的模型创建能力。同时打通数据开发,可以直接将数据模型发布到多个引擎,一键生成质量规则,直接发布表并自动生成ETL简代码。企业的业务人员可以方便地了解数据全貌,快速获取所需的数据指标以及基于数据模型进行数据分析和探查,企业内所有的员⼯可以实现“数同⽂”的快速理解与流通,让数据决策可以实现真正有效的下放!

image.png

盒马鲜生通过DataWorks智能数据建模落地新零售行业数据模型Rex-LDM

同时,现场还发布了DataWorks数据集成实时同步能力、智能数据查询、隐私安全计算、DataWorks开放平台、数据作业迁云工具与迁云专家服务等多项功能。

image.png

中国信通院在2021年9月发布的《全球数字经济白皮书》报道,去年我国的数字经济规模已经达到5.4万亿美元,占比GDP近1/3。在数字经济时代,数据已经成为关键生产要素,就像在农业经济时代和工业经济时代中,土地、劳动力是关键的生产要素。DataWorks通过智能数据建模、全域数据集成、高效数据生产、主动数据管理、全面数据安全、快速数据服务六大全链路数据治理的能力,承载千行百业数字化转型的可能。目前,DataWorks已经在数字政府、新金融、新零售、能源、工业、交通、游戏、教育、数字营销等行业落地数千家客户。

国家电网大数据中心通过DataWorks实现总部+27家省(市)公司PB级数据的统一管理,通过全链路数据中台的治理与监测运营体系,加快电网整体数字化转型升级。

创梦天地基于开源的EMR引擎,用DataWorks替换自研调度系统,企业内部的技术人员可以更加专注业务,助力游戏行业的数据化运营。

亿滋中国通过DataWorks智能数据建模进行全链路的数据模型治理,极大提升数据中台的自服务能⼒,让企业数据决策实现下放,释放新零售的数字化力量。

image.png

企业数字化转型正在进入的深水区,“数据悬河”将逐渐成为企业的“达摩克斯之剑”,阿里云正在与各行各业的客户与合作伙伴一起,通过全链路数据治理,管得好数据、用得好数据,让数据向先进生产力集聚!

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512099.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

函数式编程的Java编码实践:利用惰性写出高性能且抽象的代码

简介: 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所以读者不需要任何函数式编程的基础,只需要对 Java 8 有些许了解即可。 作者 | 悬衡 来源 | 阿里技术公众号 本文会以惰性加载为例一步步介绍函数式编程中各种概念,所…

WorkManager从入门到实践,有这一篇就够了

作者 | Eason来源 | 程序员巴士前言一般情况下,我们大部分的操作都是在app打开的时候进行的,但是在某些情况下,即使app关闭了,我们也可能需要执行必要的动作,或者会采取一个动作,而不是让用户等待加载&…

终端卡顿优化的全记录

简介: 目前手机SOC的性能越来越少,很多程序员在终端程序的开发过程中也不太注意性能方面的优化,尤其是不注意对齐和分支优化,但是这两种问题一旦出现所引发的问题,是非常非常隐蔽难查的,不过好在项目中用到…

brew安装指定版本mysql,Mac 系统为 Valet 开发环境安装指定版本 MySQL

Mac 系统为 Valet 开发环境安装指定版本 MySQL由 学院君 创建于1年前, 最后更新于 5个月前版本号 #31547 views1 likes0 collects在 Mac 系统下使用 Valet 作为 Laravel 本地开发环境的话,需要自行安装 MySQL 数据库,我们通过 Homebrew 来安装。如果之前…

系统架构面临的三大挑战,看 Kubernetes 监控如何解决?

简介: 随着 Kubernetes 的不断实践落地,我们经常会遇到负载均衡、集群调度、水平扩展等问题。归根到底,这些问题背后都暴露出流量分布不均的问题。那么,我们该如何发现资源使用,解决流量分布不均问题呢?今天…

JavaScript 数组你都掰扯不明白,还敢说精通 JavaScript ?| 赠书

作者 | 哪吒来源 | CSDN博客最近小编在看文章的时候,总有很多刚刚入门的小白说精通这个,精通那个技术,更有意思的是,最近看到一则简历上说精通 JavaScript ,聊一聊发现数组还不明白,就对外说精通~所以今天小…

基于消息队列 RocketMQ 的大型分布式应用上云实践

简介: Apache RocketMQ 作为阿里巴巴开源的支撑万亿级数据洪峰的分布式消息中间件,在众多行业广泛应用。在选型过程中,开发者一定会关注开源版与商业版的业务价值对比。 那么,今天就围绕着商业版本的消息队列 RocketMQ和开源版本 …

Gartner发布2022年政府行业主要技术趋势:XaaS、数字化、超自动化等

作者 | Gartner研究副总裁 Bettina Tratz-Ryan Gartner杰出研究副总裁John Kost Gartner高级研究总监 相斌斌 供稿 | Gartner 政府领导人和民选官员在2022年不仅要面对巨大的挑战,还要把握疫情与经济复苏应对措施、不断变化的政治需求和持续数字化变革所带来的机遇…

RedShift到MaxCompute迁移实践指导

简介: 本文主要介绍Amazon Redshift如何迁移到MaxCompute,主要从语法对比和数据迁移两方面介绍,由于Amazon Redshift和MaxCompute存在语法差异,这篇文章讲解了一下语法差异 1.概要 本文档详细介绍了Redshift和MaxCompute之间SQL…

数字农业WMS库存操作重构及思考

简介: 数字农业库存管理系统在2020年时,部门对产地仓生鲜水果生产加工数字化的背景下应运而生。项目一期的数农WMS中的各类库存操作均为单独编写。而伴随着后续的不断迭代,这些库存操作间慢慢积累了大量的共性逻辑:如参数校验、幂…

数字营销行业大数据平台云原生升级实战

简介: 加和科技CTO 王可攀:技术是为业务价值而服务 王可攀 加和科技CTO 本文将基于加和科技大数据平台升级过程中面临的问题和挑战、如何调整数据平台架构以及调整后的变化,为大家介绍数字营销行业大数据平台云原生升级实战经验。主要分为以…

场景模型驱动自动化测试在盒马的探索及实践

简介: 盒马业务有如下几个特点:线上线下一体化、仓储配送一体化、超市餐饮一体化、经营作业一体化、多业态与平台化。在以上的种种原因,生鲜及物流体验是盒马的特点,但仓储配送一体化作业中,如何能更高效的提升测试效率…

基于 KubeVela 的 GitOps 交付

简介: KubeVela 是一个简单、易用、且高可扩展的云原生应用管理和交付平台,KubeVela 背后的 OAM 模型天然解决了应用构建过程中对复杂资源的组合、编排等管理问题,同时也将后期的运维策略模型化,这意味着 KubeVela 可以结合 GitOp…

BCS2022大会将提前至5月 网络安全产业空间扩容将成热门话题

年度网络安全的盛会即将开启。 2022年3月30日,2022年北京网络安全大会(BCS2022)新闻发布会在北京奇安信安全中心召开,宣布2022年北京网络安全大会“提档”至5月24日至26日,并与北辰集团国家会议中心达成战略合作&#…

基于 Istio 的全链路灰度方案探索和实践

简介: 本文介绍的基于“流量打标”和“按标路由” 能力是一个通用方案,基于此可以较好地解决测试环境治理、线上全链路灰度发布等相关问题,基于服务网格技术做到与开发语言无关。同时,该方案适应于不同的7层协议,当前已…

图像检索在高德地图POI数据生产中的应用

简介: 高德通过自有海量的图像源,来保证现实世界的每一个新增的POI及时制作成数据。在较短时间间隔内(小于月度),同一个地方的POI 的变化量是很低的。 作者 | 灵笼、怀迩 来源 | 阿里技术公众号 一 背景 POI 是 Poin…

Redis HyperLogLog 是什么?这些场景使用它~

作者 | 就是码哥呀来源 | 码哥字节在移动互联网的业务场景中,数据量很大,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时对这个数据集合做统计。统计一个 APP 的日活、月活数;统计一个页面的每天被多少个不…

matlab三角形分割,MATLAB 2014b及以上版本中带有画家渲染器的三角形拆分补丁

在解决实际问题之前,这是一个值得怀疑的解决方法:对角线只是三角形之间的空白区域,所以我们看到的是补丁后面的白色空间.愚蠢的想法:让我们用匹配的颜色填充该空间而不是白色.为此,我们将复制所有对象,并通过一个tiiiiny位来抵消新对象.码:hi…

网易云音乐音视频算法的 Serverless 探索之路

简介: 网易云音乐最初的音视频技术大多都应用在曲库的数据处理上,基于音视频算法服务化的经验,云音乐曲库团队与音视频算法团队一起协作,一起共建了网易云音乐音视频算法处理平台,为整个云音乐提供统一的音视频算法处理…

小小的 likely 背后却大有玄机!

作者 | 张彦飞allen来源 | 开发内功修炼今天我给大家分享一个内核中常用的提升性能的小技巧。理解了它对你一定大有好处。在内核中很多地方都充斥着 likely、unlikely 这一对儿函数的使用。随便揪两处,比如在 TCP 连接建立的过程中的这两个函数。//file: net/ipv4/t…