数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进

简介: 企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。 第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。

企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。

第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。

img1.jpg

值得一提的是, 诞生于2009年阿里巴巴集团内部的DataWorks,不仅见证了阿里巴巴十多年大数据几次蜕变发展,更是阿里巴巴数据中台建设的最佳实践之一。如今 DataWorks平台可以支撑阿里巴巴内部上百个业务团队的数据业务建设,每天稳定调度上千万数据处理任务。阿里巴巴每天有超过5万名员工在DataWorks上完成数据分析、数据开发和数据治理工作。

那么,DataWorks如何让大数据向 “敏捷制造” 演进,背后具备什么样的核心能力?在全链路数据服务—大数据与AI分论坛,DataWorks产品负责人黄博远透露了DataWorks核心的三个“ONE”能力。

简单来讲,DataWorks以一站式的理念,通过一条数据开发链路,一套数据标准架构,一套数据治理体系,与大数据计算引擎结合,让企业拥有一站式的数据开发与治理能力。

img2.jpg

1、一条数据开发链路

很多的企业发展到一定阶段以后都会面临这种情况:
1)数据来自于不同地域的数据中心,比如阿里云上有公共云、专有云,对于企业来讲也有自己的私域,同时又要服务企业外部的客户与合作伙伴,数据非常分散。

2)大数据的引擎百花齐放,选择多样。不管是阿里自研的SaaS模式云数据仓库MaxCompute、交互式分析Hologres和分析型数据库AnalyticDB,还是开源的EMR、CDH、Flink、Elasticsearch等等,种类极为丰富,我们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。

3)数据与AI及应用如何更好地结合?大数据加工处理完的数据还需要结合AI算法,以服务化的方式给到数据应用,如何实现BI与AI一体化,释放数据价值。

img3.png

针对以上痛点,DataWorks可以帮助企业实现数据集成、数据开发、数据治理和数据服务,将大数据全生命周期管理整合到一条完整链路中。

首先满足企业在复杂网络条件下,DataWorks实现近50种异构数据源的离线/实时的同步,让企业更好地迈出大数据建设的“第一步”。其次,它的底层对接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时计算Flink版等大数据引擎,让多种计算引擎的数据开发治理工作都可以在同一个平台一站式的完成。最后,大数据平台加工好的数据集可以无缝对接到机器学习平台中进行AI训练与在线预测服务,也可以通过数据服务以API方式给到BI、大屏等各类数据应用。

2、一套数据标准架构

对于企业而言,数据绝不是简单地堆积在一起,阿里巴巴通过数据中台建设,规范了集团统一的数据标准架构,将数据进行清晰的结构分层,每一层又有明确的范围与边界。在贴源层,企业将完成全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据标准、数据建模等方式确立数据的规范体系。在汇总层,企业将基于业务需求对数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务应用构建数据集市,为应用提供源源不断的高质量数据服务。这一套架构本身不具备产品化能力,但企业可以基于DataWorks,快速复制这套数据标准架构。

3、一套数据治理体系

企业如何管理数据资产?如何保障数据质量?如何保障数据安全?如何有效地控制成本以及减少不必要浪费?这些问题都对数据治理提出了更高的要求。正常来讲,各类数据治理工作通过人工的方式其实也能够完成,但是阿里巴巴现在每天处理的数据超过1.7EB,每天调度的任务数在千万级,很难想象靠人工来完成所有的治理工作。DataWorks将阿里巴巴十多年数据治理的实践沉淀成产品化能力,完整覆盖模型设计、数据质量管理、元数据管理、安全管理等贯穿数据加工处理和使用的全链路所需的治理能力。一个平台,就具备一套完整的体系化的能力。

img4.jpg

在分论坛现场,DataWorks全新发布数据建模产品,让企业从业务视角进行数仓规划、数据标准定义、维度建模和数据指标设计,用规范化的“图纸”指导大数据“建设”工作,提升企业数据中台建设的规范性和标准性,大大降低企业数据中台建设门槛和成本。同时DataWorks将持续加大与生态伙伴合作,推出具备不同行业属性和不同建模方法的数据建模类产品,以支撑不同行业不同场景的数仓模型设计。DataWorks数据建模产品将于2021年7月开启公测,届时欢迎大家在阿里云官网搜索“DataWorks”开通体验。

img5.jpg

除了数据建模外,DataWorks覆盖了数据同步、元数据、数据资产、数据质量、数据地图、任务运维、数据安全、数据分析、数据服务等数据全生命周期的治理能力。

事实上,DataWorks已经应用到各行各业的数字化转型中。在工业行业,DataWorks帮助三一重工打通86个核心业务系统,处理每月50PB的各类图像、视频、物联网数据,建设业内场景最全的数据中台。在能源行业,DataWorks帮助企业建立10余种数据中台运营规范,完成四大场景50+指标产出,规范数据治理流程,提升数据可用率。在钢铁行业,DataWorks让数据在数据中台进行自由流动,保证数据准确、准时、一致,让企业综合成本削减1亿元。在互联网行业,得物APP通过DataWorks OpenAPI构建全链路数据血缘,自主研发全链路解析能力,下线2万张表与近千个计算任务,让企业成本降低20%。

未来企业的数字化转型将对数据的治理与分析提出更高的要求,DataWorks将帮助企业快速构建数据中台,通过全链路的数据治理提供高质量的数据底座,让数据的“敏捷制造”成为企业数字化的“敏捷转型”。

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513270.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全新的 Fragment 通信方式

作者 | tech-bus.丹卿来源 | 程序员巴士前言就在前段时间,Google 推出了 Fragment Result API 和 Activity Results API,用来取代之前的 Activity 和 Fragment 之间通信方式的不足,大家可以前往看看都有哪些更新:https://medium.c…

数据传输完整性_电缆监测数据传输系统分析与设计

电缆线路是重要的输电方式,对电缆线路进行监测是保证电缆线路正常工作的重要的条件,研究人员利用嵌入式系统设计了电缆监测数据传输系统。该系统以CAN通信和嵌入式以太网络技术为核心,实现了对电缆及其沟道的实时监测、状态显示及预报警功能&…

大型企业多账号管理“安全心法”

简介: 云上多账号环境下的网络统一管理,是大型分支型企业网络安全防护的必经之路。无论是外企入华、国内企业出海,还是本土集团型企业规模化成长,云上统一网络安全管控与整体安全态势感知,都可以拉齐企业账号间安全水位…

苹果将于 2025 年推出的 Apple Car 长什么样?

整理 | 孙胜出品 | CSDN(ID:CSDNnews)据国外媒体报道,苹果公司预计将于2025年推出一款全新的自动驾驶汽车,旨在实现真正意义上的无人驾驶。报道称,基于自动驾驶的理念,苹果理想的汽车没有方向盘…

阿里云中间件首席架构师李小平:云原生实践助力企业高效创新

简介: 通过云原生技术,真正为企业带来更多的业务价值,助力企业整体的业务创新。 作者:李小平 前天我参加了信通院的云原生产业大会,在会场上非常感慨,参加会议的企业非常多,并且来自于各行各业…

cv曲线面积的意义_几何直觉的魅力:sinx曲线下的面积原理是如此的美妙

用“曲线下的面积”来描述积分,就像用一串单词来描述一本书。正弦函数的积分是其曲线下的面积。几何直觉就是:“正弦的积分是沿圆周路径的水平距离。”这句话第一次听说感觉比较抽象,当你理解了就会觉得它非常的美妙一般的思维模式求正弦函数的积分就是&…

OpenInfra 十一年:OpenStack 部署规模超 2500 万计算核心

后疫情时代下,产生海量在线需求,越来越多金融、政府、教育、通信和医疗保健等上云业务需依赖现代云基础设施来正常运行。其中开源提供了一种更具成本效益的开发方式,据最新《2021 年度 Octoverse 报告》显示,2021 年 GitHub 开发者…

集群镜像:实现高效的分布式应用交付

简介: Docker 解决了单个容器的镜像化问题,而 sealer 通过把整个集群打包,实现了分布式软件的 Build Share Run。 作者 | fanux.中弈 什么是集群镜像 顾名思义,和操作系统 .iso 镜像或 Docker 镜像类似,集群镜像是用一…

比开源快30倍的自研SQL Parser设计与实践

简介: SQL作为一种领域语言,最早用于关系型数据库,方便管理结构化数据;SQL由多种不同的类型的语言组成,包括数据定义语言,数据控制语言、数据操作语言;各数据库产品都有不同的声明和实现&#x…

SLS控制台内嵌操作指南

简介: SLS控制台内嵌操作指南 一、机制 详见:https://help.aliyun.com/document_detail/74971.html 二、操作 2.1 子账号操作(主账号身份操作) 登陆ram控制台,创建子账号。给子账号授予AliyunSTSAssumeRoleAccess权…

装linux服务器进去配置界面,在CentOS 8 Linux上安装和配置SuiteCRM的步骤

本文介绍在CentOS 8 Linux服务器上安装和配置SuiteCRM的详细步骤:更新系统、安装PHP、安装MariaDB和Nginx Web服务器、安装SuiteCRM、配置SuiteCRM Web访问界面。SuiteCRM是由SalesAgility团队开发和维护的开源企业级CRM应用程序,该产品最初是SugarCRM社…

Dev Lake 0.4.0 版本:开源、开放的研发效能数据平台

建设研发工具链后,效能提升如何更进一步? 工程师们反馈流程体验确实有所提升,和业务同事的沟通似乎也愉快了一些——但研发团队依然需要量化数据作为抓手,一方面佐证先前实践优化的有效性,另一方面为持续的效能提升寻找…

tensorflow图形识别_手把手教你使用TF服务将TensorFlow模型部署到生产环境

摘要: 训练好的模型不知道如何布置到生产环境?快来学习一下吧!介绍将机器学习(ML)模型应用于生产环境已成为一个火热的的话题,许多框架提供了旨在解决此问题的不同解决方案。为解决这一问题,谷歌发布了TensorFlow(TF)服务&#xf…

一文读懂 - 云上用户如何灵活应用定制化网络服务

简介: 在将传统数据中心业务迁移上云的过程中,如何将云下基于不同业务场景和设备角色灵活变化的网络配置基于云上网络统一服务能力进行转换,用户及其业务架构通常会面临诸多的挑战。阿里云混合云网络技术团队和阿里云网络产品团队自主创新研发…

linux bash环境,Win10系统怎样启用Linux Bash环境

不久前,微软召开了Build 2016大会,会上微软宣布将在Windows10系统中内置Linux Bash,这一消息引起了非常大的轰动。到了Windows10内部预览版Build 14316,该特性终于面世了。系统城小编将在本文为大家详细介绍下Windows10启用Linux …

云上安全保护伞--SLS威胁情报集成实战

简介: 威胁情报是某种基于证据的知识,包括上下文、机制、标示、含义和能够执行的建议。 什么是威胁情报 根据Gartner对威胁情报的定义,威胁情报是某种基于证据的知识,包括上下文、机制、标示、含义和能够执行的建议。威胁情报描…

数据备份资深老牌厂商 Commvault 的新玩法

作者 | 宋慧 出品 | CSDN 云计算 头图 | 付费下载于视觉中国 已经连续十年,被权威分析机构 Gartner 企业备份与恢复软件魔力象限评为领导者(leaders)的 Commvault,在数据备份和恢复领域的技术实力和优势毋庸置疑。不过&#xf…

docker 远程连接 文件看不到_pycharm连接远程linux服务器的docker

在我们利用远程服务器部署的docker调试深度学习模型时,需要将代码传来传去,很不方便。这里我们介绍pycharm连接远程服务器docker的方法。首先我们启动一个新的pytorch容器,命令如下。关于此步骤更详细的说明,参见ubuntudocker使用…

「技术人生」第4篇:技术、业务、组织的一般规律及应对策略

简介: 本文讨论了如何让技术一号位能够从理论上、以宏观的视角看清日常工作息息相关的事物的发展规律,从而为顺应规律办事或者创造条件打破规律提供理论依据。 往期技术一号位方法论系列文章: 「技术人生」第1篇:什么是技术一号位…

python贴吧顶贴_Python实现百度贴吧自动顶贴机

开发这款小工具,我们需要做一些准备: url.txt:多个需要顶起的帖子地址。 reply:多条随机回复的内容。 selenium:浏览器自动化测试框架 首先,我们先使用pip完成selenium的安装。 示例代码: pip i…