DataWorks概述

文章目录

  • 一、DataWorks概况
    • 1.1 定义
    • 1.2 功能
    • 1.3 与MaxCompute的关系
  • 二、基于DataWorks与MaxCompute构建云数仓
  • 一站式大数据开发治理DataWorks学习
  • DataWorks 是什么?
      • 产品定位
      • 产品受众
      • 核心能力
  • 数据治理的概念、需求层次和目标
      • 对于数据治理概念的一些基本理解
      • 数据治理的需求层次
      • 数据治理的目标
      • 数据治理概要总结

一、DataWorks概况

1.1 定义

DataWorks 是基于MaxCompute计算引擎的一站式开发工场,帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。

1.2 功能

1.数据集成

能够支持多种异构数据源之间数据高速稳定的数据移动及数据同步。

2.可视化数据开发

帮助用户获得更加清晰的开发逻辑,SQL智能编辑器能够带来更人性化的开发体验,可视化开发界面,简单易上手。

3.强大调度功能

支持根据时间、依赖关系,进行任务触发的机制;

支持每日千万级别的任务,根据DAG关系准确、准时地运行;

支持分钟、小时、天、周和月多种调度周期配置。

4.数据服务

帮助用户实现数据API快速生成和注册服务。

5.可视化运维

提供上下游关系梳理、运行日志、补数据等完善的任务运维。

6.数据资产管理

包括元数据管理、数据血缘、数据资产大图等。

7.数据质量

数据质量探查、监控、校验和评分体系。

8.数据安全

数据权限管理,数据的分级达标、脱敏、以及数据的审计。

1.3 与MaxCompute的关系

DataWorks就是基于MaxCompute的PaaS平台,可以简单理解为DataWorks是一个web形式的开发管理工具,而MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色。我们可以通过DataWorks来用MaxCompute。

MaxCompute 和DataWorks一起向用户提供完善的ETL和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速地解决用户海量数据计算问题,有效降低企业成本,保障数据安全。

img

Maxcompute中的盘古就相当于Hadoop中的HDFS;

Maxcompute中伏羲就相当于Hadoop中的Yarn;

Maxcompute中MaxCompute Engine 就相当于Hadoop中的MapReduce。

二、基于DataWorks与MaxCompute构建云数仓

img

数据采集:DataX、DataHub、RDS

数据存储与计算:MaxCompute、DataWorks

数据可视化: QuickBI

一站式大数据开发治理DataWorks学习

大数据开发治理平台 DataWorks产品文档
大数据开发治理平台 DataWorks体验馆
一站式大数据开发治理DataWorks使用宝典
一站式大数据开发治理DataWorks学习路径
实验:全链路数据治理
实践:基于DataWorks的大数据一站式开发及数据治理


img

DataWorks 是什么?

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。

img

DataWorks 业务构架

产品定位

DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据传输、数据计算、数据治理、数据分享的各类复杂组合场景的能力。

同时,DataWorks持续打造符合企业级数仓、数据中台构建要求的功能模块,为企业业务的数字化转型提供支持。

产品受众

从事数据开发、算法开发等岗位的技术人员
从事销售运营、商业智能分析等岗位的业务人员
从事数据安全与合规工作的管理人员
从事数据应用开发的开发人员
把控公司核心数据资产的管理人员

核心能力

基于DataWorks,您可以获得如下能力:

  • 数据集成:复杂网络环境、丰富数据源之间的数据传输与上云。
  • 数据开发:在线批处理、流处理和机器学习等多引擎任务开发,构建复杂的调度依赖,提供开发、生产环境隔离的研发模式。
  • 实时分析(仅公共云):提供基于电子表格的快速、灵活的即时查询。
  • 数据服务:零代码快速生成Serverless化的API。
  • 数据质量:通过表级别、字段级别监控规则定义,第一时间感知脏数据。
  • 智能监控:一键实现复杂工作流的全链路监控报警配置。
  • 数据地图(公共云)/数据管理(专有云):提供强大的数据搜索、数据类目、数据血缘等能力。
  • 数据资产管理(仅专有云):统一管理整个平台的数据表、API等各类数据资产。
  • 数据安全:数据审计、数据脱敏、权限控制等能力。
    应用开发(仅公共云):基于Web端的组件拖拉拽轻松构建数据应用。
  • 工作空间管理(公共云)/平台管理(专有云):从系统层面,为管理者提供对使用DataWorks的用户(成员)权限、DataWorks底层计算引擎配置的管理能力。

总之,使用DataWorks,您不仅可以进行海量数据的离线加工分析,还能完成数据的汇聚集成、开发、生产调度与运维、离线与实时分析、数据质量治理与资产管理、安全审计、数据共享与服务、机器学习、应用搭建等覆盖大数据全生命周期的最佳实践。让数据从采集到展现、从分析到驱动应用得以一站式解决,真正实现数据业务化、业务数据化。


数据治理的概念、需求层次和目标

对于数据治理概念的一些基本理解

当我们在谈论数据治理时,经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时,参考的主要也是数据管理领域内的三大理论依据:第一个是数据管理协会知识体系,也就是大家熟知的DAMA、DMBOK2;第二个是DCMM数据管理能力成熟度评估;第三个是信通院的数据资产管理实践白皮书。

img

数据治理概念

从左右这两张图对比可以看出,DMBOK和DCMM对于数据管理和数据治理的范围和定义是略微有区别的。DMBOK将数据管理划分为十大职能领域,数据治理位于最中间的位置,用于串联其十大职能领域。而DCMM将数据管理定成八大过程域,数据治理是和数据质量、数据安全并列的过程域之一。显然,业界不同的组织和群体对于数据管理和数据治理概念的理解会存在一些出入。

数据治理的需求层次

DAMS有这样的一个描述:在数据管理过程中,要保证一个组织已经将数据转换成有用的信息,这项工作所需要的流程和工具就是数据治理的工作。这里强调两个概念:第一,数据治理是数据管理的一部分;第二,数据治理的核心是流程和与之配套的工具的保障。DataWorks也是参考了这个定义,聚焦于保障与数据资产化配套的数据治理方面的需求来设计产品能力。当然产品能力建设也是一个逐步的过程,DataWorks的功能也在持续扩展中。
根据数据治理的需求,结合在阿里巴巴内部数据治理的实践过程,以及跟外部许多客户和同行的交流,我们发现企业的数字化转型阶段不同,数据治理方面的核心需求是存在差异的。抽象来看,数据治理的需求可以分为五个层次:第一层是时效性,指的是数据产出的及时性要求; 第二层是质量,数据的质量管控,治理覆盖数据的完备性,正确性,准确性等; 第三层是数据的可用,这里主要强调的是数据的共享使用,易查找,好理解,或可复用;第四层是数据安全方面的要求,比如说数据权限的申请和审批,流程的管控,敏感数据的识别和保护,以及合规性要求;第五层是数据的生产、存储和使用的成本优化控制。

img

五个层次

这五个层次的需求,越下面的需求相对来说越基础,需要优先满足。但随着企业数字化转型过程的加深,上层的需求就会逐步地体现出来。阿里内部也是这样的过程,在十多年前最开始的阶段,阿里优先关注的是数据任务的运行稳定,数据能及时产出,数据是正确的、可用的。当这些需求被很好地满足和保障之后,现阶段阿里内部数据治理最关注的是金字塔顶端的需求,也就是成本的考量。
当然,这五个需求层次,并不是必须逐层演进的。在一个阶段,企业很大可能会同时有不同层次的需求,只是相对而言,它关注的需求重点会有所不同。
这五个需求层级实际上也就定义出了数据治理的一个核心目标,就是企业数字化转型要最大程度地将数据资产化,来挖掘出数据的价值。在这个过程中,要满足产出的及时性,质量可靠,数据易找易用,数据安全可控以及生产经济这五个方面的要求。

数据治理的目标

在数据治理的实施策略上来说,有自下而上和自上而下两种方式。这两种方式相结合的方式在阿里内部实践验证后更行之有效。顶层用来解决全局的数据规划和组织建设,以及制度制定这些问题,为治理提供上层的赋权;而下层聚焦于核心业务流程的梳理、平台工具和运营体系的构建,为数据治理落地提供支撑。

img

数据治理的目标

通过自上而下和自下而上密切的结合,随后循环的演进,来进行数据治理的推动。而数据治理的需求分层,也为数据治理给出了一个启示,我们可以整体去规划数据治理的蓝图,但是需要分阶段去实施。在特定阶段,企业数据治理的诉求重点是有所区别的,建议结合企业的实际情况,关注重点层次的诉求,逐步迭代演进。

数据治理概要总结

一、数据治理是数据管理的一个核心组成部分,是数据管理过程中的流程和工具的一个支撑。
二、企业在数字化转型的不同阶段,对数据治理的需求层次是有区别的,共有五个需求层次。
三、需要一个统一的开发和治理平台来减少重复工作,提高扩展性。
四、数据治理治理的对象是数据和产出数据的任务,DataWorks的核心理念是基于数据来进行数据治理工作,用工具和平台能力服务好使用者,来推动数据治理的落地。
五、平台和引擎的技术演进,尤其是MaxCompute这个底层引擎技术的演进,是数据治理落地的一个催化剂,底层引擎的优化工作,对于成本优化是有着关键性的影响。
六、DataWorks提供了极好的开放性,如果大家有自定义数据治理方面的需求,可以通过DataWorks 的开放API、开放数据和开放消息来获取相应的数据进行自定义治理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/554947.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dataworks的使用——详细说明

一、开通Dataworks (1)百度搜Dataworks,进入如下页面,点击立即开通 (2) 这里要选好自己想要的配置,这里展示我之前的配置 解决方案:选DataWorksMaxCompute组合产品 DataWorks&…

DataWorks快速入门

快速入门 入门概述 说明 如果您是第一次使用DataWorks,请确认已经根据准备工作模块的操作,准备好账号和工作空间角色等内容后,登录DataWorks控制台,单击相应工作空间后的进入数据开发,即可进行数据开发操作。本模块的…

php.amazeui,AmazeUI 导航条的实现示例

拥有易用的导航条对于任何网站都很重要。本文主要介绍了AmazeUI 导航条的实现示例,分享给大家,具体如下:导航条Amaze UI导航切换 首页项目下拉 标题1. 去月球2. 去火星3. 还是回地球4. 下地狱5. 桥头一回首其他 注册随便看看登录....am-topba…

JNDI用法详解

JNDI全称(Java Naming and Directory Interface),是java命名和目录接口。它是一个应用程序设计的API,为开发人员提供了查找和访问各种命名和目录服务的通用、统一的接口,类似JDBC都是构建在抽象层上。 1、命名的概念与应用 JNDI中的命名(Nam…

BigDecimal保留两位小数

文章目录前言1.代码实现2.方法详解注释前言 在项目中经常会用到小数的一些计算,而float和double类型的主要设计目标是为了科学计算和工程计算。他们执行二进制浮点运算,这是为了在广域数值范围上提供较为精确的快速近似计算而精心设计的。然而&#xff…

DataIntegrityViolationException: Error attempting to get column ‘xx‘——DataIntegrityViolationExceptio

一、解决办法 项目中在更新数据库时出现异常,org.springframework.dao.DataIntegrityViolationException,当然如果控制台直接报这个异常问题的解决估计也不至于让我写篇博客。 先说这个异常代表的含义吧: 这个异常的意思就是在更新&#xff…

Java中new Date插入mysql数据库,数据库时间多一秒问题

这是由于new Date()时,实际上是调用的System.currentTimeMillis()方法,即获得以毫秒为级别的时间戳。 一般数据库表的字段类型datetime/timestamp长度都是设置为0。 MySQL数据库对于毫秒大于500的数据进行进位,所以就造成的MySQL中的时间多一…

学php还是golang,学swoole还是golang

Swoole是一个面向生产环境的 PHP 异步网络通信引擎,使 PHP 开发人员可以编写高性能的异步并发 TCP、UDP、Unix Socket、HTTP,WebSocket 服务。 (推荐学习:swoole视频教程)Swoole 可以广泛应用于互联网、移动通信、企业软件、云计算、网络游戏…

java解析vue对象数组,Java数组

Java提供了一个数据结构,所述数组,其存储相同类型的元件的固定大小的连续集合。数组用于存储数据集合,但将数组视为相同类型变量的集合通常更为有用。您可以声明一个数组变量,例如数字和数字[0],数字[1]和...&#xff…

Java中List的subList()方法及使用注意事项

List<Object> list new Arraylist<>();List<Object> subList list.subList(0, 5);其中subList(0, 5)取得的是下标为0到4的元素,不包含下标为5的元素. java.util.List中的subList方法返回列表中指定的 fromIndex&#xff08;包括 &#xff09;和 toIndex&a…

SpringBoot 实现SSE 服务器发送事件

SSE 全称Server Sent Event&#xff0c;直译一下就是服务器发送事件&#xff0c;一般的项目开发中&#xff0c;用到的机会不多&#xff0c;可能很多小伙伴不太清楚这个东西&#xff0c;到底是干啥的&#xff0c;有啥用 本文主要知识点如下&#xff1a; SSE 扫盲&#xff0c;应…

php多表递归查询,使用公用表表达式的递归查询

微软从SQL2005起引入了CTE(Common Table Expression)以强化T-SQL。公用表表达式 (CTE) 具有一个重要的优点&#xff0c;那就是能够引用其自身&#xff0c;从而创建递归 CTE。递归 CTE 是一个重复执行初始 CTE 以返回数据子集直到获取完整结果集的公用表表达式。当某个查询引用递…

Springboot之整合SSE实现消息推送

Springboot之整合SSE实现消息推送 前言 项目中涉及到部分请求&#xff0c;后端处理时间较长&#xff0c;使用常规Http请求&#xff0c;页面等待时间太长&#xff0c;对用户不友好&#xff0c;故考虑使用长链接进行消息推送&#xff0c;可选方案有WebSocket、SSE&#xff0c;We…

Vue中npm run dev 和 npm run serve区别

在运行vue文件时&#xff0c;需要进行npm操作&#xff0c;但我们发现&#xff0c;有时候用的是npm run serve&#xff0c;而有的时候用的是npm run dev&#xff0c;二者有什么区别 在我们运行一些 vue 项目的时候&#xff0c;输入npm run serve或者 npm run dev的其中一个时&a…

SpringBoot导出数据为PDF

一、SpringBoot导出数据为PDF 1、添加所需依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.11</version> </dependency> <dependency><groupId>com.itextpdf.…

php安装mem+cache扩展,安装memcached及php扩展

用的是centos系统1、安装memcachedyum -y install memcached安装完成后&#xff0c;memcached -h应该会出现memcached 参数说明2、memcached配置文件vi /etc/sysconfig/memcachedPORT"11210"USER"memcached"MAXCONN"1024"CACHESIZE"64"…

Springboot集成支付宝沙箱支付(完整版)

开发前准备 easy支付官方文档&#xff1a;https://opendocs.alipay.com/open/009ys9 通用版文档&#xff1a;https://opendocs.alipay.com/open/02np94 支付宝沙箱的配置 注册支付宝开发者账户&#xff0c;进入开发者控制台 https://openhome.alipay.com/platform/developer…

Springboot集成支付宝沙箱支付(退款功能)

包括&#xff1a; 支付宝沙箱 支付 异步通知 退款功能 正式版本的sdk 通用版本SDK文档&#xff1a;https://opendocs.alipay.com/open/02np94 <dependency><groupId>com.alipay.sdk</groupId><artifactId>alipay-sdk-java</artifactId><…

Java递归生成树

1.建菜单表 CREATE TABLE t_menu (id int(11) NOT NULL AUTO_INCREMENT,pid int(11) NOT NULL,name varchar(255) DEFAULT NULL,PRIMARY KEY (id) ) ENGINEInnoDB AUTO_INCREMENT11 DEFAULT CHARSETutf8mb4;2.造一些数据 注意&#xff1a;根节点的pid0&#xff0c;其他节点的p…

Springboot获取公网IP和当前所在城市(非常简单)

最近我们发现各大社交平台都出现了一个新的功能&#xff1a;IP属地。 比如某乎&#xff1a; 这个IP属地是怎么做到的呢&#xff1f;今天我来教教你&#xff0c;保证你看完直呼Easy~ 百度搜索 打开百度&#xff0c;搜索IP&#xff0c;你就能看到你当前的IP地址&#xff0c;类…