目录
数据集成
功能概述
使用限制
功能相关补充说明
数据开发
功能概述
数据建模
功能概述
核心技术与架构
数据分析
功能概述
数据治理
数据地图
功能概述
数据质量
功能概述
数据治理资产
功能概述
使用限制
数据服务
功能概述
数据集成
DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
功能概述
DataWorks的数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步。其中:
-
离线同步场景下,支持设置离线同步任务的调度周期。
-
支持关系型数据库、数仓、非关系型数据库、文件存储、消息队列等近50多种不同异构数据源之间的数据同步。
-
支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通。
-
支持安全控制与运维监控,保障数据同步的安全、可控。
使用限制
-
数据同步
支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步OSS中存放完全非结构化的数据(例如一段MP3)至MaxCompute。
-
网络连通
支持单地域内及部分跨地域的数据存储相互同步、交换的数据同步需求。 部分地域之间可以通过经典网络传输,但不能保证其连通性。如果测试经典网络不通,建议您使用公网方式进行连接。
-
数据传输
数据集成仅完成数据同步(传输),本身不提供数据流的消费方式。
-
数据一致性
数据集成同步仅支持at least once,不支持exact once,即不能保证数据不重复,只能依赖主键+目的端能力来保证。
-
数据集成作业创建
暂不支持批量创建数据集成作业。
注意:
同步任务源端和目标端字段类型需要注意精度,如果目标端字段类型最大值小于源端最大值(或最小值大于源端最小值,或精度低于源端精度),可能会导致写入失败或精度被截断的风险。(不区分源端和目标端类型,也不区分离线还是实时同步)。
功能相关补充说明
网络连通方案
支持的数据源及同步方案
数据开发
DataWorks的数据开发(DataStudio)是数据加工的开发平台,运维中心是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。
功能概述
DataWorks的数据开发的亮点功能如下。
-
DataStudio支持MaxCompute、EMR、CDH、Hologres、AnalyticDB、Clickhouse等多种计算引擎,支持在统一的平台上进行各类引擎任务的开发、测试、发布和运维等操作。
-
DataStudio支持智能编辑器、可视化依赖编排,调度能力经过阿里集团内调度任务、复杂业务依赖的反复验证。
-
DataStudio提供隔离的开发和生产环境,结合版本管理、代码评审、冒烟测试、发布管控、操作审计等配套功能,帮助企业规范地完成数据开发。
-
运维中心支持数据时效性保障、任务诊断、影响分析、自动运维、移动运维等功能。
数据建模
智能数据建模是阿里云DataWorks自主研发的智能数据建模产品,沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践,包含数仓规划、数据标准、维度建模及数据指标四大模块,帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的能力,并通过数据建模快速构建企业数据资产。
功能概述
智能数据建模产品包含数仓规划、数据标准、维度建模、数据指标四大产品模块。
-
数仓规划:数仓规划支持数仓分层、数据域、数据集市等的规划,支持设置模型设计空间,不同部门可共享一套数据标准和数据模型。
-
数据标准:数据标准字段标准、标准代码、度量单位、命名词典的定义,支持标准代码自动生成质量规则,落标检查不再难。
-
维度建模:维度建模支持逆向建模,解决现有数仓的建模冷启动难题,支持可视化数仓维度建模,支持通过Excel文件导入模型和通过FML(一种类SQL的DSL)快速构建模型,支持与数据开发DataStudio无缝打通,自动生成ETL代码。
-
数据指标:数据指标支持原子指标、派生指标的定义与构建,与维度建模无缝打通,可根据原子指标和不同维度批量创建派生指标。
核心技术与架构
数据分析
DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。
功能概述
数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。
数据治理
数据地图
DataWorks的数据地图功能可以帮助您实现对数据的统一管理和血缘的跟踪。
数据地图以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
功能概述
数据地图是在元数据基础上提供的企业数据目录管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助您更好地查找、理解和使用数据。
数据质量
DataWorks的全流程数据质量监控功能为您提供35种预设表级别、字段级别和自定义的监控模板。
数据质量帮助您第一时间感知到源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。
功能概述
数据质量以数据集(DataSet)为监控对象,支持监控MaxCompute数据表和DataHub实时数据流。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量进行分析和定级。
数据质量可以解决如下问题:
- 数据库频繁变更问题
- 业务频繁变化问题
- 数据定义问题
- 业务系统的脏数据问题
- 系统交互导致质量问题
- 数据订正引发的问题
- 数据仓库自身导致的质量问题
数据治理资产
数据资产治理是统一资产治理系统,针对多个治理领域,通过数据领域规则沉淀、自动识别资产待优化问题项、覆盖事后及事前的治理优化策略等方式,帮助用户主动式、体系化完成数据治理工作。
功能概述
数据资产治理(原数据治理中心)可根据预先配置的治理计划,自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理成果,帮助您高效达成治理目标。同时,还提供业务资产管理、资产分析、任务资源消耗明细、费用预估等功能,帮助您有效掌握各类资源的使用详情。
使用限制
-
版本限制
目前仅支持DataWorks企业版及以上版本使用数据资产治理。DataWorks各版本介绍,详情请参见DataWorks各版本详解;购买DataWorks,详情请参见购买指引。
-
地域限制
目前仅支持华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、西南1(成都)、中国香港、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)地域使用数据资产治理。
-
权限限制
使用数据资产治理的用户角色主要如下,其权限限制如下。
角色 | 权限说明 | 相关参考 |
租户级数据治理管理员 | 租户级数据治理管理员可使用全局视角查看治理评估报告、治理项问题、检查项事件等,执行相应的整改操作。 |
|
空间管理员 | 可使用工作空间视角查看治理评估报告。如您需使用该视角查看某工作空间的治理评估报告,需被授权为该空间的空间管理员。 |
|
空间级数据治理管理员 | 该角色可以查看并管理该角色所属空间的数据治理相关内容。 说明 该角色不能通过全局视角查看当前地域所有空间下的治理情况,且无法针对全局的治理操作(例如全局允许启用检查项)进行管控。若要允许RAM用户通过全局视角执行上述操作,请授予其租户级数据治理管理员角色。 |
|
普通用户 | 数据治理工作中实际处理待治理问题的整改人员,可使用个人视角查看检查项事件及治理项问题,并执行整改操作。如您需整改租户下存在的问题,则需被授权为该空间的成员。 说明 通常,除阿里云主账号和具有AliyunDataWorksFullAccess权限的RAM用户外,其他租户内成员默认均为普通用户。 | 授权操作,详情请参见添加空间成员并管理成员角色权限。 |
目前仅支持阿里云主账号或具有AliyunDataWorksFullAccess权限的RAM用户(即子账号)使用数据资产治理的全部功能。如您需使用数据资产治理的全部功能,则可授予RAM用户该权限,授权详情,请参见为RAM用户授权DataWorks相关管理权限。
- 计算资源限制
目前仅支持MaxCompute、E-MapReduce和Hologres计算资源。
数据服务
DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为企业提供全面的数据共享能力,帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。
功能概述
作为数据仓库与上层应用系统间的“桥梁”,DataWorks数据服务为企业搭建统一的服务总线,帮助企业统一创建及管理对内、对外的API服务,解决数仓、数据库与数据应用间的“最后一公里”,加速数据的流动和共享。
-
数据服务支持通过零代码或自助SQL的双模式,将各类数据源下的数据表生成数据API,同时支持函数计算来辅助加工API的请求参数及返回结果。
-
数据服务采用Serverless架构,用户无需关心运行环境等基础设施,即可将API服务一键发布至API网关。
这篇博客到这里就接近尾声了,希望我的分享能给您带来一些启发和帮助,别忘了点赞、收藏。您的每一次互动、鼓励是我持续创作的动力!期待与您再次相遇,共同探索更广阔的世界!