深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

摘要: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估。

1.前言

本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13, 2018)进行了分析,文中内容仅代表个人观点。

2018年3月13日Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告。报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、Google、微软四大巨头杀入全球一线阵营。阿里云DataWorks+MaxCompute成为唯一入选的中国产品。

报告中,Forrester强调了CDW的四方面核心能力:

·灵活部署。CDW应具有多种灵活的部署模式。针对小型客户,CDW应可提供在线多租户的模式,使客户有能力快速调集计算资源,在数分钟内完成数据仓库的部署。针对大中型客户,CDW应提供独占式或本地部署的模式,提供强大的计算性能和绝对的安全保障,同时屏蔽复杂的技术细节;

·高效数据上云。对于未将数据仓库云化的客户,或者采用线上-线下混合架构的客户,CDW应提供快速、低成本的方式,帮助用户完成数据集成。

·多样化分析手段。CDW应提供多种技术手段,帮助用户在各种业务场景中,获得想要的数据加工能力。

·安全性。CDW的安全性应全面考虑数据加密、审计、脱敏、访问控制等各方面。

DataWorks(https://data.aliyun.com/product/ide)作为阿里巴巴CDW服务能力的核心,为何能获得Forrester的青睐呢?今天我们来做一个解读。

2.DataWorks产品架构

在正式开始解读之前,我们先来了解一下DataWorks在阿里云CDW服务体系中的角色,以及DataWorks的产品架构。

图片描述

在阿里云的众多产品中,DataWorks和MaxCompute共同构成了CDW服务能力的核心。其中,MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色,为使用者提供了海量可靠的大数据表存储,以及SQL执行的能力。但是,仅仅有了MaxCompute是不够的。为了让大数据技术能真正的给客户赋能,还需要数据开发、数据集成等一系列CDW服务,而DataWorks就提供了较为完整的解决方案。

具体来看,她包含8个主要模块:

  • 数据集成:异构数据集成,将海量的数据从各种源系统汇集到大数据平台
  • 数据开发:数据仓库设计和ETL开发过程
  • 监控运维:ETL线上作业的运维监控
  • 实时分析:实时探查和分析数据
  • 数据资产管理:元数据管理、数据地图、数据血缘、数据资产大图等
  • 数据质量:数据质量探查、监控、校验和评分体系
  • 数据安全:数据权限管理,数据的分级打标、脱敏,以及数据审计
  • 数据服务:数据共享和数据交换,数据API服务

图片描述

3.灵活部署

Forrester在报告中大篇幅的阐述了多种部署形态的必要性,并对多家CDW进行了对比,而DataWorks是第一阵营中为数不多的提供多种部署方式的产品。

首先,作为阿里巴巴集团数据中台体系的核心,DataWorks从2009年开始便支持阿里集团、蚂蚁金服、菜鸟等全集团业务。只要使用了淘宝、天猫、蚂蚁金服等产品的数据服务,就有可能间接使用了DataWorks的计算服务。

其次,DataWorks已在公有云中开放。截止目前,DataWorks已服务4000+公有云客户,支撑了新浪微博、人人车、天弘基金等重要客户。

最后,DataWorks还支持专有云输出。作为大数据能力赋能的重要手段,DataWorks出现在了Apsara Enterprise等阿里云专有云解决方案中。从2015年至今,已支撑了包括“城市大脑”、“最多跑一次”等重量级政企项目。

通过灵活的部署方式,DataWorks可以满足多种不同形态的客户需求。对于小型用户,可以通过公有云方式灵活支撑;对于大中型客户,专有云或混合云的解决方案也完全可以满足客户需求。

4.高效数据上云

高效的数据集成方式对企业数据上云的意义不言而喻。在初始上云阶段,企业需要把自己的数据资产快速安全的迁移到云上;在持续运营阶段,企业需要将各种形态的数据输入到CDW中,并将CDW中加工完成的数据结果输出到各个业务单元。

DataWorks的数据集成提供了对多种类型数据源进行读写的能力,包括对关系型数据库、NoSQL数据库、大数据数据库、文本存储(FTP)等,能对数据源头的数据资源能够进行统一清点,并能够在复杂网络情况下对异构的数据源进行数据同步与集成。在具体的导入任务编排上,DataWorks支持离线数据的批量、全量、增量同步,支持分钟、天、小时、周、月来自定义同步时间。

图片描述

DataWorks的数据集成还具有数据流管控的能力,能够从脏数据、数据流速、并发线程数等多个维度管控数据流的行为,多方位节约用户成本,实现精益化管理。

5.多样化分析手段

DataWorks提供了强大的数据开发IDE,支持从SQL代码编辑、集成任务编辑到业务流程DAG图的可视化编辑。而多人在线协作功能和任务脚本的版本管理功能也非常切合企业级数据开发的实际需求。除了常规的离线处理任务外,DataWorks还提供了轻量级工具“数据分析工作台”,充分利用MaxCompute的计算能力,满足用户即席数据分析的需求。

图片描述

据悉,DataWorks近日还更新了拖曳式业务流程编辑功能,进一步改善用户体验,打造可能是最好用的数据开发IDE。

6.安全性

DataWorks将数据安全能力视为重中之重,敏感数据防护更需要符合行业规定和数据隐私法律等规定。DataWorks提供了数据安全模块,通过以下几方面提供了全方位的数据安全保护:

·多租户隔离。DataWorks拥有自己的多租户权限模型。租户可按需申请资源配额,独立管理自己的资源;租户也可以独立管理自有的数据、权限、用户、角色,彼此隔离,以确保数据安全。

·数据安全等级设定。通过数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据定义的敏感数据类型自动发现敏感数据,并为其分级分类。通常分为绝密、机密、正常等等级进行对应安全规则保障。

·数据访问审计。DataWorks对于特权用户的访问有严格的审查流程,包括何时访问,执行哪些操作,执行顺序等等。记录审计特权用户的访问记录,可以确保特权用户在正确的时间完成了正确的操作,审查是否有越轨行为的出现,进而保证数据系统的安全。

·数据脱敏。DataWorks能够在在不确定能够排除那些用户,那些访问地址,甚至那些字段为可疑或者有害访问时,关注数据内容本身,抓住敏感信息点,并有针对性地对该部分信息进行动态访问遮蔽,从而达到保护数据安全的目的。

目前,DataWorks已通过了公安部信息安全等级保护三级认证。

7.总结

随着社会各行各业“互联网+”改革的深入,企业对数据资产的管理、加工、利用的诉求越来越强烈。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。这也是在Forrester的榜单中,全球主要的四家云服务公司,得以超越Oracle、IBM等老牌数仓技术公司,成为一线CDW供应商的原因。

得益于阿里巴巴多年的数据利用经验沉淀,DataWorks在部署模式、数据集成、分析手段、数据安全等各方面都实现了与企业级需求的高度契合。

据了解,DataWorks还会持续输出更多先进的数据管理理念,包括实时数据集成、数据资产分析等。将云计算技术与数仓管理方法论有机结合,保持不断迭代,致力于打造“最适合于大数据数仓建设的平台”,我想这正是DataWorks入选Forrester CDW榜单的原因。

原文链接

干货好文,请关注扫描以下二维码:
图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522312.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用C语言倒置字符串

要逆置这个字符串,有很多种方法,在此说一次比较巧妙的方法 首先,逆置这个字符串,可以考虑单独的把每个单词都逆序一下,在对整个字符串进行逆序 考虑本题中的I like beijing. 首先对I、like、beijing. 中的每个单词逆序…

java中怎么把生成文件到项目根目录_[SpringBoot2.X] 02- 项目结构介绍

POM文件继承Spring Boot 的父级依赖,只有继承它项目才是 Spring Boot 项目。 spring-boot-starter-parent 是一个特殊的 starter,它用来提供相关的 Maven 默认依赖。使用它之后,常用的包依赖可以省去 version 标签。也就是继承的是springboot…

大咖云集、精彩议题、独家内容,2019 AI ProCon震撼来袭!(日程出炉)

2019年9月5-7日,面向AI技术人的年度盛会—— 2019 AI开发者大会 AI ProCon,火热来袭! 继2018 年由CSDN成功举办AI 开发者大会一年之后,全球AI市场正发生着巨大的变化。顶尖科技企业和创新力量不断地进行着技术的更迭和应用的推进。…

机器学习的未来——深度特征融合

摘要: 深度特征融合是一项能够克服机器学习不足,为机器学习打开通往未来大门的新技术。新技术要不要了解一下?即使是最敏锐的技术布道师也无法预测大数据对数字革命的影响。因为他们最初的关注点都聚焦在了扩大基础设施以构建现有服务上。在提…

原码,反码,补码的关系和大小端字节序存储的关系

在看如下代码之前,要知道原码,反码,补码之间的关系 首先要知道第一位是符号位,0代表是正数,1代码是负数 正数的原码,反码,补码相同 负数的反码是符号位不变,其他位按位取反 负数的补…

与机器学习算法有关的数据结构

摘要: 在机器学习中需要运用到许多数据结构,掌握它们是非常重要的。希望本文能有所帮助拥有机器学习技能是不够的。你还需要良好的数据结构的工作知识。学习更多,并解决一些问题。因此,你已经决定不再使用固定的算法并开始编写自己…

resnet结构_经典卷积网络(二)-ResNet

一、ResNet(总结自csdn文章)随着网络的加深,出现了训练集准确率下降的现象,确定这不是由于Overfit过拟合造成的。作者针对这个问题提出了一种全新的网络,叫深度残差网络,它允许网络尽可能的加深&#xff0c…

物联网避坑 3 大指南!

戳蓝字“CSDN云计算”关注我们哦!整理 | 胡巍巍参考 | 中信出版社《物联网时代》如果你正是物联网从业者,你如何避免自己的投入,不会成为一种痛苦的学习经历,相反成为一个令人瞩目的成功故事呢?最好的方式之一&#xf…

深度学习工作机制通俗介绍

摘要: 本文是深度学习基础性介绍,以降维的角度分析卷积神经网络模型,并着重说明了目前人工智能存在的不科学性。在本文之前,写过一些关于人工智能的科普性文章,比如人工智能为什么能起作用、模型是什么以及如何去创建模…

结合Apache Kafka生态系统,谈谈2018年机器学习5大趋势

摘要: 让我们来研究下Uber和Netflix上的KSQL,ONNX,AutoML和机器学习平台,看看它们之间是如何相互关联的。在2018慕尼黑OOP会议上,我展示了使用Apache Kafka生态系统和深度学习框架(如TensorFlow&#xff0c…

设计一段代码,判断在内存中是小端存储还是大端存储

大端存储:数据中的低位保存在内存中的高地址中,数据中的高位保存在内存中的低地址中。 小端存储:数据中的高位保存在内存中的高地址中,数据中的低位保存在内存中的低地址中。 假设int a1; 则a在存储中的存储是 00 00 00 01&#…

51单片机雾化片自动扫频程序_单片机简介

单片机简介数字电路简介在一个控制系统中, 单片机是电路的一部分, 单片机中的程序是针对其所在的电路编写的。因此,要对单片机编程并实现一定的功能,必须了解整个系统的电路图。单片机编程是针对某个特定的电路进行的单片机编程是…

IT公司老板落水,各部门员工怎么救??

戳蓝字“CSDN云计算”关注我们哦!公司高层公司副总A:咱们开个会研究一下这个事情怎么处理。公司副总B:如果老板没有救成功,下任是谁呢?会不会影响公司的上市?公司副总C:我认为咱们开会应该讨论两…

使用 MaxCompute(原ODPS) java sdk 运行安全相关命令

摘要: 使用 odps console 的同学,可能都使用过 odps 安全相关的命令。 转自zhenhong 使用 MaxCompute console 的同学,可能都使用过 odps 安全相关的命令。官方文档上有详细的 odps 安全指南,并给出了安全相关命令列表。 简而言之…

苹果笔记本能不能用python_“苹”除了苹果还能组哪些词?苹组词,释义及造句汇总!...

“苹”字组词,很多人第一反应就是苹果。那么除了苹果,苹还能组哪些词?苹组词都有哪些?下面,浙江秦学教育小编为大家带来苹组词,释义及造句汇总!来更新我们的组词大全,大家一定要多积累&#xff…

历史回顾——NLP问题解决方案的演变史

摘要: 回顾NLP问题的解决方案,探寻当下最流行的NLP技术,激发NLP问题新的解决方案!NLP-深度学习时代之前:在深度学习来临之前的日子里,在自然语言处理算法(NLP)领域出乎意料地有许多相…

关于signed和unsigned进行整形提升所出现的问题

看如下代码: int main() {char a -1;signed char b -1;unsigned char c -1;printf("a%d,b%d,c%d", a, b, c);return 0; }输出结果如下图所示 为什么会出现这种结果呢,现在我来分析一下 内存中存储这些变量都是以补码的方式进行存储&#x…

flowable BPMN的组件汉化

1.背景: 现在flowable流程设计器已经部分做了汉化,但是bpmn的组件还是没有汉化的,这样对我们中国 人来说就不是很方便。 2.效果:如何实现这一效果呢? 3.实现 3.1. stencilset_bpmn.json拷贝这个json文件到我们的资源…

华为确认与三家EDA公司停止合作;开源安卓恶意软件窃取用户隐私信息;三星高通回应7纳米EUV工艺问题……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 速腾聚创与英国 Aidrivers达…

MaxCompute Console 实用小命令

摘要: MaxCompute Console 可以从 这里 下载。在阿里云官网可以查看 帮助文档。 这里跟大家分享一些 MaxCompute Console 中实用的小命令。 MaxCompute Console 可以从 这里 下载。在阿里云官网可以查看 帮助文档。 这里跟大家分享一些 MaxCompute Console 中实用的…