深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库

简介: 阿里云在最新发布的 The Forrester Wave™: Cloud Data Warehouse, Q1 2021 全球云数据仓库技术评比中进入卓越表现者象限,成为国内唯一入选厂商。本文针对 Forrester 的报告,结合阿里云的以 MaxCompute 为核心的云数仓产品,做一个详细的技术解读。

概述:

       2021年3月25日,全球权威分析机构 Forrester 发布 《The Forrester Wave™: Cloud Data Warehouse, Q1 2021》研究报告,阿里云凭借产品现有能力、产品战略、市场表现三项优势,进入 Forrester Wave 2021 Q1 云数据仓库卓越表现者象限,成为入选此次评测的唯一中国厂商。

 

 本次 Forrester 针对入选的 13 家国际最重要的云数据仓库服务商(见下表), 从产品、战略、和市场表现三个维度,26个指标 60 多项评估细则进行了研究、分析和评分。最终报告显示了每个提供商在每项的评比分数,帮助企业架构专业人员根据他们的需求选择正确的厂商。作为读者,也能从 Forrester 的这些评测项中理解、学习现代云数据仓库的定义、应具备能力以及未来的发展趋势。

image.png

       下面我们就针对 Forrester 的报告内容,结合阿里云 MaxCompute、DataWorks、AnalyticDB 几款云数仓产品,对现代云数仓做一下全面的技术解读。

技术解读:

现代云数仓的内涵:Forrester 认为现在云数仓需要具备的几个特性:

  • 极致弹性:在分钟级别内提供任意规模,能够自动优化查询
  • 存算分离:按需独立扩展计算和存储等资源(存算分离)并能无感知自动升级。
  • 为了满足对更集中、实时和自助式分析日益增长的需求,云数仓供应商将继续专注于与数据湖和对象存储的原生集成。
  • 通过自助服务,简化大型复杂仓库的访问和管理。
  • 能提供并行处理、压缩、分区、索引、查询优化和动态资源供应方面的高级功能。
  • 最常见的云数仓应用场景包括客户360°分析、基于AI/机器学习 ML 的分析、垂直领域和实时分析的场景。

 

Forrester 评测领先项(得5/满分5分)

给客户带来的价值

  1. 数据湖集成(Data Lake Integration)
  2. 数据类型(Data Types)
  3. 数据集成(Data Ingestion / Loading)

客户将数据湖(Hadoop、云对象存储 OSS)的灵活性、生态丰富与云数据仓库的企业级能力进行融合,可以通过 MaxCompute 湖仓一体方案,DataWorks 数据集成以及对丰富数据类型的支持,并通过 DataWorks 构建数据湖和数据仓库融合的数据开发、管理和数据治理平台。

  1. 性能(Performance Reference)
  2. 扩展性(Scalability Feature)

客户能享受以下 MaxCompute 的 Share Everything 的架构设计带来的如下好处:

  1. 开箱即用的服务:5 分钟开通云数仓服务并能执行第一条 SQL 任务
  2. 灵活的计费模式:支持开通后可以按照单条 SQL 计费的按量付费模式,不用资源不花钱,不怕开通了还继续收费
  3. 存算分离 + 无限扩展:可以分别对计算和存储进行扩缩容
  4. 更好的资源利用:多租户架构带来更好的资源利用,通过降低成本将技术红利分享给客户
  1. 数据安全(Data Security)

数据安全无疑是现在企业数据应用的重中之重。MaxCompute 支持多租户的使用场景,通过阿里云账号认证体系对于用户的每一个 HTTP 请求都会进行签名认证,针对不同的用户数据进行数据存储隔离,用户数据被离散存储在分布式文件系统中。可以同时满足多用户协同、数据共享、数据保密和安全的需要,做到真正的多租户资源隔离。同时在网络隔离,鉴权认证,数据安全,传输、存储加密,日志审计等。详情参见安全白皮书

  1. Support(售后服务)
  2. Subcription(订阅模式)

Forrester 从客户得到认证:证实阿里云拥有一个经过验证的全球技术服务和支持团队,可以满足当前和未来的增长需要,同时拥有最多的资源和专业知识来处理复杂的全球和本土云数仓的实施。客户对阿里云云数仓的技术支持非常满意。

 

同时,MaxCompute 提供 Pay-as-you-go 计费模式,只对资源(存储、服务器和服务)的使用收费。支持按存储、大小、查询和用户数量粒度定价。可以分别为计算和存储定价。Forrester 从客户侧证实阿里云有最好的计费模式和最好的性价比。

 

以下从技术角度阐述为什么阿里云数仓产品能够支撑上面的满分项:

1. 架构设计:

阿里云数据仓库 MaxCompute 从设计之初采用了“Share Everything”的架构设计。按 Forrester 的说法,这是一个具有前瞻性(future-proof) 的技术架构。它引领了云数仓架构的趋势,并提供了最佳的客户灵活性和开箱即用的解决方案。同时支持 SQL、机器学习\深度学习、图计算等多种计算模式。

除了支持第一方的计算模式外,一个关键区别是 MaxCompute 有一个开放的设计,第三方引擎(如Spark,Presto)也可以接入。在 2019年-2021年,MaxCompute 发展出了湖仓一体的架构设计,通过湖仓一体 MaxCompute 无缝集成云对象存储和 Hadoop 生态。这些帮助我们在 Forrester 技术评比中,在性能、扩展性、数据湖集成 3 项取得最高分(5分),达到世界领先水平。

  • 在性能项的评比中,MaxCompute 支撑了相比其它厂商更高每天作业总数
  • 在扩展性的评比中,MaxCompute 提供最好的可伸缩性特性,包括:

        a) 可以对于任意规模的计算或存储进行接近无限的扩展,且不需要中断或停机支持

        b) 可以独立、自动地扩展存储和计算。可支持 EB 级别以上的数据规模。

  • 在数据湖集成项评比中:通过湖仓一体架构,无缝集成对象存储(OSS)湖,以及 Hadoop 生态,并通过 DataWorks 提供统一的数据开发、管理、治理平台。

 

2. 实时性:

  • 阿里云数仓通过 DataWorks 数据集成功能,支持三种实时数据集成方式:数据集成流式数据导入、对接 datachub、Kafka 等发布-订阅子系统、 CDC 方式导入。
  • 可以流式地将数据输入到 MaxCompute 或 AnalyticsDB 中进行查询。(或通过Flink 处理的实时 BI 场景)
  • 支持数据服务场景和在线机器学习(Alink,流式算法包以及深度学习框架 TensorFlow)

3.高性能存储

  • AliORC:MaxCompute 采用与开源 ORC 兼容的列式存储格式 AliORC,比开源 ORC 读性能快 50%,同时支持 MaxCompute、机器学习引擎 PAI等。 MaxCompute 团队也是开源 ORC 社区最大的贡献者
  • 自动存储分层,通过算法支撑的 4 级自动存储分级,提供更好的读写性能

4.企业级的安全性:

      MaxCompute 和 DataWorks 数据安全卫士可以发现和识别敏感数据,并支持静态数据加密,支持tokenization,动态和静态数据 Masking;通过数据质量和 Logview 检查数据质量和漏洞评估,利用阿里云 ActionTrail 提供审计功能。同时数仓内部支持自主访问控制,强制访问控制 (labelSecurity),提供项目、表、行和列级的访问控制。在合规方面支持全球主流的安全标准:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11), PCI等。详细名单在在白皮书中均有描述。

      同时,MaxCompute 除了传统的通过认证和授权的方式共享数据外,我们还观察到了隐私保护的数据共享,甚至是在不受信任的群体之间共享的趋势。通常我们将这种共享需求称为“数据可用不可见”。现在阿里云也正在投资这个领域以及包括基于差分隐私的计算和联合计算在内的技术。

      在本次 Forrester 技术评比中:云数仓 MaxCompute 和 DataWorks 的安全能力以及技术前瞻性,取得了最高分(5分),达到世界领先。

5.统一的数据开发、管理治理平台 DataWorks:

      MaxCompute 有一个统一的数据部署、治理和管理平台 DataWorks。它支持不同工作负载的数据集成、元数据开发。我们的数据管理可以进一步编排不同的工作负载。例如,客户可以从数据集成、数据清理、特征工程、模型训练、模型服务等方面构建完整的大数据和 AI 通道。

 

关于云数仓的发展趋势:

       随着 IoT 和 5G 技术的不断成熟,设备产生的数据将远超过与人相关的行为数据,同时越来越多的企业也将沉睡的数据湖中的数据唤醒,越来越多的角色也加入到数据分析、机器学习的领域中。这为云数据平台带来新的挑战,云数仓需要:

  1. 提高平台自服务能力,高度自动化的运维和管理,降低数据仓库、机器学习以及深度学习的使用门槛
  2. 支持多方数据共享的同时保护数据隐私,数据可用不可见
  3. 与数据湖的深度集成,统一的开发平台、数据资产管理

 

总结:

       最后引用 Forrester 报告对阿里云数据仓库的总结:阿里云数仓服务提供广泛的基础设施、平台和分析服务,包括 MaxCompute、AnalyticDB 和 DataWorks 服务,以支持各种大规模数据仓库客户案例。虽然阿里云数据仓库服务大部分部署在中国,但 MaxCompute、AnalyticDB 和 DataWorks 在全球 16个国家和地区提供服务,客户涉及金融、互联网、生物医药、能源、交通和媒体行业。阿里云的 MaxCompute、AnalyticDB 和 DataWorks提供实时和 EB 级的能力,以支持任何数据仓库的需求。

 

最后是来自客户对阿里云数仓产品的评价:

      阿里云数仓供多种计算模型、机器学习能力、服务区域、技术支持、商业价值、工具和高端可扩展性。让客户在最常用的场景包括 BI 加速、基于AI/ML 的分析、数据仓库现代化、数据科学以及实时和风险分析领域获得最佳的应用体验。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513597.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Azkaban业务流程如何转化为DataWorks业务流程

简介: 用户在迁移上云的时候,需要将云下的的Azkaban任务迁移上云,之前通过用户在DataWroks一步步创建对应的业务流程,其转化难度和转化时间都是一定的成本和时间,但如何能做到省时省力的方式迁移,为此本文提供了使用迁…

深度 | 数据湖分析算力隔离技术剖析

简介: 随着越来越多的企业开始做数据湖分析,数据量的持续增加,数据分析需求也会越来越多,在一个共享的数据湖分析引擎,如何防止多租户之间的查询相互影响是一个很通用的问题,本文以阿里云DLA Presto为例&am…

mfc链表中的数据如何排序输出_java程序员面试中最容易被问到的18个算法题(附答案!)...

算法是比较复杂又基础的学科,每个学编程的人都会学习大量的算法。而根据统计,以下这18个问题是面试中最容易遇到的,本文给出了一些基本答案,供算法方向工程师或对此感兴趣的程序员参考。1)请简单解释算法是什么&#x…

深度解析PolarDB数据库并行查询技术

简介: 随着数据规模的不断扩大,用户SQL的执行时间越来越长,这不仅对数据库的优化能力提出更高的要求,并且对数据库的执行模式也提出了新的挑战。本文将介绍基于代价进行并行优化、并行执行的云数据库的并行查询引擎的关键问题和核…

万物互联、应用现代化、云原生新范式,华为云为数字化转型提供最优解

10月27日,华为云TechWave全球技术峰会(应用现代化)在广州举办。华为云发布“云原生2.0”新范式,并分享应用现代化、万物互联等最新理念及产品进展。 华为云CTO张宇昕发表主题演讲 华为云CTO张宇昕表示:“云原生新范式…

动态游标for循环_【【动图算法】(动态规划篇):最长回文子串

本周继续做一道动态规划类型的题目,该题是阿里一面的一道算法题。【动图算法】(动态规划篇):最长回文子串leetcode 5 题:最长回文子串https://leetcode-cn.com/problems/longest-palindromic-substring/给定一个字符串 s,找到 s 中…

企业上云如何对SLS日志审计服务进行权限控制

简介: 日志审计是信息安全审计功能的核心部分,是企业信息系统安全风险管控的重要组成部分。SLS的日志审计服务针对阿里云的多种云产品(Actiontrail、OSS、SLB、RDS、PolarDB、SAS、WAF等)提供了一站式的日志收集、存储、查询、可视…

分区取模分库分表策略:多表事务分库内闭环解决方案

简介: 当表数据超过一定量级,就需要通过分表来解决单表的性能瓶颈问题;当数据库负载超过一定水平线,就需要通过分库来解决单库的连接数、性能负载的瓶颈问题。本文将阐述在不同情况下,让不同数量级表,在同一…

漫画:什么是“贪心算法”?如何求解“部分背包问题”?

作者 | 小灰来源 | 程序员小灰————— 第二天 —————————————————. . . . . . . .我们回到刚才的题目当中,假设背包的容量是10,有5个商品可供选择,每个商品的价值和重量如图所示:让我们来计算一下每件物品的…

高德 Serverless 平台建设及实践

简介: 高德为什么要搞 Serverless/Faas?是如何做 Serverless/Faas 的?技术方案是什么样的?目前进展怎么样?后续又有哪些计划?本文将和大家做一个简单的分享。 作者 | 邓学祥(祥翼) 来…

谷歌自研 Tensor 芯片,8核CPU,20核GPU……

作者 | 禾木木 出品 | CSDN云计算(ID:CSDNcloud) 10 月 20 日,谷歌在发布会上推出了全新 Pixel 6 和 Pixel 6 Pro 手机。虽然在推出之前,就已经知晓了外观,该说不说这款手机还是很吸引人的。 在这些变化…

云厂商下一块必争之地就是它了!

简介: 继容器编排、AI 工程化之后,全球顶级云厂商都瞄准了这块无人区。 作者 | 太浪 继容器编排、AI 工程化之后,全球顶级云厂商都瞄准了这块无人区。 1 回顾云计算十几年的历史,或者也可以视其为一部“为开发者服务简史”。 …

shell 如何调用多个脚本

简介 这篇文章主要描述如何通过主脚本去调用其他脚本中的方法,调用的过程中可能出现哪些坑,如何避免。 目录 1. 主脚本调用其他脚本的方法 1.1. bash方法 1.2. source方法 2. 避坑技巧 2.1. 路径配置无效 2.2. source变量冲突 3. 总结 1. 主脚本调…

es对已有的索引给主键_ES中对索引的相关操作

写在前面:本文ES版本为:6.4.2(单机),并安装了head插件,运用postman进行操作。也可以使用head插件在前端浏览器中进行傻瓜式操作,后续会介绍这种方式!如果没有安装es和head插件的话,请先安装&…

“华为云-东吴杯”圆满成功,顶尖参赛者推动“智造”场景结构升级

2021年10月9日,“华为云-东吴杯”2021数字化转型创新应用大赛(以下简称“华为云-东吴杯”)的最终决赛如期上演,给来自创客赛道和企业赛道的顶尖开发者及团队搭建了一个绝佳的舞台,令其充分展示投身数字化转型领域所获得…

云原生下的灰度体系建设

简介: 本篇文章,我们将继续为大家介绍 ASI SRE(ASI,Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施) 是如何探索在 Kubernetes 体系下,建设 ASI 自身基础设施在大…

引用和指针的区别都有什么_C++指针与引用的区别

指针与引用是C中两个很重要的概念,它们功能看过去很相似,就是都是间接引用某个对象,那么我们应该在什么时候使用指针,什么时候使用引用呢,下面请允许我慢慢道来:1.永远不要使用一个指向空值的引用。一个引用…

混合云K8s容器化应用弹性伸缩实战

简介: 混合云K8s容器化应用弹性伸缩实战1. 前提条件 本最佳实践的软件环境要求如下: 应用环境: ①容器服务ACK基于专有云V3.10.0版本。 ②公共云云企业网服务CEN。 ③公共云弹性伸缩组服务ESS。 配置条件: 1)使用专有云…

lodop打印不显示页码_Excel|13个Excel打印技巧汇总,打印技巧大全

打印技巧是工作必备,无需理由!很多时候大家得不到想要的打印效果,偶尔打印一两张表格,会出现各种状况:标题行不见了?打印范围错了?页眉页脚不对?打印一个内容,总得弄出一…

关于写好文章的3个心法和5点技巧

简介: 技术类文章最需要的是扎实的经验累积、深度思考和精益求精的精神,这些技巧,希望能够锦上添花。 作者 | 双宏 来源 | 阿里技术公众号 我是双宏,负责阿里巴巴内部技术人社区的内容运营,包括每天头条热文专题推荐、…