构建实时数据仓库首选,云原生数据仓库AnalyticDB for MySQL技术解密

阿里云分析型数据库重磅推出基础版,极大降低了用户构建数据仓库门槛。高度兼容MySQL,极低的使用成本和极高的性能,使中小企业也可以轻松的搭建一套实时数据仓库,实现企业数据价值在线化。

AnalyticDB for MySQL的产品系列包括基础版(单机版)和集群版,基础版为单个节点提供服务,极简的架构大大的降低了基础版的成本。存储计算分离架构、行列混存技术、轻量的索引构建方式和分布式混合计算引擎又保证了基础版强大的分析性能。年成本不到一万就可以构建一套实时数据仓库,无需成立专门的大数据团队,为企业节省百万成本。

1.基础版技术架构

如下为基础版架构图,整体由Coordinator和Worker组成,各自的职责如下介绍。

img

1.1 Coordinator: 前端控制节点,职责包括

(1)MySQL协议层接入,SQL解析

(2)认证和鉴权,提供了更完善和细化的权限体系模型,白名单和集群级别RAM控制,并审计与合规记录所有SQL操作。

(3)集群管理:成员管理、元数据、数据一致性、路由同步、备份与恢复(数据与log管理)

(4)后台异步任务管理

(5)事务管理

(6)优化器,执行计划生成

(7)计算调度,负责执行任务调度

1.2 Worker: 存储和计算节点,包含

(1)计算模块

分布式MPP+DAG混合计算引擎和优化器达到了更高的复杂计算能力和混合负载管理能力。利用阿里云计算平台之上资源灵活调度上的优势,实现了计算资源的弹性调度。计算 Worker节点可以单独拉起,因应业务需求做到分钟级甚至秒级扩展,实现资源的最有效利用。

(2)存储模块

存储模块更加轻量化,具备了承载更大吞吐数据实时写入和读取能力,写入性能比之前版本同等规格高50%倍左右,毫秒级可见,满足客户实时分析需求。

存储节点提供全量和增量备份和恢复能力,云盘的定期快照和日志会实时同步到OSS中保存,对用户数据提供更高的安全保障,帮助用户在数据库发生问题时最大限度的找回。

(3)Worker Group

带存储模块的Worker节点被划分为一个个节点组(Worker Group),集群版提供三副本的存储,通过Raft分布式一致性协议像一个整体一样工作,允许其中一些Worker节点出现故障也能继续提供服务,基础版只有单副本提供服务。

2.基础版优化器

优化器负责对Parser生成的语法树进行处理,通过优化算法生成代价最优的计划提供给计算引擎。计划代价直接影响查询性能,因此优化器是数据库中最核心的模块之一。基础版采用了与集群版一样强大的优化器,包含基于规则、基于代价、和基于模式的多种复合优化技术。

image.png

复杂分析型查询经常包含多表join,表的join顺序直接影响查询性能。AnalyticDB优化器采用了基于代价估算和实时采样信息的join order优化算法,能够感知底层存储的数据分布。优化器利用AnalyticDB全索引特征提高了过滤因子(filter factor)估算的准确性。针对复杂join,优化器基于数据分布信息动态调整join order,同时评估数据reshuffling的代价,来从全局代价的维度选择最优的执行计划。

AnalyticDB优化器在经典基于规则优化器(Rule-Based Optimizer)的基础上增加了代价估算和迭代优化,并且集成了Cascades CBO(Cost-Based Optimizer)优化框架。CBO搜索框架会调用 Property Enforcement模块生成分布式执行计划,然后调用代价估算模块,给每一种候选计划评估代价,选择最优的分布式执行计划。为了进一步提高join order的优化效果和效率,AnalyticDB优化器还采用了基于历史信息的优化技术(History-Based Optimizer)、基于常见SQL模式的动态优化技术(Pattern-Based Optimizer),以及数据驱动的智能技术,例如Auto Analyze模块自动搜集统计信息,为优化器搜索最佳计划提供准确的数据支持。

此外,AnalyticDB优化器还针对复杂查询中经常出现的组合过滤条件、聚合算子、关联子查询等进行了一系列优化处理以提升性能。比如下推优化技术将计划中的过滤条件和聚合算子尽量推到整个链路的底层模块去执行,不但提高底层算子的效率,也减少了上游算子要处理的数据量,提高整体查询性能。针对关联子查询语句,优化器通过关系代数转化,将关联子查询改写为语义等价的非关联计划,使得计算引擎可以高效流水线处理。

3.基础版计算引擎

image.png

AnalyticDB计算引擎采用大规模并行处理MPP+DAG体系结构和基于内存的pipeline执行模式,具有高并发、低延迟的特点。为了加快对复杂表达式的求值速度,优化执行性能,计算引擎通过Runtime Codegen在运行时生成JVM bytecode,动态加载生成对象的实例,减少了执行过程中虚函数调用,提高了CPU-Intensive任务的效率。计算引擎还采用向量化执行模型处理表达式求值,利用CPU SIMD指令集来加速求值计算。

4.基础版存储引擎

image.png

AnalyticDB存储引擎采用行列混合存储的设计。如图所示。对于一张表的每k行数据(Row Group),每列数据连续的存放在单独的Data Block中,每行组的列Block的在磁盘上连续存放。行组内列Block的数据可按指定列排序存放,可以在按该列查询时显著减少磁盘随机IO次数。这种设计的独特优势是兼具了行存(适合OLTP点查询)和列存(适合OLAP多维分析)的长处,很好的满足了不同类型workload的需求:

  • 针对OLTP类型的点查询需要select出一整行的明细数据,行列混存设计下将列存的完全随机读转化为了顺序读
  • 针对OLAP类型的多维分析:不仅解决了海量数据统计分析下行存的读放大问题,而且进行单列IO时将列存的顺序读转化为了顺序跳读,进行多列IO时则将随机读转化为了顺序读
  • 写入大吞吐:列存时的随机写被转化为了顺序写

AnalyticDB存储引擎采用智能全索引,对每列数据建立一个值到行号的倒排索引。查询时,将SQL多个条件表达式的AND、OR 转换成Boolean Query同时走索引,通过搜索得到满足where条件的结果集行号,支持快速多路合并,能够在毫秒级别找出满足条件的结果集。

5.基础版优势

基础版大幅度降低了用户构建数据仓库门槛,与大数据(Hadoop,Spark和EMR)和OLTP建仓方式相比都有超高的性价比。

(1)降低使用门槛

基础版最低1.75元/小时,860元/月,与集群版相比,起步价降低了约三分之一。磁盘空间仅0.6元/GB,磁盘空间上限最大为4T,可以随时按需扩展,大大降低中小企业复杂分析和构建实时数仓的使用门槛。

(2)性能高

同等配置下其数据查询性能约为MySQL的10倍,很好地帮助用户解决MySQL复杂分析慢的痛点。

(3)规格丰富

基础版支持四种规格:T8、T16、T32和T52,可以根据业务的不同要求选择规格和任意调整规格。

(4)生态透明

上下游生态完全兼容集群版,对用户透明。

6.适合客户

特别适合以下人群:

(1)Hadoop/Spark等太复杂,想快速实现数据化转型的中小型企业;

(2)报表数据库查询慢,有交互式BI分析诉求的中小型企业;

(3)需要快速构建测试环境的进行数仓选型的用户;

(4)学习类人群,可快速了解AnalyticDB for MySQL的用户;

了解更多

观看直播:https://yq.aliyun.com/live/2527
产品详情:https://promotion.aliyun.com/ntms/act/adbformysqljichuban.html

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516461.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ElasticSearch 中的中文分词器该怎么玩?_03

内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es。查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流。 过滤:比如停用词过滤器会从词条中去除不相干的词条(的&a…

阿里云安全运营中心:DDoS攻击趁虚而入,通过代理攻击已成常态

应用层DDoS攻击与传统的DDoS攻击有着很大不同。传统的DDoS攻击通过向攻击目标发起大流量并发式访问造成服务不可用,系统瘫痪,这种方式比较容易被识破,且市场上已经有成熟的应对方案。而近年来兴起的应用层DDoS攻击流量则会伪装成正常的流量&a…

中国移动云智融合峰会 | 1+1>2, 引领创新发展

云智融合,揽胜九天乘着“新基建”的东风,云计算、人工智能等新技术已成为新一轮科技革命的重要推动力。9月22日,由中国移动政企事业部、技术部主办,中国移动云能力中心、研究院承办,中国移动科协协办的中国移动云智融合…

云原生安全助力在线教育三分钟搞定安全防护

导语 这个假期,一场不期而遇的疫情让远程教学成为新常态。在线学习成为全国各地老师和学生们的统一方式。据交银国际研究部数据显示,疫情期间,在线教育企业加速获客,春节后日活跃用户数较春节期间增长5000万,用户活跃…

ElasticSearch 索引基本操作_04

文章目录1. 新建索引2. 索引注意事项3. 更新索引4. 索引权限5. 索引查看6. 删除索引7. 索引关闭和打开8. 索引复制9. 索引别名1. 新建索引 插件新建索引 通过 head 插件新建索引 在 head 插件中,选择 索引选项卡,然后点击新建索引。新建索引时&#xf…

从零开始入门 K8s | 理解 RuntimeClass 与使用多容器运行时

作者 | 贾之光 阿里巴巴高级开发工程师 本文整理自《CNCF x Alibaba 云原生技术公开课》第 30 讲,点击直达课程页面。 关注“阿里巴巴云原生”公众号,回复关键词“入门”,即可下载从零入门 K8s 系列文章 PPT。 一、RuntimeClass 需求来源 …

从程序媛到微软全球 AKS 女掌门人,技术女神驾到!

来源 | CSDN据 Stack Overflow 发布的《2020年开发者年度调查报告》显示,在参与统计的 65,000 名程序员中,92%是男性程序员,男女比例悬殊。可回首 IT 历史长河,热爱技术、富有创新思维、编程能力超群的“代码女神”们始…

ElasticSearch 文档的添加、获取、更新、删除_05

文章目录新建文档获取文档批量获取文档更新查询更新删除文档批量操作新建文档 首先新建一个索引。 然后向索引中添加一个文档: PUT blog/_doc/1 {"title":"6. ElasticSearch 文档基本操作","date":"2021-12-07","c…

构建实时数据仓库首选,云原生数据仓库技术解密

阿里云分析型数据库重磅推出基础版,极大降低了用户构建数据仓库门槛。高度兼容MySQL,极低的使用成本和极高的性能,使中小企业也可以轻松的搭建一套实时数据仓库,实现企业数据价值在线化。 AnalyticDB for MySQL的产品系列包括基础…

阿里宜搭发布专有云版本,基于云原生的应用构建PaaS平台

4月8日,阿里巴巴旗下0代码应用搭建平台“宜搭”发布专有云版本,可以基于阿里云专有云为客户实施专有云部署,实现客户数据的专有云存储,为政府、大型企业提供高稳定、高安全的应用搭建服务,支持业务在线,实现…

ElasticSearch 文档路由,你的数据到底存在哪一个分片上_06

es 是一个分布式系统,当我们存储一个文档到 es 上之后,这个文档实际上是被存储到 master 节点中的某一个主分片上。 例如新建一个索引,该索引有两个分片,0个副本,如下: 接下来,向该索引中保存…

云原生安全模型与实践

来源 | 玉符科技在传统的研发中,我们经常关注的「安全」包括代码安全、机器(运行环境)安全、网络运维安全,而随着云原生时代的到来,如果还按原有的几个维度切分的话,显然容易忽略很多云原生环境引入的新挑战…

阿里云专家详解 2020 服务网格发展趋势

作者 | 王夕宁 阿里巴巴高级技术专家 关注“阿里巴巴云原生”公众号,参与文末留言互动,即有机会获得赠书福利! 本文摘自于由阿里云高级技术专家王夕宁撰写的《Istio 服务网格技术解析与实践》一书,文章从基础概念入手&#xff0…

小姐姐亲身体验:在阿里数据库科研团队实习是种怎样的体验?

作者简介: 张心怡,北京大学前沿交叉研究院研究生,中国人民大学信息学院本科生。从18年底开始在POLARDB-X团队智能数据库组的实习,现已在阿里度过了一年多的时光。 心怡说,对于有志于数据库领域研究的小伙伴&#xff0c…

2020职场人裸辞三大原因:不开心、工资低、没有盼头

近期,脉脉发布了《2020职场人裸辞现状调研报道》,报道显示2020最让职场人想裸辞的三大原因为:不开心、工资低、没有盼头。报告数据中还显示,工资不满预期是最让人想要裸辞的主要原因,但有超过6成职场人表示&#xff0c…

冠状病毒过后世界九大未来预测

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 随着COVID-19的泛滥在全球范围内蔓延,这迫使人类进行创新并改变我们的工作和生活方式。我们现在发现自己的优势在…

疫情宅家促生“囤货经济”,北美零售业极限应考

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 疫情之下,美国零售业同样遭遇冰火两重天的困境。 危机产生和意识到危机产生是两件事情。就在美国对着中国的疫情…

还不懂Redis?看完这个故事就明白了!

来源 | 编程技术宇宙责编 | Jerry我是Redis你好,我是Redis,一个叫Antirez的男人把我带到了这个世界上。说起我的诞生,跟关系数据库MySQL还挺有渊源的。在我还没来到这个世界上的时候,MySQL过的很辛苦,互联网发展的越来…

2020年软件工程现状:Python或将成为第一大编程语言,中国开源涨势最猛

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 现在,是时候谈一谈 2020 年及以后的软件工程状况了。本文以 GitHub Octoverse 数据为基础,加上我作为…

解密阿里云大规模深度学习性能优化实践

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 作者 | 阿里云异构计算AI加速负责人 游亮 近日,斯坦福大学公布了最新的 DAWNBench 深度学习榜单,这是…