EMR on ACK 全新发布,助力企业高效构建大数据平台

简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。

一、背景介绍

技术趋势  

  • 存储与计算分离,向云原生演进
  • 在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率
  • 统一运维入口,统一运维工具链,统一监控体系
  • 以集群为中心->以作业为中心
  • 多版本支持,例如可以同时跑 Spark2.x、Spark3.x

云原生面临挑战

  • 计算与存储分离:如何构建以对象存储 OSS 为底座的 HCFS 文件系统

• 需要完全兼容现有的 HDFS

• 性能对标 HDFS,成本降低

  • 计算引擎 shuffle 数据存算分离:如何解决 ACK 混合异构机型

• 异构机型没有本地盘

• 社区[ Spark-25299]讨论,支持 Spark 动态资源,成为业界共识

  • ACK 调度能力:如何解决调度性能瓶颈

• 性能对标 Yarn

• 多级队列管理

  • 错峰调度

• 借助 K8s 操作系统能力,编排组织各种业务的波峰波谷

EMR on ACK 优势

  • Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案

• 可以使计算节点无需本地盘和云盘

• 支持打开 Spark 动态资源功能,Spark-25299 终极方案

  • JindoFS 针对 OSS 存储提供湖加速解决方案

• Block 模式1TB TPCDS 场景下有15%以上的性能提升

  • 调度层面支持 Scheduler Framework V2

• 调度性能比社区提升3x以上

• 提供多级队列管理

  • 引擎能力增强

• 10TB TPCDS Benchmark 场景下,EMR Spark 比社区有3x性能提升

• Hudi、DeltaLake 比社区功能性能增强

  • 完整的错峰调度方案

二、EMR 容器化架构

EMR on ACK 架构

B6E96596-E258-479c-B9EE-1ADE827BEA73.png

  • 轻量化管控,对接已有数据平台
  • 通过数据开发集群/调度平台提交到不同的执行平台
  • 错峰调度,根据业务高峰低峰策略调整
  • 云原生数据湖架构,ACK 弹性扩缩容能力强
  • ACK 管理异构机型集群,灵活性好

三、产品介绍

产品首页

参考链接:https://www.aliyun.com/product/emapreduce

EMR on ACK Beta 版,前往体验>>

image.png

新建集群

  • 地域:目前开放杭州、上海、北京、深圳等地域(持续开放中)
  • 集群类型:Spark 、Shuffle Service、Presto
  • Spark — 通用的分布式大数据处理引擎

     • 提供了 ETL、离线批处理、数据建模等能力

  • Shuffle Service — 针对 EMR 计算引擎提供优化的 Shuffle 服务

• 解决 Kubernetes 下对本地盘的依赖问题

• 解决大规模计算集群的网络和磁盘的 IO 瓶颈

• 支持计算与存储分离的架构,可服务多个 EMR 集群

  • Presto — 基于内存的分布式 SQL 交互式查询引擎

     • 支持多种数据源

• 适合 PB 级海量数据的复杂分析,以及跨数据源的查询

  • 组件版本:Spark (3.1.1)
  • 专属节点:

• 现有 ACK 集群,share 部分节点给到 EMR

• 新建 ACK 集群,可选择整个集群为专属节点

  • OSS Bucket:用于存储作业、日志、jar 包等信息

image.png

集群管理

image.png

  • 集群 ID/名称:点击进入作业管理

image.png

  • 集群状态:检测集群是否可用
  • 所属 ACK 集群:可关联到现有 ACK 集群
  • 配置:Spark 作业配置
  • 释放:释放空间

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512509.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为120hz鸿蒙系统,华为亮剑,120Hz+鸿蒙系统+5500mAh,竟然如此销魂

原标题:华为亮剑,120Hz鸿蒙系统5500mAh,竟然如此销魂随着制造工艺的不断成熟,智能手机也迎来了前所未有的发展,同时这也导致了手机厂商们之间的竞争变得愈发的激烈了。众所周知,华为手机是一个深受普通老百…

云上应用系统数据存储架构演进

简介: 回顾过去二十年的技术发展,整个应用形态和技术架构发生了很大的升级换代,而任何技术的发展都与几个重要的变量相关。本文将会给大家分享应用系统数据架构的演进以及云上的架构最佳实践。 作者 | 木洛 来源 | 阿里技术公众号 一 前言 …

深入解析 Dubbo 3.0 服务端暴露全流程

简介: 随着云原生时代的到来,Dubbo 3.0 的一个很重要的目标就是全面拥抱云原生。正因如此,Dubbo 3.0 为了能够更好的适配云原生,将原来的接口级服务发现机制演进为应用级服务发现机制。 作者介绍 熊聘,Github账号pin…

jquery将html转换word,HTML代码转word!亲测!可用!!!

现在项目中遇到一个需求,就是一个富文本编辑区中,有echars表格。用户点击保存按钮,需要导出为word文档。因为现在接手的项目,是基于上一个项目的框架。两个项目功能点差不多。但是在导出word这块,是后台java做的。也就…

智能搜索推荐一体化营收增长解决方案

简介: 图数据库GDB提供智能搜索推荐一站式服务,基于达摩院的智能搜索推荐算法和知识图谱技术,助力企业快速过渡冷启动过程,面向业务场景定制化方案,以提升核心业务指标,实现业务营收增长。 方案架构 方案特…

Redis 使用 List 实现消息队列的利与弊

作者 | 码哥字节 来源 | 码哥字节 分布式系统中必备的一个中间件就是消息队列,通过消息队列我们能对服务间进行异步解耦、流量消峰、实现最终一致性。 目前市面上已经有 RabbitMQ、RochetMQ、ActiveMQ、Kafka等,有人会问:“Redis 适合做消息队…

阿里云表格存储全面升级,打造一站式物联网存储新方案

简介: 阿里云表格存储全面升级,打造一站式物联网存储新方案 2021年9月1日,阿里云表格存储Tablestore重磅发布新能力:一站式物联网存储IoTstore。该新能力是阿里云表格存储Tablestore面向物联网深度垂直场景进行的一次技术升级&am…

手把手一起 图形化安装 k8s 集群

作者 | 小碗汤来源 | 我的小碗汤今天接着上一节,使用 KuboardSpray 图形化安装kubernetes集群[1],记录了安装时可能遇到的问题。对此项目感兴趣的同学,不妨亲手实践一下~以下记录了安装单节点(单master的集群)&#xf…

Jaeger插件开发及背后的思考

简介: 本文主要介绍Jaeger最新的插件化后端的接口以及开发方法,让大家能够一步步的根据文章完成一个Jaeger插件的开发。此外SLS也推出了对于Jaeger的支持,欢迎大家试用。 随着云原生 微服务的推广和落地,服务监控也变得越来越重…

基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-架构篇

简介: 本文简要介绍了基于 MySQL 结合 Tablestore 的大规模订单系统方案。这种方案支持大数据存储、高性能数据检索、SQL搜索、实时与全量数据分析,且部署简单、运维成本低。 作者 | 弘楠 来源 | 阿里技术公众号 一 背景 订单系统存在于各行各业&#…

ajax返回来总是html,ajax返回类型

基于arcgis的webgis开发中目前是否还直接用ajax技本人是arcgis刚接触者,以前有听说过ajax这个技术,用于浏览器和web服务ajax技术现在依然是客户端浏览器和服务器交互的重要手段。 如果你用arcgis api for js技术,同样会使用ajax技术。这是良好…

三分钟教你用 Scarlet 写一个 WebSocket App

作者 | Eason来源 | 程序员巴士在移动应用程序中,数据层是屏幕上显示内容的真实来源。然而,在今年早些时候在 Tinder 中集成了 WebSocket API 时,维护它成为了一个令人头疼的问题。为了在 Android 上更轻松地集成 WebSocket,Scarl…

重磅发布|新一代云原生数据仓库AnalyticDB「SQL智能诊断」功能详解

简介: AnalyticDB For MySQL为用户提供了高效、实时、功能丰富并且智能化的「SQL智能诊断」和「SQL智能调优」功能,提供用户SQL性能调优的思路、方向和具体的方法,降低用户使用成本,提高用户使用ADB的效率 SQL是一种简单易用的业…

技术干货|基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

简介: 阿里云技术专家李少锋(风泽)在Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站上的演讲整理稿件,本议题将介绍典型 CDC 入湖场景,以及如何使用 Pulsar/Hudi 来构建数据湖,同时将会分享 Hudi 内核设计、新愿景以及社区最新…

探究 Java 应用的启动速度优化

简介: 在高性能的背后,Java 的启动性能差也令人印象深刻,大家印象中的 Java 笨重缓慢的印象也大多来源于此。高性能和快启动速度似乎有一些相悖,本文将和大家一起探究两者是否可以兼得。 作者 | 梁希 高性能和快启动速度&#x…

阿里云刘伟光:金融核心系统将步入分布式智能化的时代

1月18日,阿里云在京发布金融核心系统转型“红宝书”,并推出“金融级云原生工场”,通过新的建设理念和相应的全链路平台技术,以及先进的部署体系,支撑金融机构建设面向未来的新一代分布式智能化核心系统。 阿里云智能新…

5分钟搞定Loki告警多渠道接入

简介: Loki是受Prometheus启发的水平可扩展、高可用、多租户日志聚合系统。用户既可以将Loki告警直接接入SLS开放告警,也可以先将Loki接入Grafana或Alert Manager,再借助Grafana或Alert Manager实现Loki间接接入SLS开放告警。 直接接入 您可…

当微服务遇上 Serverless | 微服务容器化最短路径,微服务 on Serverless 最佳实践

简介: 阿里云Serverless应用引擎(SAE)初衷是让客户不改任何代码,不改变应用部署方式,就可以享受到微服务K8sServerless的完整体验,开箱即用免运维。 前言 微服务作为一种更灵活、可靠、开放的架构&#x…

学计算机就业靠谱吗,2018年计算机专业就业怎么样?

由孙中山先生创办的至今已有一百多年办学传统,已经成为一所国内一流、国际知名的现代综合性大学。涉足的领域较广,有法律、医学等领域,每个领域都取得不俗的成绩。该校的计算机专业自开设以来也颇受学生欢迎,2018年计算机专业就业…

Serverless 工程实践 | 细数 Serverless 的配套服务

简介: 上文说到云计算的十余年发展让整个互联网行业发生了翻天覆地的变化,Serverless 作为云计算的产物,或者说是云计算在某个时代的表现,被很多人认为是真正意义上的云计算,关于“Serverless 是什么”这个问题&#x…