阿里大数据云原生化实践,EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播 第六期

 

主题:EMR spark on ACK 产品演示及最佳实践

 

讲师:石磊,阿里云 EMR 团队技术专家

 

内容框架:

  • 云原生化挑战及阿里实践
  • Spark 容器化方案
  • 产品介绍和演示

 

直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/246868

 

 

 

一、云原生化挑战及阿里实践

大数据技术发展趋势

image.png

云原生化面临挑战

计算与存储分离

如何构建以对象存储为底座的 HCFS 文件系统

  • 完全兼容现有的 HDFS
  • 性能对标 HDFS,成本降低

 

shuffle 存算分离

如何解决 ACK 混合异构机型

  • 异构机型没有本地盘
  • 社区 [Spark-25299] 讨论,支持 Spark 动态资源,成为业界共识

 

缓存方案

如何有效支持跨机房、跨专线混合云

  • 需要在容器内支持缓存系统

 

ACK 调度

如何解决调度性能瓶颈

  • 性能对标 Yarn
  • 多级队列管理

 

其他

  • 错峰调度
  • Yarnon ACK 节点资源相互感知

 

 

阿里实践 - EMR on ACK

image.png

 

整体方案介绍

 

image.png

  • 通过数据开发集群/调度平台提交到不同的执行平台
  • 错峰调度,根据业务高峰低峰策略调整
  • 云原生数据湖架构,ACK 弹性扩缩容能力强
  • 通过专线,云上云下混合调度
  • ACK 管理异构机型集群,灵活性好

 

 

二、Spark 容器化方案

方案介绍

image.png

RSS Q&A

1、为什么需要 Remote Shuffle Service?

  • RSS 使得 Spark 作业不需要 Executor Pod 挂载云盘。挂载云盘非常不利于扩展性和大规模的生产实践。
  • 云盘的大小无法事前确定,大了浪费空间,小了 Shuffle 会失败。RSS 专门为存储计算分离场景设计。
  • Executor 将 shuffle 数据写入了 RSS 系统,RSS 系统来负责管理 shuffle 数据,Executor 空闲后即可以回收。[SPARK-25299]
  • 可以完美支持动态资源,避免数据倾斜的长尾任务拖住 Executor 资源不能释放。

 

2、RSS 性能如何,成本如何,扩展性如何?

  • RSS 对于 shuffle 有很深的优化,专门为存储与计算分离场景、K8s 弹性场景而设计。
  • 针对 Shufflefetch 阶段,可以将 reduce 阶段的随机读变为顺序读,大大提升了作业的稳定性和性能。
  • 可以直接利用原有 K8s 集群中的磁盘进行部署,不需要加多余的云盘来进行 shuffle。性价比非常高,部署方式灵活。

 

Spark Shuffle

image.png

  • 产生 numMapper * numReducer 个 block
  • 顺序写、随机读
  • 写时 Spill
  • 单副本,丢数据需 stage 重算

 

EMR Remote Shuffle Service

image.png

  • 追加写、顺序读
  • 无写时 Spill
  • 两副本;副本复制到内存后即完成
  • 副本之间通过内网备份,无需公网带宽

 

RSS TeraSort Benchmark

image.png

  • 备注说明:以10T Terasort 为例,shuffle 量压缩后大约 5.6T。可以看出该量级的作业在 RSS 场景下,由于 shuffle read 变为顺序读,性能会有大幅提升。

 

 

Spark on ECI 效果

image.png

Summary

image.png

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剪映电脑版_七款手机剪辑app,效果堪比电脑软件

鉴于很多小伙伴因为没有电脑或者电脑配置低带不动pr或者AE的这类软件,但是又对剪辑有一定兴趣的人,可以先从手机上的剪辑做起,可以为以后的电脑办公打下很好的基础,亦或者有些人在电脑不方便用的情况下,想先用手机大致…

xposed 修改参数_【Android 原创】2020春节红包第三题Xposed框架Hook的应用

作者论坛账号:CrazyNut准备工具以及思路首先不了解Xposed框架Hook的可以看看大佬的基础教程 - 《教我兄弟学Android逆向12 编写xposed模块》本文不需要会看懂汇编代码,当你看完上面的文章,学会Xposed框架Hook的简单应用后。就算是从未接触过的…

Let‘s Fluent:更顺滑的MyBatis

简介: 只需瞅一眼Google Trends上全球Java界最热门的两款SQL映射框架近一年的对比数字,就不难了解其实力分布:在此领域,MyBatis早已占领东亚地区开发者市场,并以绝对优势稳居中国最抢手Java数据库访问框架之首。 作者 …

元宇宙会成为 IPv6 的拐点吗?

‍‍作者 | 马超,王丽丽,王一凡 责编 | 张红月出品 | CSDN(ID:CSDNnews)“如无必要,勿增实体”的奥卡姆剃刀原则,从IT人士的角度来看就是“只要能运行,就千万不要改”&#xf…

php网站加广告位,HotNews Pro主题文章内容上面添加广告位

使用的HotNew Pro主题后,文章内容上面没有广告位,但是有时需要在那个位置添加广告,就使用了一款叫Smart Ads广告管理插件,这个插件可以在文章内容上面和下面添加广告,直到昨天我删掉了Smart Ads这款插件,因…

电脑编程教学_东莞沙田mastercam编程学习怎么收费

东莞沙田mastercam编程学习怎么收费深圳卓越培训中心UG综合班主要课程:1,软件介绍,界面熟悉 ,快捷键,图层使用。2,草图使用,三维曲线绘制修改,草图线3D线互相转换。3,建模…

arduinowifi.send怎么获取响应_Vue3.0 响应式原理 (一)

前几天,回顾整理下关于vue2.0的响应式原理。温故而知新么,那么今天,整理了一下关于vue3.0的响应式原理,利用 JavaScript 来写的。本着尽可能的清晰易懂的原则,所以,可能会分几篇文章来发布。那现在开始上菜…

Gartner 最新预测:全球云收入将超非云收入,云原生、低代码、SASE 继续普及

2022年全球云收入将从2021年的4080亿美元增长至4740亿美元 Gartner 认为持续的疫情和数字服务的激增正在使云成为新数字服务的核心。 Gartner 公司的杰出副总裁 Milind Govekar 表示:“没有云战略就等于没有业务战略。随着企业在新工作负载上实行‘云优先’政策&am…

OceanBase首次阐述战略:继续坚持自研开放之路 开源300万行核心代码

简介: 在数据库OceanBase3.0峰会上,蚂蚁集团自主研发的分布式数据库OceanBase首次从技术、商业和生态三个维度对未来发展战略进行了系统性阐述。同时,OceanBase宣布正式开源,并成立OceanBase开源社区,社区官网同步上线…

猴子选大王 java,PAT-JAVA-5-28 猴子选大王 (20分)

F(1)0当有2个人的时候(N2),报道(M-1)的人自杀,最后自杀的人是谁?应该是在只有一个人时,报数时得到的最后自杀的序号加上M,因为报到M-1的人已经自杀,只剩下2个人,另一个自杀者就是最后自杀者&…

amd核芯显卡控制面板自定义分辨率_主流显卡的一位猛将:蓝宝石Radeon RX 5500XT显卡首测...

一直以来主流级显卡总是处于一个较为尴尬的位置,原因是由于性能的限制,主流显卡经常位于不上不下的局面。上面和电竞级显卡有很大的性能差距,而往下又感受了日新月异的核显的压力。于是很多玩家宁可加钱购买电竞显卡也不愿意购买这些主流显卡…

阿里云研究员叔同:云原生是企业数字创新的最短路径

简介: 今天,数字化成为企业的核心竞争力,千行百业都在拥抱云计算,拥抱云原生。2020年我们认为是云原生的落地元年,那么2021年将是云原生加速推动企业数字创新的关键节点。 作者 | 叔同 来源 | 阿里技术公众号 今天&am…

计算 a+aa+aaa+aaaa+aaaaa+ 的和_海南A级景区,三亚市就有14个,你都去过吗

日前,海南省旅游资源规划开发质量评定委员会发布2020年第2号和2020年第3号公告,海南长影环球100奇幻乐园批准为国家4A级旅游景区,海南霸王岭国家森林公园和桂林洋国家热带农业公园批准为国家3A级旅游景区。具体公告如下:海南省旅游…

php7 daemon,编译PHP7

PHP7PHP7都出了,自然我是要安装的,上次写的那个编译开发环境并没有针对性的说PHP,就这次说清楚吧。Download$ wget http://cn2.php.net/get/php-7.0.0.tar.gz/from/this/mirror$ mv mirror php7.tar.gz$ tar -zxvf php7.tar.gz$ cd php7libxm…

如何成为云原生时代的卓越架构师

简介: “软件开发需要面对本质困难和附属困难。云原生、DevOps大幅降低了附属困难,使得架构师可以全力聚焦于业务复杂性,而DDD恰是管理业务复杂性的有效方法。” 本文作者:张刚,阿里云云效资深技术专家,AL…

创业 4 年获近 7000 万美元融资,53 岁老程序员 all in 开源

作者 | 伍杏玲 今年 6 月,《人均估值 5000 万 RMB,53 岁程序员能做到的,你也能!》一文刷爆技术人的朋友圈:2017 年成立的涛思数据,四年获近 7000 万美元融资,目前这个 40 人团队估值超 3 亿美元…

.net pdf转图片_PDF转图片怎么做?PDF一键转图片!

在日常工作中,我们经常需要把文件资料传给其他人看。但如果文档是PDF格式的话,很可能他人的设备因缺少相应的阅读工具而无法打开。这时,最好的方法就是将PDF文件转换成图片!这样不管是在电脑还是在一些移动设备上都可以查看。接下…

为什么你应该关心领域模型?

简介: 领域模型是DDD的核心,更是业务的深入认知 作者简介:张刚,软件工程博士,阿里云云效资深技术专家,ALPD方法学核心成员。 引言 领域模型是重要的概念。但是,真正了解并能熟练运用它的人并不…

三包围结构的字是什么样的_一年级语文重点(字、字母、字词、词语、句子)知识点汇总!...

一年级语文重点汇总一、字母A B C D E F G H I J K L M N O P Q R S T U V W X Y Za b c d e f g h i j k l m n o p q r s t u v w x y z二、 字1、组词。(形近字和同音字)么(什么) 无(无法) 高(高兴)公(公共) 元(一元…

empinfo Oracle数据库,Oracle数据库中相关技术详细操作

1.Distinct消除重复行数据:SELECT DISTINCT DEPTNO FROM EMP2.NULL操作如果某条记录中有缺少的数据值,就是空值(NULL值)。空值不等于0或者空格,空值是指未赋值、未知或不可用的值。任何数据类型的列都可以包括NULL值,除非该列被定义为非空或者…