Spark精华问答 | spark性能优化方法

640?wx_fmt=png

Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧。



640?wx_fmt=gif1

Q:影响性能的主要因素是什么?


A:网络传输开销大

硬件资源利用率低

同一资源的复用率低


640?wx_fmt=gif2

Q:优化的方向有哪些?


A:设置数据本地化,减少跨节点跨机架的网络传输开销

设置合适的存储格式,推荐orc,缩短查询时间

设置内存计算的大小和task数量,根据集群内存和磁盘大小调整

调整分区数量,提高查询性能

减少RDD的重复创建,同时尽可能复用已存在的RDD

减少使用shuffle类算子(reduceByKey,join,distinct,repartition)

选择可替代的最佳算子,reduceByKey替代groupByKey,mapPartitions替代map

避免数据倾斜,如map端Join,对数据深入理解的前提修改key调整reduce端的数据倾斜

提高spark最大的瓶颈-内存


640?wx_fmt=gif3

Q优化的手段


A:调优参数虽名目多样,但最终目的是提高CPU利用率,降低带宽IO,提高缓存命中率,减少数据落盘。 (以下参数主要用于Spark Thriftserver,仅供参考)640?wx_fmt=png


640?wx_fmt=gif4

Q:Spark生态圈介绍


A:Spark力图整合机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等领域,通过计算引擎Spark,弹性分布式数据集(RDD),架构出一个新的大数据应用平台。


    Spark生态圈以HDFS、S3、Techyon为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎;使用Spark,可以实现MapReduce应用;基于Spark,Spark SQL可以实现即席查询,Spark Streaming可以处理实时应用,MLib可以实现机器学习算法,GraphX可以实现图计算,SparkR可以实现复杂数学计算。640?wx_fmt=png


640?wx_fmt=gif5

Q:Spark SQL


A:基于HiveQL与Spark交互的API接口,将一个数据库表看作一个RDD进行操作

数据类型为DataFrame,支持结构化的数据文件,Hive表和已存在的RDD

兼容性好,支持nosql数据库

通过内存列存储技术和字节码生成技术实现空间占用量,读取吞吐率和SQL表达式的优化,查询性能高


640?wx_fmt=png

小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg

2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!


推荐阅读:

  • 三十四载Windows崛起之路: 苹果、可视做过微软“铺路石”

  • 面试官:你简历中写用过docker,能说说容器和镜像的区别吗?

  • 2019年技术盘点容器篇(二):听腾讯云讲讲踏入成熟期的容器技术 | 程序员硬核评测

  • C++、Python、Rust、Scala构建编译器的差异性究竟有多大?

  • 想换行做 5G 的开发者到底该咋办?

  • 如何在标准的机器学习流程上玩出新花样?

  • 独家 | Vitalik Buterin:以太坊2.0之跨分片交易

  • 滴滴章文嵩:不仅软件开源,还向学界开放数据


    真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/523211.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云Elasticsearch的X-Pack:机器学习、安全保障和可视化

摘要: ELK是日志分析领域较为流行的技术选择,不少阿里云用户选择在ECS上搭建开源Elasticsearch。与自建开源Elastisearch相比,阿里云Elasticsearch做了性能优化,支持弹性扩容,并搭载了商业版组件X-Pack,为用…

2017北京云栖大会:云效企业级协同研发专场议题揭秘!

摘要: 阿里巴巴原汁原味的研发协同平台是如何支撑双十一1682亿背后的研发协同?大中型企业如何完成公有云/专有云/混合云转型升级,实现高效协同研发? 阿里巴巴原汁原味的研发协同平台是如何支撑双十一1682亿背后的研发协同&#xf…

毋庸置疑,容器带来改变!

戳蓝字“CSDN云计算”关注我们哦!作者 | 刘晶晶对于飞贷金融科技副总裁陈定玮而言,金融行业数据具有相较于其他行业更为严格的的高标准安全性要求,对容错的要求更为尤甚;此外是否能高效支撑飞贷金融科技的核心业务,尤其…

阿里云发布首款全球智能互联的网络产品——云骨干网

摘要: 12月13日,阿里发布全球首款智能互联的网络产品–云骨干网(Cloud Backbone Network)。这款产品能够分钟级构建多地域全球网络,并和混合云连成一体,打造具有企业级规模和通信力的智能云上骨干网络。12月…

MaxCompute复杂数据分布的查询优化实践

摘要: 2017年中国大数据技术大会于12月7-9日在北京新云南皇冠假日酒店隆重举行, 大会就大数据时代社会各行业的智能化进程和行业实践展开深入讨论。 在12月8日的“大数据分析与生态系统”分论坛上,来自阿里巴巴计算平台事业部的高级技术专家少杰&#xf…

Linux 主机信息 总览

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…

这项技术,风头正劲,BAT要力捧!程序员:我彻底慌了...

人工智能离我们还遥远吗?近日,海底捞斥资1.5亿打造了中国首家火锅无人餐厅;阿里酝酿了两年之久的全球首家无人酒店也正式开始运营,百度无人车彻底量产。李彦宏称,这是中国第一款能够量产的无人驾驶乘用车。而阿里的这家…

joi模块验证日期格式_python datetime模块详解

一、datetime模块介绍通过print(dir(datetime)),我们可以看到模块内属性和类:[MAXYEAR, MINYEAR, __builtins__, __cached__, __doc__, __file__, __loader__, __name__, __package__, __spec__, date, datetime, datetime_CAPI, sys, time, timedelta, …

AliOS Things 基于组件化思想的多bin特性

摘要: 今年杭州云栖大会上,AliOS Things正式发布,其中有一个基于组件化思想的多bin特性,这是AliOS Things有专利保护的多bin fota升级解决方案的核心 今年杭州云栖大会上,AliOS Things正式发布,其中有一个基…

数据库风云:老骥伏枥,新秀辈出

戳蓝字“CSDN云计算”关注我们哦!作者:姜洪军“在数据库技术方面,亚马逊落后甲骨文10至20年”。2018年10月23日,甲骨文(Oracle)创始人、执行董事长拉里埃里森,在甲骨文举办的一次大会的主题演讲…

解读阿里云oss-android/ios-sdk 断点续传(多线程)

摘要: oss sdk 断点续传功能使用及其相关原理 前言 移动端现状 随着移动端设备的硬件水平的不断提高,如今的cpu,内存等方面都大大的超过了一般的pc电脑,因此在现今的程序中,合理的使用多线程去完成一些事情是非常有必…

云钻还在吗 苏宁怎么解除实名认证_快手7天怎么养号,5步简易养号方案送上

今天我们聊一聊,新注册的快手号,7天怎么养号?为什么要养号?什么情况下需要养号?一般来说,新账号、播放量不高、很少热门、违规等情况,都需要养号。养号有什么作用?养号的作用很多&am…

将html表格导出到excel表格,table2excel-将HTML表格内容导出到Excel中_html/css_WEB-ITnose...

简要教程jquery-table2excel是一款可以将HTML表格的内容导出到微软Excel电子表格中的jQuery插件。该插件可以根据你的需要导出表格中的内容,不需要的行可以不导出。它文件体积小,使用非常方便。注意导出的Excel文件的格式,默认导出为.xlsx格式…

RDS读写分离,海量数据一键搞定

简介 RDS为用户提供高透明,高可用,高性能,高灵活的读写分离服务。在最近的版本我们基于短连接的用户进行了优化,使得短连接的用户负载均衡更加完善合理。RDS读写分离有如下特性: 易用/透明性 用户只需要在原来的只读…

7 行代码优雅地实现 Excel 文件导出功能?

文章目录一、前言二、Apache poi、jxl 的缺陷三、阿里出品的 EasyExcel,安利一波四、EasyExcel 解决了什么五、快速上手5.1 添加依赖5.2 七行代码搞定 Excel 生成六、特殊场景支持七、Web 下载示例代码八、需要注意的点九、总结一、前言 关于导出 Excel 文件&#…

Docker精华问答 | 用dockerfile制作镜像

Docker 是个划时代的开源项目,它彻底释放了计算虚拟化的威力,极大提高了应用的维护效率,降低了云计算应用开发的成本!使用 Docker,可以让应用的部署、测试和分发都变得前所未有的高效和轻松!1Q:…

日志服务Flink Connector《支持Exactly Once》

摘要: Flink log connector是阿里云日志服务推出的,用于对接Flink的工具,包含两块,分别是消费者和生产者,消费者用于从日志服务中读数据,支持exactly once语义,生产者用于将数据写到日志服务中&…

两个瓶子水怎样一样多_同事每天比我多睡两个小时!省下70万买了地铁站附近房子 杭州姑娘却感叹买房时一定是脑子进了水……...

都市快报讯 你上下班路上要多久?这个问题最近引起网友热议。 昨天,杭州市城乡建设发展研究院发布11月份城区交通运行分析:从上个月起,杭州的交通运行已经开启“冬季模式”,晚高峰出行进一步集中,拥堵程度环…

为什么电路交换不适合计算机网络,电路交换技术不适合计算机数据通信

5.2 分组交换原理上一节介绍了计算机网络的组成和网络的体系结构,其中通信子网的基本任务就是将数据信息从源点传送到S的点,在源点与目的点之间可能要经过许多个链路和中继节点。链路的功能是传输,而中继节点的功能是交换,也就是从…

Kibana:数据分析的可视化利器

摘要: 阿里云Elastisearch集成了可视化工具Kibana,用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外,还拥有地理位置分析、数据图谱分析、时序数据分析等高级功…