Spark精华问答 | Spark的三种运行模式有何区别?

戳蓝字“CSDN云计算”关注我们哦!


640?wx_fmt=png

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。今天,就让我们一起来看看关于它的更加深度精华问答吧!


640?wx_fmt=gif1
















Q:Spark的三种运行模式有何区别?Spark Client 和 Spark Cluster的区别 ?


A:单机:

local[n] 单机伪分布式模式,n个线程分别充当driver和Executors,由于driver和Executors处于同一个jvm,算子可以访问外部的变量。很多新手的坏习惯就是从这里养成的。

集群:

standalone spark worker组成集群,Spark内置的集群搭建模式。适合于不太依赖Hadoop的运算环境,或者存储集群和计算集群分离的场景。

yarn 运行与Hadoop Yarn集群之上。作业调度、资源调度由Yarn分配。Yarn在这方面做得比Spark standalone集群好,适用于存储计算合一,或者需要依赖MR、Hive等作业的场景。

部署模式:

client driver运行于执行spark-submit脚本的机器上。这机器不一定是集群的节点,你可以在Windows上运行driver,Linux集群运行Executors。cluster 作业提交后,driver运行于集群上的某一个节点上,集群视其为一个Executor,相当于后台程序。

standalone和yarn(还有mesos,这个不了解)都支持client/cluster两种模式。前者由--master参数控制,后者由deploy-mode参数控制。


640?wx_fmt=gif2

Q:Spark算子内能不能引用SparkSession?


A:Spark的算子是在executor上执行的,数据也是放在executor上。executor和driver并不在同一个jvm(local[*]除外),所以算子是不能访问在driver上的SparkSession对象。

好好品味一下这个图:

640?wx_fmt=png

     

如果一定要“在算子里访问SparkSession”,那只能把数据collect回Driver,然后用Scala 集合的算子去做。这种情况下只能适用于数据量不大(多大取决于分配给Driver的内存)。另外建议是通过join的方式获取关联数据并进行处理。


640?wx_fmt=gif3

Q:一个使用Sparksql查询Hbase数据的功能,只取结果的1000条数据,用的limit算子,最后用foreachPartition算子将数据插入数据库中,但是Hbase那张表的数据量很大,有3000多个region,查看sparkui,发现竟然是要把所有的数据都要加载一遍取出对应的数据,所以Sparksql计算的时候是要把所有的数据都要加载一遍计算吗?


A:如果数据量巨大而集群计算资源吃不消的话,就建议不要用HBase存储数据,HBase并不留存任何结构化信息,同时也没有索引,因此并不适合多维查询。用Hive+Parquet+合理的分区分桶优化+SparkSQL查询性能会可观得多。另外更酷炫的是Spark+CarbonData,满足绝大多数OLAP需求,甚至详单查询的性能也很恐怖,并且支持update delete insert。


640?wx_fmt=gif4

Q:在其他机器上部署了HDFS、HBase、Spark,请问怎么在本地调试Java Spark来操作远程的HBase,就像操作远程数据库一样?


A:1. HBase是一个数据库(分布式),有自己的JDBC,可以根据HBase的JDBC开发自己应用, 只要能连接上,本地远程都可以。

2. Spark集群部署好了,写好Spark作业提交给Spark集群,Spark cluster计算完成后,可以参看结果。

3. Spark相关的rest server是livy,然而并不是很好用有一定的版本和环境要求,很多开发者会选择避开这个坑,所以你会看到网上的大部分博客。

4. 推荐Linux环境下开发,少爬很多坑,Windows不适合大数据相关的开发。


640?wx_fmt=gif5

Q:HDP2.4.0版本,Spark SQL运行在yarn-client模式,现在发现有些语句跑特别慢,20个节点,一千多个CPU核心,8TB内存,数据量不到一亿条,都是类似这样的语句:

640?wx_fmt=png

group by十个字段,然后sum20多个值,竟然要十分钟以上,而把数据加载到一台oracle服务器,开启多核计算,同样语句只要30秒。

Spark SQL设置成动态分配,spark.dynamicallocation.enabled=true,设置成最大最小和初始化都是300。发现是卡在最后一个task里,例如有200个任务,卡在最后一个任务里,最后一个任务占95%以上时间。Java调用Spark的thrift server接口,直接运行SQL语句,没有采用调Spark rdd方法,请问是什么问题?


A:典型的数据倾斜问题。在一个stage里,每个task对应一个partition,当有一个partition的数据量大于其他的,就会出现这样的情况。这种情况只能用代码的方法,观察问题所在的stage对应的dataset,然后在执行SQL前,reparation(>200,有文档建议是2k)。如果问题仍存在,就要对group by的字段值加盐,group by一轮后,去盐再group by得到最终数据。


----------------    --------------

小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


----------------    --------------


1.微信群:

添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


2.征稿:

投稿邮箱:liudan@csdn.net;微信号:color_ld。请备注投稿+姓名+公司职位。


推荐阅读

  • Gartner的预言:通向混合IT之旅

  • 崩溃!新浪程序员加班错失 77 万年会大奖

  • 刚刚!华为又被美国盯上了!

  • 阿里“菜鸟”AI?

  • 以太坊升级的拖油瓶,竟只是这几行代码

  • 程序员有话说 | 程序猿在乘地铁的时候都在想什么?

  • 清华北大“世界排名断崖式下跌”?


640?wx_fmt=gif点击“阅读原文”,打开 CSDN App 阅读更贴心!


640?wx_fmt=png喜欢就点击“好看”吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/524788.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言 全局变量和局部变量区别 - C语言零基础入门教程

目录 一.全局变量和局部变量简介 1.全局变量简介2.局部变量简介 二.全局变量和局部变量注意事项三.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.全局变量和局部变量简介 1.全局变量简介 在所有函数外部定义的变量称为全局变量(…

多线程下载多张图片

1.用Runnable 2.关联多线程下载多张图片_wanggang182007的博客-CSDN博客 package com.wuming.demo01;import org.apache.commons.io.FileUtils;import java.io.File; import java.io.IOException; import java.net.URL;//练习Thread,实现多线程同步下载图片 publi…

多线程:并发

package com.wuming.demo01; //多个线程同时操作同一个对象 //买火车票例子 //多个线程操作下不安全&#xff0c;出现紊乱 public class TestThread4 implements Runnable{/*** When an object implementing interface <code>Runnable</code> is used* to create a…

C语言 extern - C语言零基础入门教程

目录 一.简介二.extern 修饰变量 1.在单文件中使用 extern2.在多文件中使用 extern 三.extern 修饰函数四.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.简介 如果一个变量使用用关键字 extern &#xff0c;对该变量作“外部变量声明”&…

Spring-Data-JPA尝鲜:快速搭建CRUD+分页后台实例

戳蓝字“CSDN云计算”关注我们哦&#xff01;简书ID&#xff1a;我没有三颗心脏 github&#xff1a;wmyskxz 欢迎关注公众微信号&#xff1a;wmyskxz前言&#xff1a;由于之前没有接触过Hibernate框架&#xff0c;但是最近看一些博客深深被它的“效率”所吸引&#xff0c;所以…

C语言 static - C语言零基础入门教程

目录 一.static 简介二.static 修饰变量 1.static 局部静态变量2.static 全局静态变量 三.static 修饰函数四.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.static 简介 在 C 语言中&#xff0c;static 关键字不仅可以用来修饰变量&#xff…

多线程:实现Callable接口

package com.wuming.demo02;import com.sun.org.apache.xpath.internal.operations.Bool; import org.apache.commons.io.FileUtils;import java.io.File; import java.io.IOException; import java.net.URL; import java.util.concurrent.*;//练习Thread&#xff0c;实现多线程…

云重磅 | 阿里云开源Blink;华为发布5G Cloud VR;AWS 将举行AI 大会 re;英伟达下调5亿美元业绩预期...

戳蓝字“CSDN云计算”关注我们哦&#xff01;嗨&#xff0c;大家好&#xff0c;重磅君带来的【云重磅】特别栏目&#xff0c;如期而至&#xff0c;每周二第一时间为大家带来重磅新闻。把握技术风向标&#xff0c;了解行业应用与实践&#xff0c;就交给我重磅君吧&#xff01;重…

多线程:静态代理模式

//静态代理模式总结 //真实对象和代理对象都要实现同一个接口 //代理对象要代理真实角色 //好处&#xff1a;//代理对象可以丛很多真实对象做不了的事情//真实对象专注做自己的事情 public class StaticProxy {public static void main(String[] args) {You you new You();//你…

为什么使用lambda表达式

1.避免匿名内部类使用过多 package com.wuming.lambda; //推到lambda表达式 public class TestLambda1 {//静态内部类static class like2 implements Ilike{Overridepublic void lambda() {System.out.println("I like lambda2");}}public static void main(String[…

虚拟化精华问答 | 虚拟化会使管理更轻松吗?

戳蓝字“CSDN云计算”关注我们哦&#xff01;虚拟化是实现动态IT的重要基石&#xff0c;在虚拟化蓬勃发展的这些年里&#xff0c;虚拟化可以根据不同划分标准进行分类&#xff0c;包括全虚拟化&#xff0c;CPU 虚拟化&#xff0c;硬件虚拟化&#xff0c;服务器虚拟化等等&#…

C语言 fwirte 函数 - C语言零基础入门教程

目录 一.fwirte函数简介二.fwirte函数使用三.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.fwirte函数简介 C 语言文件读写&#xff0c;fread 函数用于读取文件中的数据到指定缓冲区中&#xff0c;而 fwrite 函数用于把缓冲区数据写入到文件…

Storm精华问答 | 为什么这么多人用Spark而不用Storm?

戳蓝字“CSDN云计算”关注我们哦&#xff01;Storm被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍&#xff0c;以及大数据实时处理解决方案的应用日趋广泛&#xff0c;目前已是分布式技术领域最新爆发点&#xff0c;而Storm更是流计算技术中的佼…

lambda总结

package com.wuming.lambda;public class TestLambda2 {public static void main(String[] args) {ILove lovenull;/* //1.lambda表示简化ILove love (int a)->{System.out.println("i love you-->"a);};//简化1.参数类型love(a)->{System.out.println(&q…

C语言 文件读写 ferror 函数 - C语言零基础入门教程

目录 一.ferror 函数简介二.ferror 函数实战三.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.ferror 函数简介 C 语言 ferror 函数用于检测文件读写过程中是否有产生错误&#xff0c;声明如下&#xff1a; #include <stdio.h>/* *描述…

聊聊云计算:为什么构建网站时常会用到负载均衡

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者&#xff1a;疯子程序员来源&#xff1a;https://blog.csdn.net/qq_40196321/article/details/85075746 负载均衡可以将客户端请求分摊到多个操作单元上进行处理硬件负载均衡负载均衡有很多种不同的实现方式&#xff0c;总的来说…

线程状态及停止

状态&#xff1a; new 就绪 运行 阻塞 死亡 停止&#xff1a; 不推荐jdk的stop(),destory();推荐线程自己停下来;设置标识位终止变量&#xff0c;当flagflase&#xff0c;线程终止 package com.wuming.state;public class TestStop implements Runnable{/*** When an o…

C语言 文件读写 feof 函数 - C语言零基础入门教程

目录 一.feof 函数简介二.feof 函数实战三.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.feof 函数简介 feof 是 C 语言标准库函数&#xff0c;其功能是检测文件结束符&#xff0c;如果文件结束&#xff0c;则返回非 0 值&#xff0c;否则返…

要闻君说:阿里云联合8家芯片模组商推出“全平台通信模组”;北汽与小桔车服联合“京桔”;IBM要帮助印度公司打造5G战略!...

关注并标星星CSDN云计算每周三次&#xff0c;打卡即read更快、更全了解泛云圈精彩newsgo go go 嗨&#xff0c;大家好&#xff01;偶是要闻君。盼望着、盼望着&#xff0c;放假的日子又临近了一步&#xff0c;抢先祝福各位看官们新年快乐哈&#xff01;文/要闻君近日&#xff0…

多线程休眠

sleep&#xff08;时间&#xff09;线程阻塞毫秒数 sleep存在异常InterruptedException sleep时间达到后线程进入就绪状态 sleep可以模拟网络延时&#xff0c;倒计时 每一个对象都有一个锁&#xff0c;sleep不会释放锁 package com.wuming.state;import com.wuming.demo01…