spark常见问题

写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!

1.  执行Broadcast大表时,等待超时异常(awaitResult

现象:org.apache.spark.SparkException: Exception thrown in awaitResult:

java.util.concurrent.TimeoutException: Futures timed out after [300seconds]

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

20200428150606130.png

原因分析:当数据需要broacast到executor上时,由于数据量较大 、broacast超时导致。

解决方案:

  设置spark.sql.autoBroadcastJoinThreshold=-1 不broadcast小表,直接走shuffle。(弊端:时间花费长,影响较大)

2.Task任务在写文件时,发生管道中断关闭异常ClosedByInterruptException

现象:Uncaught exception while reverting writes to file /data03/yarn/……………

java.nio.channels.ClosedByInterruptException

20200428150607671.png

解决方案:查看该Task任务是否是推测执行任务,如果是属于正常现象,不影响任务。

3.DiskBlockManager 在创建本地目录失败

现象:Failed to create local dir in /data10/yarn/………….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:这个错误一般是磁盘满了或者要么是磁盘坏了。联系大数据平台运维人员。

4.SparkSQL访问HIVE表时,找不到数据库或者元数据信息

现象:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'XXXX' not found;

解决方案:Step 1:查看hive的配置文件是否正确。

                  Step 2:在Step 1 基础上,查看是否存在该数据库。

                  Step 3:查看SparkSession 创建方法是否启用了Hive支持。正确的创建SparkSession 如下图:

20200428150608542.png

5.使用wholeTextFiles读取文件时,报非法参数异常

现象:Java.lang.IllegalArgumentException:……………..wholeTextFiles…..CharBuffer.allocation…….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:wholeTextFile不支持一次性读入大于1G的大文件,因为是将整个文件内容变成一个Text对象,而Text对象是有长度限制。

解决方案:将单个大文件分割成多个小文件读取。

6.数据倾斜

现象:为啥我有几个Task任务卡住不动已经很久了?现象如下图:

20200428150606474.png

点到当前的stage Tab 中 ,效果图如下:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:典型的数据倾斜现象,所有的task都已经完成了,而正在运行的task任务超过了所有完成task时间中位数的1.5倍以上,发生了数据倾斜现象。

解决方案:1.如果是Spark sql 访问hive 表,由于上游的某个hive文件过大导致,需要避免上游的表落地时某个文件特别大。可以在sql后面添加distribute by rand() ; 并且适

当增大spark.sql.shuffle.partitions参数值。2.需要从代码和业务逻辑上去处理数据倾斜

问题。参考:https://www.cnblogs.com/hd-zg/p/6089220.html

7.TaskResultGetter在拉取block块的时候,Executor丢失,导致连接失败错误

现象:org.apache.spark.shuffle.FetchFailedException:Failed to connection………….

或者出现Executor Lost 现象。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:shuffle read的时候数据的分区数设置的很小,同时shuffle read的量很大,那么

将会导致一个task需要处理的数据非常大。结果导致JVM crash,从而导致取shuffle数据失

败,同时executor也丢失了,看到Failed to connect to host的错误,也就是executor lost的

意思。有时候即使不会导致JVM crash也会造成长时间的GC。

解决方案:

1.  减少shuffle数据:首先考虑使用map side join或是broadcast join来规避shuffle的产生。将不必要的数据在shuffle前进行过滤,比如原始数据有20个字段,只要选取需要的字段进行处理即可,将会减少一定的shuffle数据。

2. 针对于spark sql : 通过spark.sql.shuffle.partitions控制分区数,默认为40,根据shuffle的量以及计算的复杂度提高这个值。

3. 针对RDD操作:通过spark.default.parallelism控制shuffle read与reduce处理的分区数,官方建议为设置成运行任务的executor的2-3倍。

4. 提高executor的内存,通过spark.executor.memory适当提高executor的memory值。

8.Java 堆栈溢出错误

现象:Java.lang.StackOverflowError:

20200428150608388.png

原因分析:

代码中有这样一段逻辑(示意):

Dataset<Row> totalDS;  // 总数据集

while (循环条件) {

               Dataset<Row> batchDS = // 某种业务计算过程最后得到批次结果数据集;

               totalDS = totalDS.union(batchDS); // 把这批次的结果合并到最终总结果中

}

// 最后用 totalDS 再去做计算

因为循环次数比较多,大约200多次,导致最后 totalDS 的 lineage 太长,造成Spark计算时递归过深引发 StackOverflowError。

解决方案:每循环20次就checkpoint保存一下检查点,这样强制截断lineage,结果就运行完了没有出问题。

9.在代码中设置Masterlocal模式,实际提交模式为yarn-cluster,导致SparkContext初始化失败

现象:ERROR ApplicationMaster: SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application

解决方案:去掉setMaster("local[*]")

10.Executor由于某个正在运行的Task,由于Executor内存使用超出限制,导致ExecutorContainerkill,使得Executor退出

现象:ExecutorLostFailure (executor 3 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 8.1 GB of 8 GB physical memory used

原因分析:不合理的使用大量的cache 和 broadcast操作,导致executor 在运行task任务时资源紧张。

解决方法:尽量避免缓存过多的RDD ,移除RDD缓存操作,增加参数spark.storage.memoryFraction和spark.yarn.executor.memoryOverhead的值。适当增加executor的数量和内存。

11.driver RPC 超时

现象:org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120 seconds. This timeout is controlled by spark.rpc.askTimeout at org.apache.spark.rpc.RpcTimeout org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTimeoutException(RpcTimeout.scala:48) at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:63)

原因分析:导致driver RPC 超时有两个原因:

(1)executor所在的节点宕掉了。

(2)运行在executor中的任务占用较大内存,导致executor长时间GC,心跳线程无法运行,从而引起心跳超时。

引发这个问题可能是发生了数据倾斜,导致stop the world。

解决方案:若存在数据倾斜,首先解决数据倾斜问题。适当增加executor数量和内存。避免长时间的GC。

12.SparkSql使用” $”代替col(),需要导入隐式转换

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

现象:在scala 命令行模式 可以直接用$"column_name"的方式指定列数据, 为什么sbt 打包的时候不能这么用?还得import column,使用col("column_name")来替代?能用$ 代替 col吗,需要怎么操作?

解决方案:import spark.implicits._(导入)

13.Python Spark 在生产线上提交任务,报错:command not find

解决方案:请参考如下脚本:(注意spark-submit的路径)

20200428150607599.png

14.提高SparkSQL在shuffle之后Task的并发度

现象:明明有很多task,但是在处理量大的时候只分配40个,如何增加Task的数量。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

解决方案:适当的增加 --conf spark.sql.shuffle.partitions参数的值,注意该参数只有存在shuffle行为下才能生效。

15.由于打包冲突导致的SparkContext启动失败问题

20200428150609448.png

解决方案:将spark相关依赖删掉,然后用maven命令mvn clean package重新打包。

16.SparkSQL中,sql语句中存在着过长的计算表达式,导致GeneratedIterator超过了规定的字节数

现象:ERROR Thread-8 CodeGenerator: failed to compile: org.codehaus.janino.JaninoRuntimeException: Code of method "agg_doAggregateWithoutKey$(Lorg/apache/spark/sql/catalyst/expressions/GeneratedClass$GeneratedIterator;)V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator" grows beyond 64 KB. 用户代码如下图所示:

20200428150607902.png

原因分析:在SQL中拼凑循环累积计算某个表达,导致GeneratedIterator超过了规定的字节数64K。

解决方案:1.优化自身的表达式代码不要过长,可以分开计算。

                  2.或者设置spark.sql.codegen.wholeStage=false, 不适用codegen策略。

17.Spark在执行Task任务时,发生OOM现象

 现象:Java.lang.OutOfMemoryError:Java heap space

20200428150607900.png

原因分析:如果处理的数据或者加载的数据很大,driver或者executor内存可能不够,出现上面的OOM错误。

解决方案:仔细查看日志,分清是driver端还是executor端OOM。先优化自身的代码,检查思考是否有必要在driver端处理大量的数据,有没有大量的cache或者broadcast操作,如果存在cache或者broadcast操作,去除该操作。适当的调大driver或者executor的内存大小。

 

19.SparkSQL中,SQL语句存在大量的嵌套语句,导致Spark无法解析

现象:org.apache.spark.sql.AnalysisException: unresolved operator 'Project

解决方案:检查一下自己的sql是否嵌套太多的子查询语句,导致spark无法解析,所以需要修改sql或者改用其他方式处理;注意该语句可能在hive里面没有错误,但是在spark中会出错。

20.Task返回给driver的数据量超过了1G

现象:Total size of serialized results of 2000 tasks (2048MB) is bigger than spark.maxResultSize(1024.0 MB)

原因分析:ask返回给driver的数据量超过了规定的1G。

解决方案:设置参数spark.driver.maxResultSize=3G,参数的大小根据业务的实际情况而定 。

21.IDE日志中一直显示“ACCEPTED”,任务跑不动

现象:watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:当前IDE系统的yarn队列资源暂时被占满。

解决方案:Spark阻塞在(state :ACCEPTED)状态

 

22.SparkSQL中小文件数过多导致任务过慢

现象:IDE日志中长时间出现如下内容:可以,如下所示:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:小文件数较多(与Spark UI中的task数目相同),长时间在重命名小文件所在目录

解决方案:SQL最上方加参数:set spark.sql.adaptive.repartition.enabled=true,并建议将中间临时表、目标表格式切换为DataSource表:Spark DataSource表推广文档

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855169.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转OurBMC第八期:OpenBMC webui之通信交互

栏目介绍&#xff1a;“玩转OurBMC”是OurBMC社区开创的知识分享类栏目&#xff0c;主要聚焦于社区和BMC全栈技术相关基础知识的分享&#xff0c;全方位涵盖了从理论原理到实践操作的知识传递。OurBMC社区将通过“玩转OurBMC”栏目&#xff0c;帮助开发者们深入了解到社区文化、…

【网络】序列化和反序列化

一、序列化和反序列化 序列化和反序列化是计算机中用于数据存储和传输的重要概念。 1.序列化 &#xff08;Serialization&#xff09; 是将数据结构或对象转换成一种可存储或可传输格式的过程。在序列化后&#xff0c;数据可以被写入文件、发送到网络或存储在数据库中&…

UITableView之显示单组数据Demo

需求 UITableView实现显示单组数据。尝试设置不同行高度不同。 效果&#xff1a; 数据展示 实现 与之前分组显示数据的区别在于懒加载的数据模型不同。 &#xff08;1&#xff09;声明数据模型类 类的属性一定要和plist中数据的字段保持一致 interface CZhero : NSObject /…

go 语言爬虫库goQuery 的详细使用(知乎日报详情页解析示例)

上一篇《uniapp小程序开发 | 从零实现一款影视类app 》实现了影视小程序的前端和后台接口&#xff0c;虽然包含了大多数小程序应有的知识&#xff0c;但基本还只是涉及网络接口和vue页面的设计。这里介绍下零一个有趣的练手项目&#xff0c;知乎日报。涉及详情页面的html解析&a…

线性稳压器LDO的基础知识

一、什么是线性稳压器? 线性稳压器的工作原理是&#xff1a;采用一个压控电流源以强制在稳压器输出端上产生一个固定电压。控制电路连续监视&#xff08;检测&#xff09;输出电压&#xff0c;并调节电流源&#xff08;根据负载的需求&#xff09;以把输出电压保持在期望的数值…

【Spine学习12】之 事件帧

1、新建事件帧&#xff1a; 2、选择第8s的攻击帧&#xff0c;点击第一步新建的attack事件帧前面的钥匙 这样每次动作到8s的时候会自动跳出事件帧提示 这个文字实际动画不会显示 事件是动画过程中所发生情况的触发器。 给程序员识别的

分享:2024年(第12届)“泰迪杯”数据挖掘挑战赛省级奖项获奖名单公示

本次竞赛有评选省奖的省份有广东省、广西壮族自治区、河北省、湖北省。各省奖项依据“泰迪杯”全国评审专家组统一评阅的最终成绩区分省份后从高到低依序按比例产生。 广东省 省级奖项获奖名单公示 奖项设置&#xff1a; 一等奖&#xff1a;约占该省份队伍总数的5%&#xff0…

Android开发系列(四)Jetpack Compose之Button

在Jetpack Compose中&#xff0c;Button是一个常用的用户界面组件&#xff0c;用于执行某些操作或触发某些事件。Button控件是可触摸的&#xff0c;并且通常会显示一个文本或图标来表示其功能。 要在Jetpack Compose中创建一个Button&#xff0c;可以使用Button()函数&#xf…

shell学习记录

shell简介 参考博文1 参考博文2——shell语法及应用 参考博文3——vi的使用 在linux中有很多类型的shell&#xff0c;不同的shell具备不同的功能&#xff0c;shell还决定了脚本中函数的语法&#xff0c;Linux中默认的shell是 / b in/ b a s h &#xff0c;流行的shell有as…

B-splines曲线的绘制(Matlab)

虽然在这个链接三次 Bspline(B样条曲线) NURBS曲线的绘制 matlab_三次b样条曲线的绘制-CSDN博客中我们介绍了NURBS曲线&#xff0c;然而有时候我们通过B-spline曲线也能够解决问题。B-spline曲线作为NURBS曲线的一种特例&#xff0c;这里给出均匀B-spline曲线的表达式&#xff…

基于IDEA的Maven简单工程创建及结构分析

目录 一、用 mvn 命令创建项目 二、用 IDEA 的方式来创建 Maven 项目。 &#xff08;1&#xff09;首先在 IDEA 下的 Maven 配置要已经确保完成。 &#xff08;2&#xff09;第二步去 new 一个 project &#xff08;创建一个新工程&#xff09; &#xff08;3&#xff09;…

论文精读——KAN

目录 1.研究背景 2.关键技术 2.1 原始公式 2.2 KAN结构 2.3 缩放定律 3.技术扩展 4.模型效果 5.相关讨论 6.总结 文章标题&#xff1a;《KAN: Kolmogorov–Arnold Networks》 文章地址&#xff1a; KAN: Kolmogorov-Arnold Networks (arxiv.org)https://arxiv.org/a…

再次递表港交所,慧算账能否把握AI+财税SaaS机遇?

5月以来&#xff0c;港股IPO市场日渐兴旺&#xff0c;多家公司实现上市首日“零破发”&#xff0c;平均收涨约30%&#xff0c;6月更是出现了超2500倍超购新股。市场赚钱效应显现&#xff0c;投资者打新随之热情高涨&#xff0c;越来越多国内企业也开始抓紧赴港上市。 近日&…

Android-app自动更新总结(已适配9-0)(1)

} //检查版本号&#xff0c;第一次请求(post)&#xff0c;&#xff0c;&#xff0c;UpdateAppBean根据服务器返回生成 private void requestAppUpdate(int version, final DataRequestListener listener) { OkGo.post(Const.HOST_URL Const.UPDATEAPP).params(“version”, v…

vue element-ui 下拉框 以及 input 限制输入,小数点后保留两位 界面设计案例 和 例子:支持mp4和m3u8视频播放

vue input 限制输入&#xff0c;小数点后保留两位 以及 图片垂直居中显示 和 分享 git 小技巧-CSDN博客文章浏览阅读430次&#xff0c;点赞5次&#xff0c;收藏4次。error:Your local changes to the following files would be overwritten by merge:_error: your local change…

2024.6.18 作业 xyt

今日作业&#xff1a; 1. 完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面 如果…

C++ 64 之 函数模版和普通函数调用规则

#include <iostream> #include <string> using namespace std;template<typename T> void myPrint(T a, T b){cout << "函数模板的调用" << endl; }void myPrint(int a, int b){cout << "普通函数调用" << endl…

C#——只读属性readonly

只读属性readonly 类的字段可以通过一个readonly(只读)表示这个为只读字段&#xff0c;不能被构造函数之外地方进行修改&#xff0c;静态只读字段不能在非静态的构造函数中使用 定义 只读属性的特点&#xff1a; 字段是只读的非静态 只能在非静态方法中进行修改 字段是只读的…

NoSQL-Tidis支持分布式事务,兼容redis协议,使用tikv存储引擎,可水平扩展

项目repo地址 GitHub - yongman/tidis: Distributed transactional NoSQL database, Redis protocol compatible using tikv as backend Tidis是分布式数据库,支持redis协议,多种数据结构支持,编写语言为golang。 Tidis工作角色类似于TIDB,提供协议转换和数据结构计算,底…

RockChip Android12 System之Datetime

一:概述 本文将针对Android12 Settings二级菜单System中Date&time的UI修改进行说明。 二:Date&Time 1、Activity packages/apps/Settings/AndroidManifest.xml <activityandroid:name="Settings$DateTimeSettingsActivity"android:label="@stri…