spark运行报错:Container killed by YARN for exceeding memory limits

用spark跑数据量大的离线调度任务报错:Reason: Container killed by YARN for exceeding memory limits. 19.0 GB of 19 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nodemanager.vmem-check-enabled because of YARN-4714.

Spark 报错 Container killed by YARN for exceeding memory limits 表示 Spark 的 Executor 容器因为超出 YARN 分配的内存限制而被 YARN 杀死。在 Spark 中,每个 Executor 进程都会有自己的容器,并且这个容器的内存使用是由 YARN 监控的。

错误信息中的 "19.0 GB of 19 GB physical memory used" 指出了问题的关键点:Executor 使用了全部分配给它的物理内存。通常情况下,Executor 的内存需求可能超过你为其分配的内存,这是因为除了应用程序的堆内存(Heap Memory)之外,还有一些额外的开销,例如操作系统本身、JVM 的非堆内存(如代码缓存、线程栈等)、以及 Spark 的内部开销。

spark.yarn.executor.memoryOverhead 配置项就是用来处理这种额外开销的。如果你的 Executor 正好用完了所有分配的内存,那么增加 spark.yarn.executor.memoryOverhead 可以帮助预留更多的内存,避免被 YARN 因为超出限制而杀死。

解决方案:

  1. 增加 spark.yarn.executor.memoryOverhead 配置: 在 Spark 的配置中增加或修改 spark.yarn.executor.memoryOverhead 的值。默认情况下,这个值是基于你配置的 executor-memory 自动计算的。但是,如果默认值不够,你可以手动增加它。例如,如果你的 Executor 内存是 19GB,你可能需要增加 memoryOverhead 到一个合适的值,比如 3GB 或更多:

     

    深色版本

    spark.yarn.executor.memoryOverhead 3072
  2. 禁用 YARN 虚拟内存检查: 如果你确定你的应用程序不会滥用虚拟内存,并且你的节点有足够的交换空间来处理可能的内存溢出,你可以禁用 YARN 的虚拟内存检查,通过设置 yarn.nodemanager.vmem-check-enabled 为 false:

     

    深色版本

    yarn.nodemanager.vmem-check-enabled false

    注意:这可能会导致节点的不稳定,因为它允许 Executor 使用比物理内存更多的虚拟内存,从而可能导致系统交换过多,降低性能甚至崩溃。

  3. 调整 Executor 内存分配: 如果可能的话,减少每个 Executor 的内存需求,或者增加集群的总内存资源。你可以通过调整 spark.executor.memory 参数来控制 Executor 的内存大小。

  4. 优化数据处理逻辑: 优化你的 Spark 应用程序,减少内存消耗。这可能包括使用更有效的数据结构、减少数据集的大小、使用内存友好的算法等。

在实施这些更改后,你应该重新启动 Spark 应用程序并监控其内存使用情况,确保没有再次超出限制。如果问题仍然存在,可能需要进一步调查你的应用程序是否有效利用了内存资源。

要在使用 spark-submit 命令行工具时解决因内存溢出而导致的 YARN 容器被杀的问题,你需要在提交 Spark 应用程序时修改相关的配置参数。以下是如何在 spark-submit 命令中进行修改的详细步骤:

修改 spark.yarn.executor.memoryOverhead

假设你的原始 spark-submit 命令如下:

 

spark-submit --class com.example.MainClass \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 19g \--executor-cores 4 \path/to/your/application.jar arg1 arg2

要增加 spark.yarn.executor.memoryOverhead,你可以在命令中添加一个新的参数:

 
spark-submit --class com.example.MainClass \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 19g \--executor-cores 4 \--conf spark.yarn.executor.memoryOverhead=3072 \path/to/your/application.jar arg1 arg2

这里将 spark.yarn.executor.memoryOverhead 设置为了 3072 MB (3 GB)。这个值可以根据你的实际需求进行调整。

禁用 YARN 虚拟内存检查

如果要禁用 YARN 的虚拟内存检查,你可以在 spark-submit 命令中添加如下配置:

 

spark-submit --class com.example.MainClass \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 19g \--executor-cores 4 \--conf spark.yarn.executor.memoryOverhead=3072 \--conf yarn.nodemanager.vmem-check-enabled=false \path/to/your/application.jar arg1 arg2

请注意,禁用虚拟内存检查是一个高风险的操作,因为它可能导致整个节点的稳定性下降。

总结修改后的 spark-submit 命令

最终的 spark-submit 命令应该看起来像这样:

 
spark-submit --class com.example.MainClass \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 19g \--executor-cores 4 \--conf spark.yarn.executor.memoryOverhead=3072 \--conf yarn.nodemanager.vmem-check-enabled=false \path/to/your/application.jar arg1 arg2

确保在修改任何配置之前,你已经理解了这些配置项的作用,并且在生产环境中谨慎操作,避免造成不必要的性能影响或稳定性问题。如果可能,先在测试环境中试验这些修改。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/871612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32MP135裸机编程:支持内存非对齐访问

0 前言 使用stm32官方可视化初始化代码生成工具STM32CubeMX生成的工程GCC编译选项默认不支持非对齐访问,在我们进行非对齐的访问时就会进入数据异常中断DAbt中。为了解决这一问题,我们需要在GCC编译选项中加上一处配置。 1 操作方法 右键STM32CubeIDE…

【Linux】:重定向和缓冲区

朋友们、伙计们,我们又见面了,本期来给大家带来关于重定向和缓冲区的相关知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门到精…

ArcGIS Pro SDK (九)几何 3 点

ArcGIS Pro SDK (九)几何 3 点 文章目录 ArcGIS Pro SDK (九)几何 3 点1 构造地图点2 地图点生成器属性3 地图点的相等性4 缩放至指定点 环境:Visual Studio 2022 .NET6 ArcGIS Pro SDK 3.0 1 构造地图点 // 使用生…

Paddle 打包部署

PaddleOCR 打包部署exe 心酸历程 PaddleOCR部署exe模式PaddleOCR安装到本地(稍后有时间再写)PaddleOCR打包过程异常问题记录!!!!No such file or directory: D:\\py_project\\paddleOCR\\dist\\paddleOCR\\_internal\\paddleocr\\…

Excel自动化工具-工作簿中sheet页合并-可自行选择需要处理的工作簿

宝子们可以选择直接下载文章顶部资源包【Excel自动化工具-工作簿中sheet页合并.xlsm】(或者在博主的资源里下载),该资源功能为:合并sheet页 或者也可以自己编写宏代码,文章最后有附上源代码 没有office excel 的宝子…

linux之find指令基础

目录 前言一、find .二、find xxx -name "*.c"三、组合查找文件名四、find . -type f五、find . -maxdepth 2 -type f六、find . -type f -perm 777七、find . -type f -name "*.txt" ! -perm 777八、借助-exec命令参考链接 前言 testfind下 check1.c ch…

WordPress最适合小型企业、自由职业者和外贸网站

WordPress特别适合小型企业、自由职业者和外贸网站,原因可以从以下几个方面进行分析: 1. 易用性和用户友好性:WordPress的安装和使用非常简单,即使对于技术新手也能快速上手。它提供了直观的可视化编辑器,用户无需编写…

《乡土中国》重新审视自己的故乡,再出发

《乡土中国》重新审视自己的故乡,再出发 费孝通(1910—2005),中国社会学家、人类学家。被誉为中国社会学和人类学的奠基人之一。江苏吴江人。1980年获国际应用人类学会马林诺斯基荣誉奖。1981年获英国皇家人类学会赫胥黎奖章。代表作有《乡土中国》《江村…

【机器学习】之旅——线性回归

机器学习是什么? 首先我们去网上一搜,展示出来的全是关于机器学习的概念性的知识,比如机器学习它是人工智能领域的一个分支,又介绍很多的机器学习的优缺点,但是我们想知道的是机器学习它是怎样运作的,为何…

【周末闲谈】Stable Diffusion会魔法的绘画师

个人主页:【😊个人主页】 系列专栏:【❤️Python】 文章目录 前言Stable Diffusion介绍 使用ComfyUI 和 WebUIComfyUIWebUI 配置需求 Stable Diffusion资源分享吐司AiAUTOMATIC1111Civitai绘世整合包Nenly同学stability.ai 前言 在很早之前&…

【数学建模】2005建模A题:长江水质综合评价与预测

数据的无量纲化处理 数据的无量纲化处理是一种统计学中的预处理技术,主要用于消除数据中的量纲影响,使得不同单位或量级的指标可以相互比较和结合。无量纲化通过调整数据的范围或尺度,使得数据集中的每个特征或变量处于相似的数值区间内。以…

【React】Google 账号之个性化一键登录按钮功能

“使用 Google 帐号登录”功能可快速管理网站上的用户身份验证。用户登录 Google 账号、表示同意,并安全地与平台共享其个人基础资料信息。 官方文档:链接 一、获取 Google API 客户端 ID 打开 Google API 控制台 中的凭据页面 创建或选择 Google API 项…

网络分层及通信过程

网络分层体系 主流的理论体系中主要包含三种网络分层模型,即ISO的七层网络模型、TCP/IP的四层网络模型以及结合两种模型优点的五层网络模型,关于网络模型,主要起到对网络体系的一个整体认识,作为网络知识学习的开始,这…

下忍考试成绩

题目 猿飞阿斯玛是一位忍术学校的老师,刚刚结束的下忍考试让他记忆尤新,这其中最精采的战斗当属鸣人和雏田之间的对战。一开始雏田被鸣人用缧旋丸打的节节后退,其实仔细观察便可发现缧旋丸都被雏田轻易击溃了。在战斗中的雏田游刃有余&#…

【并发编程】进程 线程 协程

进程(Process)、线程(Thread)和协程(Coroutine)构成了计算机科学中实现任务并发执行的三种核心抽象机制。通常,为了提高程序的执行效率,开发者会根据应用场景和性能需求,…

Linux对文件访问的基本权限

文件权限控制对文件的访问。 有三种权限类别可应用:读取、写入和执行。 权限对文件和目录的影响: 权限 对文件的影响 对目录的影响 r读取 可以读取文件的内容 可以列出目录的内容 w写入 可以更改文件的内容 可以创建或删除目录中任一文件 x执行…

对照ui图进行大屏幕适配,echerts适配

1.先找到ui图,我这边是1920*1080的屏幕进行的设计 2.在界面找到跟样式的字体大小,进行设置,一般ui设置字体大小便可 3.在js中写入原生js代码 function adapter() {//获取布局视口宽度,布局视口设备横向独立像素值const dpWidth…

【算法专题】快速排序

1. 颜色分类 75. 颜色分类 - 力扣(LeetCode) 依据题意,我们需要把只包含0、1、2的数组划分为三个部分,事实上,在我们前面学习过的【算法专题】双指针算法-CSDN博客中,有一道题叫做移动零,题目要…

python的readline()和readlines()

readlines() readlines() 是 Python 中用于从文件对象中读取所有行的方法。它会一次性读取整个文件内容,并将每一行作为一个字符串存储在一个列表中返回。 使用方法和返回值 使用 readlines() 方法可以读取文件的所有内容,每一行作为列表中的一个元素…

《Reinforcement Learning: An Introduction》阅读学习笔记

1. 阅读书籍 请问,您读过《Reinforcement Learning: An Introduction》这本书吗?2. 常见英文缩写: MDP:Markov Decision Process,马尔可夫决策过程