Flink container exit 143 问题排查

你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益:

  1. 了解大厂经验
  2. 拥有和大厂相匹配的技术等

希望看什么,评论或者私信告诉我!

文章目录

    • 一、前言
    • 二、问题排查
        • 2.1 查看数据量,发现数据量不大,所以肯定不是因为数据量导致的
        • 2.2 因为比较着急,所以想着先增大内存试试,后续在排查问题
        • 2.3 没有办法了,只能先排查问题了
        • 2.4 进一步排查,查看 GC log
        • 2.5 结论
    • 三、总结


一、前言

写了一个 Flink 作业基于状态计算各种汇总数据,刚开始没有问题是正常的,做完一个 checkpoint 后,就开始报错,错误内容如下:

2024-05-07 18:17:19.840 INFO  org.apache.flink.runtime.resourcemanager.active.ActiveResourceManager - Worker container_e1414_1713947523302_994380_01_000007 is terminated. Diagnostics: Container container_e1414_1713947523302_994380_01_000007 marked as failed.Exit code:239.Diagnostics:[2024-05-07 18:17:16.697]Exception from container-launch.
Container id: container_e1414_1713947523302_994380_01_000on id: container_e1414_1713947523302_994380_01_0000007
Exit code: 239
Exception message: Launch container failed
Shell output: main : command provided 1
main : run as user is work
main : requested yarn user is s_workspace_11153_krb
Getting exit code file...
Creating script paths...
Writing pid file...
Writing to tmp file /home/work/hdd7/yarn/zjyprc-hadoop/nodemanager/nmPrivate/application_1713947523302_994380/container_e1414_1713947523302_994380_01_000007/container_e1414_1713947523302_994380_01_000007.pid.tmp
Writing to cgroup task files...
Failed to set effective group id 0 - Operation not permitted
Failed to set effective group id 0 - Operation not permitted
Creating local dirs...
Launching container...
Getting exit code file...
Creating script paths...

一看就是Flink off-heap 超出 container 的内存了,没有多想,按照之前的经验直接调大 Flink 参数

taskmanager.memory.jvm-overhead.fraction

重启后发现 ,Flink TaskManager FullGC 还是很严重

图片.png

二、问题排查

2.1 查看数据量,发现数据量不大,所以肯定不是因为数据量导致的

图片.png

2.2 因为比较着急,所以想着先增大内存试试,后续在排查问题

内存从 2G 增加到 4G 最后增加到 16G,问题依然存在

2.3 没有办法了,只能先排查问题了

根据 taskmanager GC 监控找到比较严重几个 container,
图片.png

打开 Fink 自带的监控界面观察,目前看怀疑是因为 JVM Metadata 导致的
图片.png

2.4 进一步排查,查看 GC log
2024-05-08T11:11:35.075+0800: 22.379: [GC (Metadata GC Threshold) [PSYoungGen: 428583K->21165K(2160128K)] 451157K->43747K(7097344K), 0.0344272 secs] [Times: user=0.08 sys=0.02, real=0.04 secs] 2024-05-08T11:11:35.109+0800: 22.413: [Full GC (Metadata GC Threshold) [PSYoungGen: 21165K->0K(2160128K)] [ParOldGen: 22581K->35384K(4937216K)] 43747K->35384K(7097344K), [Metaspace: 34235K->34235K(1079296K)], 0.2253439 secs] [Times: user=0.54 sys=0.03, real=0.22 secs]

log 解释

 - GC (Metadata GC Threshold):表示进行的是元数据垃圾回收操作。 - [PSYoungGen: 428583K->21165K(2160128K)]:表示年轻代垃圾回收前后的内存情况,从428583K减少到21165K,总共可用的内存为2160128K。 - 451157K->43747K(7097344K):表示整个Java堆内存垃圾回收前后的内存情况,从451157K减少到43747K,总共可用的内存为7097344K。 - 0.0344272 secs:表示垃圾回收操作的耗时为0.0344272秒。 - [Times: user=0.08 sys=0.02, real=0.04 secs]:表示不同类型的CPU时间耗费,其中用户态CPU时间为0.08秒,内核态CPU时间为0.02秒,实际时间为0.04秒。

确实是因为 Metadata 内存分配失败导致的 full gc

2.5 结论

确实是因为 Metadata 内存分配失败导致的 full gc

于是调大 JVM metadata 阈值

taskmanager.memory.jvm-metaspace.size=512mb

三、总结

在开发Flink作业时遇到FullGC严重的问题,通过查看数据量、增大内存和排查后发现是因为Metadata内存分配失败导致的。最终成功解决了问题,给出了调大JVM metadata阈值的解决方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/10243.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一站式PDF解决方案:如何部署自己的PDF全能工具(Docker部署和群晖部署教程)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 开始部署 📒📝 Docker部署📝 群晖部署📝 本地安装⚓️ 相关链接 ⚓️📖 介绍 📖 在数字化办公的今天,PDF文件几乎成了我们日常工作中不可或缺的一部分。但你是否曾因为PDF文件的编辑、转换、合并等问题而头疼?如果…

对称二叉树

给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true示例 2: 输入:root [1,2,2,null,3,null,3] 输出:falses 思路:我刚开始是想着用…

【35分钟掌握金融风控策略21】贷前额度策略

目录 贷前策略审批流程和统一额度管理 贷前策略审批流程 统一额度管理 预授信策略 贷前策略审批流程和统一额度管理 贷前包含了多个风控场景,这些风控场景的策略在执行时是否存在先后顺序呢?在贷前,除上述主要的风控场景,还有…

使用Selenium破解滑动验证码的原理及解决思路

1、获取页面元素信息: 使用Selenium打开目标网页,并通过相关方法获取滑块、背景图等元素的位置和属性信息。可以使用Selenium提供的定位方法(如xpath、CSS选择器等)来找到这些元素。 可以使用find_element_by_xpath或find_elemen…

基于STC12C5A60S2系列1T 8051单片机实现一主单片机给一从单片机发送数据的串口通信功能

基于STC12C5A60S2系列1T 8051单片机实现一主单片机给一从单片机发送数据的串口通信功能 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机串口通信介绍STC12C5A60S2系列1T 8051单片机串口通信的结构基于STC12C5A60S2系列1T 8051单片机串口通信的特殊功能寄存…

二叉树的非递归遍历(c++)

前序 . - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/binary-tree-preorder-traversal/description/ 1---2---4---5--…

GEE数据集——高分辨率全球树冠高度地图(1 米)Meta 公司

高分辨率 1 米全球树冠高度地图 简介 全球树冠高度地图数据集提供了对全球树冠高度的全面了解,有助于对森林生态系统、碳固存和气候变化减缓工作进行精确监测。该数据集由 Meta 和世界资源研究所合作开发,是了解森林结构和动态的基石。通过融合最先进的卫星图像和先进的人工…

Go实现树莓派读取at24c02 eeprom读写数据

步骤 启用i2c 参考 Go实现树莓派读取bh1750光照强度 代码 package mainimport ("fmt""periph.io/x/conn/v3/i2c" )type AT24C02Device struct {dev *i2c.Dev }func NewAT24C02Device(addr uint16, bus i2c.BusCloser) (*AT24C02Device, error) {var (d…

千亿美元《人工智能》超级计算机!

微软与OpenAI的合作将引领人工智能领域的巨大飞跃。他们共同打造的百亿美元人工智能超级计算机项目将推动技术的边界,为未来科技发展开辟全新的可能性。这一合作不仅体现了科技巨头之间的紧密合作,也展现了人工智能在全球范围内的战略重要性。 微软和 O…

截图文字怎么识别?这里有三种识别方法

截图文字怎么识别?在数字化时代,信息的快速处理和转换成为了提高工作效率的关键。截图文字识别技术,作为连接视觉信息与数字文本的桥梁,极大地便利了我们的工作和生活。它允许用户从图像中提取文字内容,进而编辑、搜索…

luceda ipkiss教程 71:统计线路中器件的个数

**案例分享:**统计线路中某一器件的个数 如,统计SplitterTree中mmi的个数: 所有代码如下: # Copyright (C) 2020 Luceda Photonicsfrom si_fab import all as pdk from ipkiss3 import all as i3class GeneralizedSplitterTree…

第一步->手撕spring源码之Bean容器创建

什么是bean容器 可以存放数据的具体数据结构实现,都可以称之为容器。例如:ArrayList、LinkedList、HashSet等。bean就是对象的定义 spring中bean的多样性需要区分就需要用到键值索引的场景 故选择 HashMap。 什么是hashMap? HashMap 是一种基…

Java入门基础学习笔记15——强制类型转换

大范围类型的变量是否可以赋值给小范围类型的变量呢? IDEA直接报错。直接报错,是提醒你有问题。但是我非常进行类型转换。 非要强行赋值呢? 强制类型转换,强行将类型范围大的变量,数据赋值给类型范围小的变量。 数据…

雷森托尔环保科技有限公司见证2024杭州数字供应链装备展潮流

参展企业介绍 青岛雷森托尔环保科技有限公司创建于2018年,位于山东青岛,现注册资本3000万。公司主营生产模压木托盘、化工木托盘、大型设备木包装、出口木托盘、酒柜木酒架等,公司拥有技术人员6人,均为包装设计专业毕业&#xff0…

营业执照OCR识别接口如何对接

营业执照OCR识别接口也叫营业执照文字识别OCR接口,指的是传入营业执照图片,精准识别静态营业执照图像上的文字信息。那么营业执照OCR识别接口如何对接呢? 首先我们找到一家有做营业执照OCR识别接口的服务商,数脉API,然后注册账户…

人脸识别之bbox【det_10g】-ncnn(c++)

模型描述 det_10g是insightface 人脸框图和人脸关键点的分类,最终能够得到人脸框图bbox,分值还有人脸五官(眼x2、鼻子x1、嘴巴x2) 由于我这里没有采用最终结果,通过onnx转换为ncnn,所以后面的步骤结果丢弃…

C语言(指针)4

Hi~!这里是奋斗的小羊,很荣幸各位能阅读我的文章,诚请评论指点,关注收藏,欢迎欢迎~~ 💥个人主页:小羊在奋斗 💥所属专栏:C语言 本系列文章为个人学习笔记&#x…

网络安全与IP地址的关联

网络安全与IP地址之间存在着密不可分的关系。IP地址作为网络通信的基础,对于网络安全的保障具有至关重要的作用。以下将详细探讨网络安全与IP地址之间的关联,以及IP地址在网络安全中的应用。 一、IP地址与网络安全的关系 IP地址是网络通信的基础&#x…

2024年人工智能数据报告

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。…

常用Linux命令详细总结

一、文档编辑、过滤、查看命令 1、cp 复制文件和目录 -a 复制文件并保持文件属性 -d 若源文件为链接文件,则复制链接文件属性而非文件本身 -i 覆盖文件前提示,如果不要提示,在命令前加上\ -r 递归复制,通常用于目录的复制 …