如何排查java程序的宕机和oom?如何解决宕机和oom?

排查oom

用jmap生成我们的堆空间的快照Heap Dump(堆转储文件),来分析我们的内存占用

用可视化工具,例如java中的jhat分析Heap Dump文件 ,它分析完会通过一个浏览器打开一个可视化页面展示分析结果

根据oom的类型来调整我们的内存配置

java.lang.OutOfMemoryError: Java heap space:堆内存不足。java.lang.OutOfMemoryError: Metaspace:元空间(类元数据)不足。java.lang.OutOfMemoryError: Direct buffer memory:直接内存(NIO)不足。java.lang.OutOfMemoryError: Unable to create new native thread:线程数超出限制。java.lang.OutOfMemoryError: GC overhead limit exceeded:GC 频繁且回收效率低

调整jvm参数

堆内存不足:

-Xms512m -Xmx4g  # 初始堆和最大堆大小
-XX:+UseG1GC      # 使用 G1 垃圾回收器(适合大堆)

metaspace元空间不足:

-XX:MaxMetaspaceSize=512m  # 限制元空间大小
-XX:+CMSClassUnloadingEnabled  # 启用类卸载(CMS GC)

直接内存不足:

-XX:MaxDirectMemorySize=256m  # 调整直接内存上限


排查宕机(JVM Crash)

1.查看崩溃日志

JVM 崩溃时会生成 hs_err_pid<pid>.log 文件,包含关键信息:

崩溃原因:如 SIGSEGV(非法内存访问)、EXCEPTION_ACCESS_VIOLATION。

堆栈信息:崩溃时的线程堆栈、本地库调用链

2.实时监控工具

jstat:查看 GC 统计信息

jstat -gcutil <pid> 1000  # 每秒打印 GC 情况

jstack:生成线程快照,分析死锁或线程阻塞

jstack <pid> > thread_dump.txt

Prometheus + Grafana:监控 JVM 内存、GC、线程等指标

启用 GC 日志

-Xloggc:/path/to/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps

JNI问题是什么?

JNI(Java Native Interface) 是 Java 提供的一种机制,允许 Java 代码与 C/C++ 等本地(Native)代码交互。例如,调用操作系统底层 API 或使用高性能计算库时,可能会用到 JNI。

为什么 JNI 容易出问题?

JNI 是 Java 和本地代码的“桥梁”,但需要手动管理内存和资源

常见问题包括:

内存泄漏:本地代码分配的内存未释放(如 malloc 后未 free)

越界访问:操作数组时越界(如 GetIntArrayElements 后越界写数据)

悬空指针:Java 对象被垃圾回收后,本地代码仍访问其指针

线程安全问题:本地代码未正确处理多线程(如未绑定 JNIEnv 到线程)

兼容性问题:编译的本地库与操作系统或 JVM 版本不兼容(如 32/64 位不匹配)

JNI 问题导致的典型现象

JVM 崩溃:日志中出现 SIGSEGV(段错误)、EXCEPTION_ACCESS_VIOLATION。

内存逐渐耗尽:本地代码内存泄漏,但 Java 堆内存正常。

应用行为异常:数据损坏、随机崩溃(如错误处理指针)。

如何排查 JNI 问题?

查看崩溃日志:JVM 崩溃时生成的 hs_err_pid<pid>.log 文件,定位崩溃的本地方法和线程

本地代码调试:

使用 GDB(Linux)或 WinDbg(Windows)调试本地库。

用 Valgrind(Linux)检查内存泄漏或越界访问。

代码审查:

确保本地代码正确释放资源(如 ReleaseArrayElements)。

避免跨线程使用 JNIEnv(每个线程需通过 AttachCurrentThread 获取)。

简化复现:隔离 JNI 调用部分,编写最小测试用例验证问题


GC日志

什么是GC日志?有什么用?

GC 日志(Garbage Collection Log) 是 JVM 垃圾回收过程的详细记录,用于分析内存管理和 GC 性能。

GC 日志的作用

诊断内存问题:

发现频繁 Full GC(可能内存泄漏)

观察对象晋升到老年代的速度(过早晋升导致 OOM)

优化 GC 性能:

分析 GC 暂停时间(Stop-The-World)是否影响应用响应

调整堆大小或选择更合适的 GC 算法(如 G1、ZGC)。

验证配置效果:

确认 JVM 参数(如 -Xmx、-XX:NewRatio)是否生效。

观察分代内存分配是否合理


GC 日志包含哪些信息?

时间戳:GC 发生的时间。

GC 类型:GC(Minor GC)、Full GC。

触发原因:如 Allocation Failure(分配失败)。

内存变化:各分代(YoungGen、OldGen)回收前后的内存大小。

耗时:user(CPU 用户态时间)、real(实际暂停时间)

GC 日志的典型分析场景

频繁 Young GC:

现象:每秒多次 Young GC。

可能原因:新生代太小或短生命周期对象过多。

解决:增大 -Xmn(新生代大小)。

长时间 Full GC:

现象:Full GC 耗时长(如超过 1 秒)。

可能原因:老年代内存不足或内存泄漏。

解决:分析堆转储(Heap Dump)检查大对象


JVM奔溃日志一般会记录什么信息?

1. 基本信息

时间戳:记录崩溃发生的具体时间,精确到毫秒甚至更细的粒度,有助于定位问题出现的时间点。

JVM 版本信息:包括 JVM 的供应商、版本号、构建号等,不同版本的 JVM 可能存在不同的特性和已知问题,这些信息对于分析问题很重要。

操作系统信息:如操作系统的名称、版本、架构(32 位或 64 位)等,因为 JVM 与操作系统的交互可能会影响其稳定性,某些问题可能与特定的操作系统环境相关

2. 崩溃原因信息

错误类型:明确指出 JVM 崩溃的错误类型,如 OutOfMemoryError(内存溢出错误)、StackOverflowError(栈溢出错误)等,这些错误类型为问题的初步定位提供了方向。

异常信息:如果是由异常导致的崩溃,会详细记录异常的类型、消息以及异常发生的调用栈信息。调用栈信息能够显示出异常是在哪些方法中被抛出的,帮助开发人员追踪代码执行路径,找到引发问题的具体代码位置

3. 内存信息

堆内存使用情况:记录 JVM 堆内存的大小、已使用的堆内存量、剩余的堆内存量等信息。通过这些数据可以判断是否存在内存泄漏或内存使用不合理的情况。

非堆内存使用情况:对于 JVM 中的非堆内存,如方法区、本地方法栈等,也会有相应的使用情况记录,有助于全面了解 JVM 的内存占用情况。

垃圾回收信息:包括垃圾回收的次数、不同代(新生代和老年代)的垃圾回收情况、垃圾回收所花费的时间等。垃圾回收如果出现异常,可能导致内存无法及时释放,进而引发 JVM 崩溃,这些信息可以帮助分析垃圾回收是否正常工作


我们一开始什么都不知道的时候,我怎么知道这个是oom还是宕机

一、观察现象:快速区分 OOM 和宕机

特征

OOM(内存溢出)

JVM 宕机(Crash)

进程是否存活

进程可能仍在运行(但无法处理请求)

进程直接退出(JVM 崩溃)

日志中的关键字

OutOfMemoryError

java.lang.OOM

hs_err_pid<pid>.log

(崩溃日志)

直接表现

抛出异常,可能部分功能不可用,但进程未退出

应用突然消失(如终端打印 Segmentation Fault

是否生成堆转储文件

如果配置了 -XX:+HeapDumpOnOutOfMemoryError

,会生成 .hprof

文件

不会生成堆转储文件,但会生成崩溃日志文件

二、实操步骤:快速定位问题类型
1. 第一步:检查进程是否存在

进程还在 → 可能是 OOM 或普通错误(如线程阻塞)。

进程消失 → 可能是 JVM 宕机


2. 第二步:查看应用日志

快速搜索日志中的关键字:

# 查看最近的应用日志(替换为实际路径)
tail -n 100 /path/to/application.log | grep -i "outofmemoryerror"

关键日志示例

OOM

java.lang.OutOfMemoryError: Java heap space

JVM 宕机

没有 OOM 错误,但进程消失。

可能在系统日志中看到 Segmentation fault(Linux)或 EXCEPTION_ACCESS_VIOLATION(Windows)


3.第三步:检查崩溃日志(仅宕机)

如果进程消失,JVM 会生成崩溃日志 hs_err_pid<pid>.log

存在 hs_err_pid.log → JVM 宕机(需分析崩溃原因)。

不存在该日志 → 可能是 OOM 或其他问题


4.第四步:验证 OOM 的堆转储文件

如果配置了 -XX:+HeapDumpOnOutOfMemoryError,OOM 时会生成 .hprof 文件

结论:

存在 .hprof 文件 → OOM。

不存在 → 可能是未配置参数,或非堆内存问题(如 Metaspace OOM)


快速总结

进程活着 + 日志有 OOM 错误 → OOM

进程消失 + 存在 hs_err_pid.log → JVM 宕机

进程消失 + 无崩溃日志 → 可能是系统杀死(如 OOM Killer)或其他原因


面试问答:如果我们的java程序出现了宕机或oom我们该怎么排查

我们一开始并不知道我们的程序出现错误是因为宕机了还是oom?

是因为服务器资源紧张还是java程序配置不合理的原因?

所以我们首先先用top命令去看看服务器整体的内存占用百分比,看看内存是否紧张,我们一般用top命令去查看,但一般都会有现成的监控工具和报警工具,例如普罗米修斯

如果服务器资源不紧张的话,那可能才是java程序本身出了问题

我们要查看java程序是否存活

进程活着 + 日志有 OOM 错误 → OOM

进程消失 + 存在 hs_err_pid.log → JVM 宕机

进程消失 + 无崩溃日志 → 可能是系统杀死(如 OOM Killer)或其他原因

启动Java应用时添加 JVM 参数:

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dump.hprof

OOM 发生时,JVM 会自动生成堆转储文件到指定路径

如果java程序仍然存活,说明出错是因为oom,我们内存oom的话我们会生成一个headdump转储文件

然后我们查看我们的oom的类型

java.lang.OutOfMemoryError: Java heap space:堆内存不足。java.lang.OutOfMemoryError: Metaspace:元空间(类元数据)不足。java.lang.OutOfMemoryError: Direct buffer memory:直接内存(NIO)不足。java.lang.OutOfMemoryError: Unable to create new native thread:线程数超出限制。java.lang.OutOfMemoryError: GC overhead limit exceeded:GC 频繁且回收效率低

Metaspace属于非堆内存,它的OOM可能和堆OOM表现类似,即JVM进程可能仍然存在,但无法继续加载类,导致应用无法正常运行

我们根据错误类型来调整我们的堆内存的空间配置

如果java程序没有存活,说明就是宕机或者崩溃了

我们的JVM崩溃的时候会生成崩溃日志 hs_err_pid<pid>.log,里面会记录着我们的jvm的崩溃原因信息,jvm信息,内存信息等,然后我们进行分析

这个都是出问题的时候我们根据文件排查的,但是有时候出了问题我们从文件排查不出来,我们就要用jvm工具来排查oom了

我们可以用jmap来手动生成当前堆内存的转储文件headdump,然后用jhat来打开我们的dump文件来分析结果

通过jconsole和普罗米修斯等可视化实时监控工具来查看堆内存,线程,类信息等

jstack分析线程,检查线程是否阻塞在某个对象分配上(例如等待锁导致内存无法释放)

启用gc日志:

-Xloggc:/path/to/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps

通过可视化gc日志GCViewer来查看gc回收相关信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74965.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是 OLAP 数据库?企业如何选择适合自己的分析工具

引言&#xff1a;为什么企业需要 OLAP 数据库&#xff1f; 你是否曾经经历过这样的场景&#xff1a; 市场部门急需一份用户行为分析报告&#xff0c;数据团队告诉你&#xff1a;“数据太大了&#xff0c;报表要跑 4 个小时”&#xff1b;业务负责人在会议中提出一个临时性分析…

测试:认识Bug

目录 一、软件测试的生命周期 二、bug 一、软件测试的生命周期 软件测试贯穿于软件的生命周期。 需求分析&#xff1a; ⽤⼾⻆度&#xff1a;软件需求是否合理 技术⻆度&#xff1a;技术上是否可⾏&#xff0c;是否还有优化空间 测试⻆度&#xff1a;是否存在业务逻辑错误、…

综合实验2

1、sw1和sw2之间互为备份 [sw1]interface Eth-Trunk 0 &#xff08;创建聚合接口&#xff09; [sw1-Eth-Trunk0]trunkport g0/0/1 &#xff08;将物理接口划入到聚合接口中&#xff09; [sw1-Eth-Trunk0]trunkport g0/0/2 [sw2]interface Eth-Trunk 0 [sw2-Eth-T…

【ArcGIS】ArcGIS10.6彻底卸载和ArcGIS10.2安装全过程

卸载python3后,解决了ArcGIS与python3冲突问题后,软件可以正常打开使用了 但是还是出现了问题 用ArcGIS 进行空间分析时,中间操作没有任何报错和问题,但是就是没有运行结果 在别人的软件上操作一遍可以出现运行结果 关闭确有这个,但真的不是我给它的运行时间不够,反反复复试…

Django之旅:第五节--Mysql数据库操作(一)

Django开发操作数据库更简单&#xff0c;内部提供了ORM框架 一、安装第三方模块 pip install mysqlclient注&#xff1a;最新的django框架需要使用mysqlclient模块&#xff0c;之前pymysql模块与django框架有编码兼容问题。 二、ORM 1、ORM可以帮助我们做两件事&#xff1a;…

docker部署mongodb数据库

1、下载 MongoDB 镜像 使用Docker部署MongoDB 之前&#xff0c;我们需要从 Docker Hub 上下载 MongoDB 镜像。这里我们下载最新版本的 MongoDB 镜像&#xff0c;使用以下命令进行下载&#xff1a; docker pull mongo:latest 下载完成后&#xff0c;我们就拥有了最新版本的 Mon…

Enhanced PEC-YOLO:电力施工场景安全装备检测的轻量化算法解析

目录 一、核心概述 二、核心创新点 1. ​C2F_Faster_EMA模块 2. ​SPPF_CPCA多尺度模块 3. ​BiFPN颈部网络

【人工智能】解锁大模型潜力:Ollama 与 DeepSeek 的分布式推理与集群部署实践

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 随着大语言模型(LLM)的快速发展,其推理能力在自然语言处理、代码生成等领域展现出巨大潜力。然而,单机部署难以满足高并发、低延迟的需…

RTMP推流服务器nginx在linux上的编译部署

RTMP&#xff08;Real-Time Messaging Protocol&#xff09;推流确实需要服务器支持‌。RTMP推流服务器的主要功能是接收来自推流客户端的数据流&#xff0c;对其进行处理和转发。服务器会根据RTMP协议与客户端建立连接&#xff0c;处理推流数据&#xff08;如转码、录制等&…

PyQt6实例_批量下载pdf工具_主线程停止线程池

目录 前置&#xff1a; 代码&#xff1a; 视频&#xff1a; 前置&#xff1a; 1 本系列将以 “PyQt6实例_批量下载pdf工具”开头&#xff0c;放在 【PyQt6实例】 专栏 2 本系列涉及到的PyQt6知识点&#xff1a; 线程池&#xff1a;QThreadPool,QRunnable&#xff1b; 信号与…

Tomcat生产服务器性能优化

试想以下这个情景&#xff1a;你已经开发好了一个程序&#xff0c;这个程序的排版很不错&#xff0c;而且有着最前沿的功能和其他一些让你这程序增添不少色彩的元素。可惜的是&#xff0c;程序的性能不怎么地。你也十分清楚&#xff0c;若现在把这款产品退出市场&#xff0c;肯…

正则表达式-笔记

文章目录 一、正则表达式二、正则表达式的基本语法字符类普通字符非打印字符特殊字符 量词限定符锚点修饰符&#xff08;标记&#xff09; 三、在 Python 中使用正则表达式简单搜索提取信息替换文本 参考 从验证用户输入&#xff0c;到从大量文本中提取特定信息&#xff0c;再到…

Qwen-0.5b linux部署

参考链接 https://blog.csdn.net/imwaters/article/details/145489543 https://modelscope.cn/models/modelscope/ollama-linux 1. ollama安装 # 安装ModelScope工具包&#xff0c;用于下载和管理AI模型 pip install modelscope# 下载Ollama的Linux版本安装包 # --model 指定…

【深度学习】GAN生成对抗网络:原理、应用与发展

GAN生成对抗网络&#xff1a;原理、应用与发展 文章目录 GAN生成对抗网络&#xff1a;原理、应用与发展1. 引言2. GAN的基本原理2.1 核心思想2.2 数学表达2.3 训练过程 3. GAN的主要变体3.1 DCGAN (Deep Convolutional GAN)3.2 CGAN (Conditional GAN)3.3 CycleGAN3.4 StyleGAN…

【AI速读】CNN图像处理单元的形式化验证方法

近年来,卷积神经网络(CNN)在图像处理和计算机视觉领域取得了巨大成功,如人脸识别、姿态估计等。然而,基于CNN的图像处理单元设计复杂,验证工作面临巨大挑战。传统的仿真验证方法难以覆盖其庞大的配置空间,且耗时费力。本文将介绍一种创新的形式化验证(Formal Verificat…

【新人系列】Golang 入门(八):defer 详解 - 上

✍ 个人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4dd; 专栏地址&#xff1a;https://blog.csdn.net/newin2020/category_12898955.html &#x1f4e3; 专栏定位&#xff1a;为 0 基础刚入门 Golang 的小伙伴提供详细的讲解&#xff0c;也欢迎大佬们…

鸿蒙开发:了解Canvas绘制

前言 本文基于Api13 系统的组件无法满足我们的需求&#xff0c;这种情况下就不得不自己自定义组件&#xff0c;除了自定义组合组件&#xff0c;拓展组件&#xff0c;还有一种方式&#xff0c;那就是完全的自绘制组件&#xff0c;这种情况&#xff0c;常见的场景有&#xff0c;比…

【Linux笔记】进程间通信——命名管道

&#x1f525;个人主页&#x1f525;&#xff1a;孤寂大仙V &#x1f308;收录专栏&#x1f308;&#xff1a;Linux &#x1f339;往期回顾&#x1f339;&#xff1a;【Linux笔记】进程间通信——匿名管道||进程池 &#x1f516;流水不争&#xff0c;争的是滔滔不 一、命名管道…

Spring项目中使用EasyExcel实现Excel 多 Sheet 导入导出功能(完整版)

Excel 多 Sheet 导入导出功能完整实现指南 一、环境依赖 1. Maven 依赖 <!-- EasyExcel --> <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.3.2</version> </dependency>…

全流程剖析需求开发:打造极致贴合用户的产品

全流程剖析需求开发&#xff1a;打造极致贴合用户的产品 一、需求获取&#xff08;一&#xff09;与用户沟通1.面谈2.问卷调查3.会议讨论 &#xff08;二&#xff09;观察用户工作&#xff08;三&#xff09;收集现有文档 二、需求分析&#xff08;一&#xff09;提炼关键需求&…