一、概述
进程:进程是操作系统进行资源分配和调度的基本单位,是一个具有一定独立功能的程序在数据集上的一次动态执行过程。进程之间相互独立,每个进程运行在其专用的且受保护的内存空间中;
线程:线程是进程中的一个相对独立的执行单元,是CPU调度的最小单位。一个进程可以包含多个线程,这些线程共享进程的资源,但可以并行执行不同的任务 ;
二、原因分析
1.CPU 上下文切换过多
对于 CPU 来说,同一时刻下每个 CPU 核心只能运行一个线程,如果有多个线程要执行,CPU 只能通过上下文切换的方式来执行不同的线程。
具体步骤包括:
1、保存当前上下文:将当前进程或线程的寄存器值、程序计数器、堆栈指针等信息保存到进程控制块(PCB)或线程控制块(TCB)中。
2、选择下一个要运行的任务:操作系统根据调度算法选择下一个运行的进程或线程。
3、加载新上下文:从选定的进程或线程的PCB/TCB中恢复其状态信息,如寄存器值和程序计数器等。
4、切换到新任务:CPU开始执行新选择的进程或线程。
这个过程需要 CPU 执行内核相关指令实现状态保存,如果较多的上下文切换会占据大量 CPU 资源,从而使得 cpu 无法去执行用户进程中的指令,导致响应速度下降。
在 Java 中,文件 IO、网络 IO、锁等待、线程阻塞等操作都会造成线程阻塞,从而触发上下文切换;
大量的 IO 操作,例如读写文件、网络通信等;
2.CPU 资源过度消耗
在程序中创建了大量的线程,或者有线程一直占用 CPU 资源无法被释放,比如死循环、不合理的递归操作;
大量的计算操作,例如复杂的算法、大量的数值计算等;
大量的数据库操作,导致数据库连接池的耗尽和数据库负载过高;
大量的线程创建和销毁操作,以及线程间的竞争和同步操作;
频繁GC;
1.代码中某个位置读取数据量较大 ,导致系统内存耗尽,从而导致Full GC次数过多;
2.JVM堆内存设置得太小,应用程序可能需要频繁地创建新对象,导致堆内存很快被填满,从而导致Full GC次数过多;
3.长时间持有不再使用的对象引用,导致这些对象不能被回收,随着时间的推移,内存泄漏;
4.创建了很多生命周期很短的对象,这些对象死后很快就会变成垃圾,增加了GC的压力;、5.频繁分配大对象(如大数组或大字符串)可能导致老年代内存很快被填满,触发Full GC;
三、排查
1.CPU
1.使用 top
命令:找出哪个 Java 进程(PID
)占用了较高的 CPU 资源。
例如,发现某个 java
进程占用了大部分 CPU 资源,比如 PID 为 123456
。
2.使用 top -H -p <PID>
:查看特定进程(如 Java 进程)中各个线程的 CPU 占用情况。
top -H -p 123456
该命令会显示每个线程的 CPU 使用情况以及线程 ID (TID
),帮助找出哪个线程可能引发了高 CPU 占用。
3.将线程 ID 转换为十六进制
Java 堆栈中使用的是十六进制的线程 ID,需将 top
命令中获取的线程 ID 转换为十六进制,便于后续匹配:
例如,如果 TID
是 456789
,可以执行:
printf "%x\n"
456789
得到的输出为 6f855
,这个 ID 将用于查找 Java 堆栈中的问题线程。
4.生成 Java 进程的线程栈
一旦确定了可能的问题线程 ID,使用 jstack
或 jcmd
来获取 Java 线程的堆栈信息。
使用 jstack
命令:生成特定 Java 进程的线程栈信息。
jstack -l 1234 > log.txt
使用 jcmd
:
jcmd <PID> Thread.print > log.txt
生成的 log.txt
文件将包含所有线程的堆栈信息。
5.分析线程栈
通过 jstack
或 jcmd
获取的线程栈中,找到与高 CPU 占用对应的线程,方法是根据之前转换为十六进制的 TID
来搜索线程。
例如:
"Thread-1" #10 prio=5 os_prio=0 tid=0x00007f84600c0800 nid=0x6f855 runnable [0x00007f845c7a1000] java.lang.Thread.State: RUNNABLE at com.example.MyClass.myMethod(MyClass.java:123) at ...
其中,nid=0x162e
对应的正是top
命令中显示高 CPU 占用的线程。
查看该线程的堆栈信息,可以推断线程是否处于繁忙的循环、锁竞争、IO阻塞等情况。
2.内存
java程序内存问题排查(jmap,jstat)_java jmap分析内存-CSDN博客
排查Java的内存问题_排查java哪里耗内存-CSDN博客