昨天晚上上线了一个服务,第二天发现CPU持续飙高到70~90%,触发平台的自动扩容,后定位出问题后降低到3%
- 怀疑部分代码使用的线程在持续工作没有释放(死循环)
- 进入机器,使用top -H 找出系统中使用CPU最多的进程号:2342
3.将2342转换成16进制得到926
printf "%x\n" 2342
4.查看对应线程栈信息
2125是服务进程的pid,jps可以查看
0x926: 线程id,0x是16进制,926是第3步得到的线程id
jstack 2125|grep 0x926 -A 50
此处由于没有保留现场信息,实际查询的线程栈,可以观察到业务类的X行定位信息,定位死循环