该指南也适用于独立的Java程序,但旨在帮助涉及Java EE企业日常生产支持的个人。 它还将包括最常见的高级CPU问题列表以及高级解决方案。
生产问题解决心态审查
在我们进行下一步之前,重要的是要检查您的生产问题解决思路。 在我与Java EE生产支持团队的经验中,最常见的“反应”之一就是Java VM /中间件重启通常是执行的第一个恢复操作。 虽然过早重启可以快速消除业务影响,但也可能使您无法获取所有技术事实。 降低了识别根本原因的能力,并使平台在以后再次出现该问题。
在拉动触发器并关闭Java VM进程之前,请问自己以下问题:我是否拥有所有可用数据以在重启后执行根本原因分析? 如果答案是否定的,那么我对您的建议是查看并改进您当前的平台监视和/或故障排除方法。 在出现高CPU问题之前和期间正确收集性能数据至关重要。
Java高CPU –究竟是什么?
现在回到我们的原始主题,一个高CPU问题是通过观察一个或多个Java VM进程消耗了来自物理主机的过多CPU利用率来定义的。 过多的CPU也可以通过异常高的CPU使用率与已知和已建立的基准来描述。 例如:如果Java VM在峰值负载情况下的平均CPU利用率为40%,则可以将过多的CPU阈值设置为80%左右。
一个典型的Java VM进程包含多个Java线程,其中一些正在等待工作,而另一些正在执行任务。 如果只有一个Java程序,线程数可能会非常低,而对于处理大量并发事务的Java EE企业平台,线程数可能会非常高。
为了了解和识别一个或多个Java进程的高CPU资源,您将需要了解并执行Java VM的所有线程的完整分解,以便您找出最大的贡献者。 该分析练习可以按照下图显示。
了解您的平均CPU使用率
正如我在前面的部分中提到的,了解当前的平均CPU使用率(称为基准)非常重要。 这是至关重要的数据,作为全面而持续的平台容量规划策略的一部分,需要定期对其进行监视。
正确理解和跟踪从Java VM进程中观察到的平均和“健康” CPU利用率,将使您能够快速检测异常CPU高峰情况,并与可能的根本原因(项目引入的问题,意外的负载增加等)相关联。 最后,这将为您提供适当的阈值,以使用您选择的监视工具来配置与CPU相关的主动警报。
了解您的生产环境和可用工具
作为中间件和/或应用程序支持的主要部分,您确实需要了解您的生产环境,包括可用于执行低级故障排除任务的现成工具。 对于某些人来说,这可能是微不足道的,但是如果您刚开始为新客户使用新的Java或Java EE平台,我的建议是您应该花足够的时间了解客户的环境规格和业务状况,如下所示:
- 物理和虚拟主机配置和容量(分配的CPU内核,RAM等的总数)
- 操作系统供应商,版本和补丁程序级别
- 中间件供应商,版本和补丁程序级别
- Java供应商和版本(包括32位和64位); 包括补丁级别
- Java或Java EE应用程序中使用的第三方API
- 您可以利用其进行历史数据和趋势分析的现有监视工具
- 环境历史,已知问题,资源利用等
- 每个应用程序的业务流量细分以及平台的平均和峰值流量水平; 包括营业高峰期
收集上述所有正确的事实,绝对可以帮助您进行根本原因分析。 包括与CPU相关的问题。
跳到第二部分之前的功课
在我们跳至本CPU故障排除指南的第2部分之前,强烈建议您学习并理解以下各篇文章。 专注于适用于您的环境的环境。 这些文章中的每一篇都会为您提供有关如何对Java VM的每个线程分解CPU的技术方面的逐步指导。 为了调查与Java CPU相关的问题而获得的关键故障排除技能。 该技术在某些方面很常见,具体取决于操作系统。
#Solaris上每个线程的CPU分析
http://javaeesupportpatterns.blogspot.com/2011/12/prstat-solaris-pinpoint-high-cpu-java.html
#Linux上每个线程的CPU分析
http://javaeesupportpatterns.blogspot.com/2012/02/prstat-linux-how-to-pinpoint-high-cpu.html
#AIX上每个线程分析的CPU
http://javaeesupportpatterns.blogspot.com/2011/12/prstat-aix-how-to-pinpoint-high-cpu.html
#Windows上每个线程的CPU分析
http://javaeesupportpatterns.blogspot.com/2012/04/java-thread-cpu-analysis-on-windows.html
我希望本文为Java CPU问题提供了一个很好的起点。 第2部分将为您提供故障排除指南,其中包括流程图,可让您根据问题情况选择正确的调查路径。
参考: Java High CPU故障排除指南–第1部分,来自我们的JCG合作伙伴 Pierre-Hugues Charbonneau,位于Java EE支持模式和Java教程博客上。
翻译自: https://www.javacodegeeks.com/2012/05/java-high-cpu-troubleshooting-guide.html