生产的服务器出现以下现象:
1.API报503,
2.不停的重启
发现是OOM的错误。
作为经验法则,有几种常见的OOM情况。
堆内存溢出。如内存泄漏。
虚拟机栈和本地方法栈溢出。如有无限的递归方法。
JVM内存消耗超过容器限制。
从上面的截图中,可以看出
内存消耗接近100%。
CPU负载峰值少于5个,这应该是FULL-GC的结果。
GC指标相对健康,没有被频繁执行。
因为CPU负载不是很高,所以排除了虚拟机栈和本地方法栈溢出的情况。
package com.controllerimport org.apache.commons.io.FileUtils
import org.springframework.boot.actuate.management.HeapDumpWebEndpoint
import org.springframework.boot.actuate.management.ThreadDumpEndpoint
import org.springframework.core.io.Resource
import org.springframework.web.bind.annotation.GetMapping
import org.springframework.web.bind.annotation.RequestMapping
import org.springframework.web.bind.annotation.ResponseBody
import org.springframework.web.bind.annotation.RestController
import java.io.IOException
import java.nio.charset.StandardCharsets
import javax.servlet.http.HttpServletResponse/*** The controller of Monitor****/
@RestController
@RequestMapping
class MonitorController(private val threadDumpEndpoint: ThreadDumpEndpoint?,private val heapDumpWebEndpoint: HeapDumpWebEndpoint?
) {@RequestMapping("jmap")@ResponseBody@Throws(IOException::class)fun jmap(response: HttpServletResponse?): String? {if (this.heapDumpWebEndpoint == null) {return "not existed"}val resource: Resource = this.heapDumpWebEndpoint.heapDump(true).getBody()val bytes: ByteArray = FileUtils.readFileToByteArray(resource.getFile())val delete: Boolean = resource.getFile().delete()return download(response!!, resource.getFilename()!!, bytes, delete.toString())}@GetMapping("jstack")@ResponseBodyfun jstack(response: HttpServletResponse): String? {if (threadDumpEndpoint == null) {return "not existed"}val threads = threadDumpEndpoint.textThreadDump()return download(response, "thread-dump.txt", threads.toByteArray(StandardCharsets.UTF_8), "")}private fun download(response: HttpServletResponse, fileName: String, bytes: ByteArray, value: String): String? {response.characterEncoding = "utf-8"response.contentType = "application/octet-stream"response.addHeader("Content-Length", bytes.size.toString())response.setHeader("Content-Disposition", "attachment; filename=$fileName")try {response.outputStream.use { outputStream ->outputStream.write(bytes)outputStream.flush()return value}} catch (exception: Exception) {return exception.message}}
}
检查JVM的启动配置。
由于堆内存溢出、虚拟机堆栈和本地方法堆栈溢出已经被排除,只剩下JVM内存消耗超过容器限制。让我们先检查一下附件中的JVM启动配置,以验证它。
JVM配置的屏幕截图
从上面的截图中可以看出。
GC使用G1,最大的垃圾年龄是5次(如果一个对象在交换5次后仍然存活,它将被复制到旧gen)。而GC暂停的最大毫秒数为80毫秒。
容器的最大内存限制是2G。
最小和最大的Heap Memory是一样的,都是1.6G左右。
Attachments占用的内存已经达到了容器上限的80%。
得到结论
一旦Attachments被启动,就会请求1.6G的内存,这大约是容器限制的80%,并且会一直占用该内存,而不管它是否真的需要。这就解释了为什么内存消耗几乎是100%。
上面的MAT分析表明,实际使用的内存并不多,这就解释了为什么在高内存占用的情况下,Full GC不会被频繁触发。
假设容器设置的规则是,如果JVM占用的内存超过容器上限的80%,就会被判定为OOM,并试图杀死它,最终会触发重启。这就解释了为什么它在几天内重启了几十次。
所以附件的OOM应该属于JVM内存消耗超过容器限制的情况。
4. 行动
我们使用的是JDK11,我们可以使用一些新的功能,使JVM能够识别容器,并以容器的CPU和内存限制来设置适当的资源,以避免意外地杀死Meza-App。
因此,我们可以尝试
使用参数UseContainerSupport、InitialRAMPercentage、MinRAMPercentage和MaxRAMPercentage来限制内存使用。
取消Xmx、Xmn、UseG1GC、MaxTenuringThreshold和MaxGCPauseMillis等参数,交由JDK11根据容器本身的实际情况来决定。
根据指导原则,将min_replicas从1修改为2。
可以清楚地看到,修改配置后,内存使用量有了明显的下降。请查看以下相关截图。
通过www.DeepL.com/Translator(免费版)翻译
强烈建议将PRD中的最小荚数设置为大于1,否则,一旦遇到严重问题,API将完全无法对外开放,这将严重影响客户体验。
需要定期检查pod的健康状态。如果前端没有遇到 503 错误,我们可能需要更多时间来确定问题。
在使用容器时,我们应该始终使用 UseContainerSupport、InitialRAMPercentage、MinRAMPercentage 和 MaxRAMPercentage 而不是 Xmx & Xmn 来限制内存等资源。