记一次 JMeter 压测 HTTPS 性能问题

简介:在使用 JMeter 压测时,发现同一后端服务,在单机 500 并发下,HTTP 和 HTTPS 协议压测 RT 差距非常大。同时观测后端服务各监控指标水位都很低,因此怀疑性能瓶颈在 JMeter 施压客户端。

作者:拂衣

问题背景

在使用 JMeter 压测时,发现同一后端服务,在单机 500 并发下,HTTP 和 HTTPS 协议压测 RT 差距非常大。同时观测后端服务各监控指标水位都很低,因此怀疑性能瓶颈在 JMeter 施压客户端。

问题分析

切入点:垃圾回收

首先在施压机观察到 CPU 使用率和内存使用率都很高,详细看下各线程 CPU、内存使用情况:

top -Hp {pid}

发现进程的 CPU 使用率将近打满,其中 GC 线程 CPU 使用率很高

 再看下 gc 的频率和耗时,发现每秒都有 YoungGC,且累计耗时比较长,因此先从频繁 GC 入手,定位问题。

java/bin/jstat -gcutil {pid} 1000

在压测过程中,对 JMeter 的运行进程做了 HeapDump 后,分析下堆内存:

可以看到 cacheMap 对象占用了 93.3%的内存,而它又被 SSLSessionContextImpl 类引用,分析下源码,可以看出,每个 SSLSessionContextImpl 对象构造时,都会初始化 sessionHostPortCache 和 sessionCache 两个软引用 Cache。因为是软引用,所以在内存不足时 JVM 才会回收此类对象。

    // 默认缓存大小private final static int DEFAULT_MAX_CACHE_SIZE = 20480;// package privateSSLSessionContextImpl() {cacheLimit = getDefaultCacheLimit();    // default cache size,这里默认是20480timeout = 86400;                        // default, 24 hours// use soft reference// 这里初始化了2个默认大小20480的缓存,是频繁GC的原因sessionCache = Cache.newSoftMemoryCache(cacheLimit, timeout);sessionHostPortCache = Cache.newSoftMemoryCache(cacheLimit, timeout);}// 获取默认缓存大小private static int getDefaultCacheLimit() {try {int defaultCacheLimit = GetIntegerAction.privilegedGetProperty("javax.net.ssl.sessionCacheSize", DEFAULT_MAX_CACHE_SIZE);if (defaultCacheLimit >= 0) {return defaultCacheLimit;} else if (SSLLogger.isOn && SSLLogger.isOn("ssl")) {SSLLogger.warning("invalid System Property javax.net.ssl.sessionCacheSize, " +"use the default session cache size (" +DEFAULT_MAX_CACHE_SIZE + ") instead");}} catch (Exception e) {// unlikely, log it for safeif (SSLLogger.isOn && SSLLogger.isOn("ssl")) {SSLLogger.warning("the System Property javax.net.ssl.sessionCacheSize is " +"not available, use the default value (" +DEFAULT_MAX_CACHE_SIZE + ") instead");}}return DEFAULT_MAX_CACHE_SIZE;}

通过上述代码,发现 sessionCache 和 sessionHostPortCache 缓存默认大小是 DEFAULT_MAX_CACHE_SIZE,也就是 20480。对于我们压测的场景来说,如果每次请求重新建立连接,那么就根本不需要这块缓存。再看下代码逻辑,发现其实可以通过 javax.net.ssl.sessionCacheSize 来设置缓存的大小,在 JMeter 启动时,添加 JVM 参数-Djavax.net.ssl.sessionCacheSize=1,将缓存大小设置为 1,重新压测验证,观察 GC。

可以看出,YGC 明显变少了,从 1 秒 1 次,变成了 5-6 秒 1 次。那么观察下压测的 RT,结果。。。竟然还是 1800ms,本来 100ms 的服务被压成 1800ms,看来问题不在于 SSLSession 的缓存。再回到 GC 的耗时分析部分,仔细看下,其实 Full GC 只有 1 次,阻塞性的耗时并不多,Young GC 虽然频繁,但阻塞时间很短,也不至于将 SSL 加解密的 CPU 计算时间片全部抢占。看起来压力就是单纯的 SSL 握手次数多,造成了性能瓶颈。

调整思路:为什么频繁 SSL 握手

回到问题背景,我们是在做压力测试,单机会跑很高的并发模拟用户量,出于性能考虑,完全可以一次握手后共享 SSL 连接,后续不再握手,为什么 JMeter 会如此频繁握手呢?

带着这个问题,看了下 JMeter 官方文档,果然有惊喜!

原来 JMeter 有 2 个开关在控制是否重置 SSL 上下文的选项,首先是 https.sessioncontext.shared 控制是否全局共享同一个 SSLContext,如果设为 true,则各线程共享同一个 SSL 上下文,这样对施压机性能压力最低,但不能模拟真实多用户 SSL 握手的情况。

第二个开关 httpclient.reset_state_on_thread_group_iteration 是线程组每次循环是否重置 SSL 上下文,5.0 之后默认为true,也就是说每次循环都会重置 SSL 上下文,看来这就是导致 SSL 频繁握手的原因。

问题验证

回归测试

在 jmeter.properties 中将配置每个线程循环时,不重置 SSL 上下文,在 PTS 控制台再次启动压测,RT 直接下降 10 倍。

httpclient.reset_state_on_thread_group_iteration=false

修改前

修改后

源码验证

下面从源码层面分析下 JMeter 是怎么实现循环重置 SSL 上下文的,代码如下:

    /***  Whether SSL State/Context should be reset*  Shared state for any HC based implementation, because SSL contexts are the same */protected static final ThreadLocal<Boolean> resetStateOnThreadGroupIteration =ThreadLocal.withInitial(() -> Boolean.FALSE);/*** Reset SSL State. <br/>* In order to do that we need to:* <ul>*  <li>Call resetContext() on SSLManager</li>*  <li>Close current Idle or Expired connections that hold SSL State</li>*  <li>Remove HttpClientContext.USER_TOKEN from {@link HttpClientContext}</li>* </ul>* @param jMeterVariables {@link JMeterVariables}* @param clientContext {@link HttpClientContext}* @param mapHttpClientPerHttpClientKey Map of {@link Pair} holding {@link CloseableHttpClient} and {@link PoolingHttpClientConnectionManager}*/private void resetStateIfNeeded(JMeterVariables jMeterVariables, HttpClientContext clientContext,Map<HttpClientKey, Pair<CloseableHttpClient, PoolingHttpClientConnectionManager>> mapHttpClientPerHttpClientKey) {if (resetStateOnThreadGroupIteration.get()) {// 关闭当前线程对应连接池的超时、空闲连接,重置连接池状态closeCurrentConnections(mapHttpClientPerHttpClientKey);// 移除TokenclientContext.removeAttribute(HttpClientContext.USER_TOKEN);// 重置SSL上下文((JsseSSLManager) SSLManager.getInstance()).resetContext();// 标记置为false,保证一次循环中,只有第一个采样器走进此逻辑resetStateOnThreadGroupIteration.set(false);}}@Overrideprotected void notifyFirstSampleAfterLoopRestart() {log.debug("notifyFirstSampleAfterLoopRestart called "+ "with config(httpclient.reset_state_on_thread_group_iteration={})",RESET_STATE_ON_THREAD_GROUP_ITERATION);resetStateOnThreadGroupIteration.set(RESET_STATE_ON_THREAD_GROUP_ITERATION);}

在每次基于 Apache HTTPClient4 的 HTTP 采样器执行时,都会调用 resetStateIfNeeded 方法,在进入方法时读取 httpclient.reset_state_on_thread_group_iteration 配置,即 resetStateOnThreadGroupIteration。如果是 true,重置当前线程的连接池状态、重置 SSL 上下文,然后再将 resetStateOnThreadGroupIteration 置为 false。

因为 JMeter 的并发是基于线程实现的,resetStateOnThreadGroupIteration 这个开关放在 ThreadLocal 里,在每次循环开始时,会调用 notifyFirstSampleAfterLoopRestart 方法,重置开关,运行一次后,强制把开关置为 false。这保证了每次循环只有第一个采样器进入此逻辑,也就是每次循环只执行一次。

总结

本次解决了 JMeter5.0 版本以上压测 HTTPS 协议的性能问题,经验总结如下:

  1. 如果希望施压机发挥最大性能,可以将 https.sessioncontext.shared 设为 true,这样所有线程会共享同一个 SSL 上下文,不会频繁握手,但是不能模拟真实情况下多用户的场景。
  2. 如果希望模拟多个用户,不停循环执行某一个动作,也就是一个线程组每次循环模拟同一个用户的行为,可以将 httpclient.reset_state_on_thread_group_iteration 设置为 false,这样也可以很大的提高单机压测 HTTPS 的性能。
  3. 如果希望每个线程组每次循环模拟不同用户,那需要设置 httpclient.reset_state_on_thread_group_iteration=true,此时压测会模拟多用户频繁 SSL 握手,施压机性能最低,从经验来看,单机上限 50 并发左右。这也是 JMeter5.0 版本之后的默认设置。

阿里云 JMeter 压测

阿里云 PTS 压测工具[1]支持原生 JMeter 脚本,并且在 HTTPS 的压测中已将 httpclient.reset_state_on_thread_group_iteration 默认设置为 false,极大提高压测 HTTPS 时施压机性能,节省压测成本。如果模拟最真实的用户访问情况来压测,可以通过修改 JMeter 环境中的自定义 properties 配置[2],将 httpclient.reset_state_on_thread_group_iteration 设置为 true。

除此以外,阿里云 JMeter 压测有以下优势:

  • 零运维成本支持分布式压测,即压即用
  • 压测中查看秒级监控,实时观测系统性能水位
  • 支持 RPS 模式,直观衡量系统吞吐量
  • 全球地域发起百万级并发流量,模拟真实用户分布
  • 支持阿里云 VPC 压测,一键打通云上内网环境
  • 支持 JMeter 客户端插件,本地快速发起云端压测

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里巴巴在 Envoy Gateway 的演进历程浅析

简介&#xff1a;最近阅读 《Envoy Gateway 来了》这篇文章&#xff0c;深感 Envoy 强大的可扩展性和基于 Envoy Gateway 带来的易用性&#xff0c;在 K8s 架构下&#xff0c;Envoy 重新定义了网关的定位和能力&#xff0c;被誉为云原生网关&#xff0c;甚至被称之为下一代网关…

2022华为开发者大赛北区决赛在1024程序员节北京峰会成功举行

10月24日&#xff0c;“2022 长沙中国 1024 程序员节”北京峰会于北京经开区国家信创园成功举办。聚焦“软件新时代 开源创未来”主题&#xff0c;北京峰会开展“会、赛、展、趴”四大环节。2022 华为开发者大赛云应用创新赛道作为华为 ICT 领域面向云赛道的顶级赛事&#xff0…

阿里云专利缴费小程序丨如何在一分钟为多项专利缴费?

简介&#xff1a;本文为用户介绍快速专利缴费的方法。 对于一家科技公司来说&#xff0c;手握多项专利是十分常见的事情。但这却也让相关负责人有点头疼。 “我们公司名下有十多件专利&#xff0c;从14年到现在大概每年申请了一两个专利。类型的话发明专利、外观专利、实用新…

SysAK 应用抖动诊断篇—— eBPF又立功了 | 龙蜥技术

简介&#xff1a;且看 SysAK 是如何打造一款性能开销不大、安全可靠、且灵活的关中断检测工具。 文 / 系统运维 SIG 编者按&#xff1a;还记得曾经风靡一时的狄仁杰探案系列之《他抖任他抖&#xff0c;IO诊断在我手》、《netinfo&#xff1a;揭开网络抖动面纱的神器》、《core…

性能提升 57% ,SMC-R 透明加速 TCP 实战解析 | 龙蜥技术

简介&#xff1a;SMC-R 是如何加速 TCP 应用&#xff1f; 编者按&#xff1a;TCP 协议作为当前使用最为广泛的网络协议&#xff0c;场景遍布移动通信、数据中心等。对于数据中心场景&#xff0c;通过弹性 RDMA 实现高性能网络协议 SMC-R&#xff0c;透明替换应用 TCP 协议&…

2022云管云网大会丨阿里云孙成浩:构建万物互联的智能云网络

简介&#xff1a;2022年5月19日&#xff0c;由中国信息通信研究院&#xff08;以下简称“中国信通院”&#xff09;和中国通信标准化协会联合主办的“2022云管和云网大会”通过线上直播方式成功召开。大会以“新云管 新云网”为主题&#xff0c;工业和信息化部信息技术发展司信…

未来两年,阿里云20%新增算力将使用自研CPU

11月3日&#xff0c;阿里巴巴在2022云栖大会上宣布&#xff0c;自研CPU倚天710已大规模应用&#xff0c;阿里云未来两年20%的新增算力将使用自研CPU&#xff0c;这是阿里算力攻坚的重要突破。目前&#xff0c;倚天710已在阿里云数据中心大规模部署&#xff0c;并以云的形式服务…

PolarDB-X迎来开源后首个重大版本升级,2.1版本新增5大特色功能

简介&#xff1a;2022 年 5 月25日&#xff0c;阿里云开源 PolarDB-X 升级发布新版本&#xff01;PolarDB-X 从 2009 年开始服务于阿里巴巴电商核心系统&#xff0c; 2015 年开始对外提供商业化服务&#xff0c;并于 2021 年10月正式开源。本次发布是开源后首个重大版本升级&am…

做ToB软件质量保障的这两年

简介&#xff1a;自己算是阿里的老兵了&#xff0c;从实习开始一直投身在 toB 业务的质量保障领域内&#xff0c;不能说是资深的专家&#xff0c;但所经历的、感受的业务特点和体会还是具有一定的代表性&#xff0c;希望能通过这篇文章&#xff0c;总结一下过往&#xff0c;并能…

成本节省 50%,10 人团队使用函数计算开发 wolai 在线文档应用

简介&#xff1a;人们关注 wolai 独特的功能和舒适的用户的用户体验&#xff0c;更关注实现这些背后的技术架构。在一个晴朗下午&#xff0c;我们邀请了 wolai.com 的创始人马锐拉&#xff0c;跟我们聊聊 wolai 背后的 Serverless 架构。 作者&#xff1a;马锐拉 | wolai.com …

前端质量|基于业务驱动的前端性能有效实践案例

简介&#xff1a;前端的本质价值是什么&#xff1f;作者认为是给用户创造良好的交互体验和抵达率优化应该在转化率之前。那么本文就将和大家分享基于业务驱动的前端性能有效实践案例。 作者 | 钱文玲(悠酱) 来源 | 阿里开发者公众号 一、背景 1.1.前端性能优化的业务意义 前…

走进RDS|说说关系型数据库与Serverless

简介&#xff1a;看到如今Serverless在云计算行业喷薄欲出的态势&#xff0c;像极了《星星之火&#xff0c;可以燎原》中的描述&#xff1a;虽然不能预测未来的发展和变化&#xff0c;但对于云计算来说这是个相对确定的方向。本文将和大家说说关系型数据库与Serverless。 作者 …

六年团队Leader实战秘诀|程序员最重要的八种软技能

简介&#xff1a;笔者在带团队的六年中发现&#xff0c;程序员们在职场都有一个共同的困扰&#xff1a;“好像写代码都没什么问题了&#xff0c;日常工作基本上都是应付业务需求的开发&#xff0c;好像找不到其他的更大的附加价值了&#xff0c;我应该找一些什么样的发力点才能…

宜搭小技巧|学会这一招,数据收集收放自如

简介&#xff1a;应用的「启用」「停用」功能还可以这样用 >> 团建的日子眼看就要到了&#xff0c;为了掌握参加的人数&#xff0c;提前进行车票、房间、餐食的预定&#xff0c;宜小搭计划在周五下班前停止对报名信息的收集。 如何停止我们的应用进行数据收集呢&#x…

阿里云总裁张建锋:“未来不懂低代码就像二十年前不会用word”

11月3日&#xff0c;阿里云智能总裁张建锋在2022云栖大会公布&#xff0c;钉钉上的低代码应用数突破500万&#xff0c;低代码开发者超过380万。张建锋表示&#xff0c;未来80%的应用会由业务人员通过低代码开发。 张建锋提到&#xff0c;一线业务人员通过低代码的方式&#xf…

平行云CEO 李岩:CloudXR ,开启通往元宇宙的通道

简介&#xff1a;一端是算力无穷的云&#xff0c;这也是 CloudXR 的精髓所在。 图&#xff1a;2022阿里云视觉计算私享会现场 5月11日&#xff0c;在“2022阿里云视觉计算私享会”上&#xff0c;平行云CEO李岩为大家带来了题为《CloudXR&#xff0c;开启通往元宇宙的通道》的主…

阿里10年沉淀|那些技术实战中的架构设计方法

简介&#xff1a;上周我写的一篇文章《关于技术能力的思考和总结》引起了大家的关注&#xff0c;好多读者的评论“以写代想、以想促真、以讲验真”&#xff0c;大家的感受很深刻&#xff0c;基于上次的文章&#xff0c;这篇文章我其实更想跟大家聊聊一些常用的思考方法&#xf…

阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践

简介&#xff1a;MaxCompute作为企业级SaaS模式云数据仓库&#xff0c;正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 &#xff0c;结合数据生命周期&#xff0c;针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景&…

阿里平头哥发布RISC-V高能效处理器玄铁C908,打造端云一体生态

11月3日&#xff0c;在2022云栖大会上&#xff0c;阿里平头哥发布全新RISC-V高能效处理器玄铁C908。玄铁C908计算能效全球领先&#xff0c;较业界同性能处理器能效提升超20%&#xff0c;更能满足低碳时代的算力需求&#xff0c;可广泛用于智能交互、多媒体终端、AR/VR、无线通讯…

MaxCompute 公共云多租户设计的技术要点详解及产品实现特色

简介&#xff1a;公共云大数据平台在多租户的设计和实现方式上有所差异。本文主要介绍在公共云大数据平台的多租实现方案中需要考虑的问题和挑战&#xff0c;重点介绍了MaxCompute在计算和存储多租实现上的特点。期望通过这些介绍来让大家了解大数据云平台多租方案需要关注的技…