一次压测引发的数据库 CPU 飙升

一次压测引发的数据库CPU飙升

作者:昀鹤

一次压测过程中,当数据库的 qps 和 tps 都正常时,如果 cpu 利用率异常的高,应该如何排查?希望通过这篇文章,给你一些启发...

一、业务背景

业务需要控制频道内兑换现金的数量,于是在产品设计上给兑换现金增加了库存限制。

在此基础上形成了秒杀场景,峰值时核心接口 qps 上涨了近 600 倍(几十到几万) ,因此需要进行压测来对系统和 DB 水位摸一下高。

二、压测准备

大致分为下面几个步骤:

1)压测流量评估:就是定一下每个接口大致压测多少 qps,以及压测时到各个下游系统的流量估计。

2)压测改造:因为压测都是用的压测账户,在频道里没有历史痕迹,很多逻辑是走不到的,并且这些逻辑的不同,会直接影响到数据库和下游的流量,因此我们需要根据频道的现有数据进行链路的 mock(包括上述的流量评估也得基于这些不同链路的比例去算),举例如下:

3)测试 &发布:既然改了代码,还是得交给可爱的测试同学回归下线上链路的,当然压测的链路就可以自己测一测了,看看改造是否符合预期,hsf 控制台可以很方便的模拟影子链路:

4)下游流量报备:当然还是得跟各个下游系统知会一声的,切勿悄悄滴进村,打枪滴不要。

5)压测数据准备:主要是压测平台上的各种接口和压测流量配置(注意减去压测时的背景流量),以及压测账号申请等等(这一步也是交给测试同学)。

6)小流量预跑:在正式压测之前,大概用 1%的流量先跑一下,看看本身系统以及下游是否有异常(这一步很有必要,有时候下游系统比较复杂,可能部分场景并不能支持压测流量,提前跑一下能发现很多问题,避免正式压测的时候下游报警,然后就是👋忙🦶乱)。

三、问题出现

好了,万事具备,经过上面一系列步骤,想必本次压测一定是顺顺利利吧!

压测,启动!

====== 10%压测流量,cpu 利用率 11% ====== 挺正常

====== 30%压测流量,cpu 利用率 20% ====== 稳中向好

====== 50%压测流量,cpu 利用率 30% ====== 符合预期

====== 80%压测流量,cpu 利用率 50% ====== 感觉有点问题,但是说不出来哪里有问题!

====== 100%压测流量,cpu 利用率 80% ===== 嗯?好像不对劲?有点高

====== 100%压测流量,稳定几分钟后,突然飙到 100% ===== .....卧槽,肯定有问题,暂停压测!

唉,还是太年轻了。

赶紧排查,先拉了压测时间段的 cpu 曲线图:

看着 cpu 的监控图,我的脑海里浮现了三个疑问:

1.同等流量下,压测时的 cpu 利用率为什么高于线上实际值(线上约等于压测 80%流量时,cpu 利用率实际 40%不到,压测时已经到 60%了)?

2.流量 80%时,为什么压测流量持续不动,cpu 利用率会缓慢上涨呢?

3.流量 100%时,分明一开始 cpu 利用率还维持在 80%以下,然后突然就飙到 100%了?

总体来说,就是 CPU 高于预期。

四、问题排查

第一时间我猜测是我的压测改造不符合预期,导致打到 db 的 qps 和 tps 过高导致

急了,开始看代码,然后挑了几个压测 trace 在鹰眼上看调用,没找到问题。

然后发现我好蠢呐(主要是有点慌张),dbservice 本身就有 tps 和 qps 的监控:



看了一下,有两点,一是持续压测的时候,qps 并没有持续上涨二是差不多同流量下 qps 的值确实略高于线上实际值,但远远没有 cpu 差值这么多,所以基本可以排除一开始的猜测。



陷入了瓶颈.....



这时候我知道今天的压测指定是不行了,所以很干脆地摆了,开始安心的找问题~

4.1 发现疑点

这时候拉了 DBA 同学一起帮我们看问题,DBA 同学表示,一,数据库在长时间高压下会发生性能劣化,这也是 cpu 从 80%突然暴涨到 100%的原因(解答了第三个问题),至于 CPU 利用率异常是表象,qps 和 tps 只是其中一个影响因素,建议我们看看其他指标。

于是挨个查看数据库性能指标(带宽、慢 sql、RT....),然后终于发现了一个疑点:



这个缓慢升高的行读,非常符合压测流量 80%时 cpu 曲线的变化,很可能是问题二的原因...



那是不是也有可能是问题一的原因呢?

4.2 确认疑点

对比正常峰值流量下的行读指标

好吧,这都差了一个数量级了,基本可以确定问题出在行读异常上了



开始思考为什么行读这么多还在持续上涨,难道是同一个 sql 查出来的行数会变多

4.3 定位 sql

其实这时候心里已经隐隐约约猜到问题在哪了,但还是顺着这个行读异常排查下去



通过对比定位到了有问题的 sql



压测时:

正常时:



点进去也能看到具体的 sql 信息:



好吧,和我猜的一样,这下悬着的心终于死了。

4.4 代码分析

至于为什么同一条 sql 压测的平均行读会高这么多,还是得从代码层面来分析。



首先先看下改造逻辑和逻辑推导:

这么压测改造的原因是压测的账号是有限的(同一批压测账号重复的去轮询),如果所有账号都调过一遍接口,那后面的每次查询都能查到任务,不会再有 DB 写,为了更好的模拟线上实际情况,因此通过这种方法去让账号重新路由到注册逻辑。



然后看下任务的查询逻辑,如下:

private TaskInstanceParam createQueryParamByEffectiveTime(TaskQueryParam queryParam) {        final TaskInstanceParam dbQueryParam = new TaskInstanceParam();        Date now = TimeTravelManager.getCurrentTime(queryParam.getUserId());        dbQueryParam.createCriteria()            .andUserIdEqualTo(queryParam.getUserId())            .andBizTypeEqualTo(queryParam.getBizType())            .andTemplateIdEqualTo(queryParam.getSubBizType())            .andEffectiveStartTimeLessThanOrEqualTo(now)            .andEffectiveEndTimeGreaterThan(now);        dbQueryParam.appendOrderByClause(OrderCondition.EFFECTIVESTARTTIME, SortType.DESC);        dbQueryParam.setPagination(1, 1);        return dbQueryParam;    }

复制代码

其实就是查询符合 effectiveStartTime <= now < effectiveEndTime 的最新一条任务, 所以每次注册插入的任务,都会在下次同一账号查询时,为 sql 多加一条符合条件的行记录



至此原因已经很清晰了:随着压测的持续进行,每一个账户注册的任务条数会越来越多,因此同一条 sql 查询到的符合条件的行数会越来越多,CPU 就会花费越来越多的资源逐行处理。



后续的解法:

1)查询的时候 mock 到数据的 userId(提前准备好的线上实际来访 userId,随机取一个);

2)因为不影响查询了,所以插入逻辑不变。

五、原理刨析

接下来请 ChatGpt 老师上台,为我们普及下相关原理:

我 :什么是行读,行读高 cpu 利用率就高嘛?



我 :哦,听起来行读是比较笼统的概念,那什么是逻辑读和物理读呢,区别在哪里?



我:嗯哼,原理解释有点干燥,画个关系图(挑衅)?



我:啊?阿珍你来真的啊?



我:那总结一下,其实就是行读包括逻辑读和物理读两种,前者优于后者,平时的开发中,应该注意合理建立索引和优化 sql,来减少扫描整体行读数以及物理读的次数呗,说的对就夸一下我

六、反思

1.压测流量 80%时,就应该敏感地关注到 cpu 是高于日常水位的,其实可以避免压测调到 100%的 cpu 飙升;

2.对于 DB 的性能指标,压测时只关注了最表层的 cpu 利用率,其他的性能指标监控没有关注到位;

3.对于我们的任务场景下,查询的是有效期内的最新一条任务,实际上不太适合反复注册的压测 mock,所以在压测改造时,还需要关注改造方式与场景的匹配程度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31346.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Aigtek电压放大器的主要作用是什么

电压放大器是一种重要的电子设备&#xff0c;用于放大电压信号。它在许多电子系统和应用中发挥着关键的作用。本文将详细介绍电压放大器的主要作用和工作原理。 电压放大器是一种电子电路&#xff0c;它可以将输入信号的电压放大为更大的输出电压。放大器通过增加输入信号的幅度…

【CS.DS】数据结构 —— 图: 图的相关概念大全

文章目录 1 图的类型2 图的基本术语References 1 图的类型 图是一种数据结构&#xff0c;由节点&#xff08;顶点&#xff09;和边组成。图可以用来表示各种网络结构&#xff0c;如社交网络、交通网络、计算机网络等。根据边的性质&#xff0c;图可以分为以下几种类型&#xf…

使用Apache Flink实现实时数据同步与清洗:MySQL和Oracle到目标MySQL的ETL流程

使用Apache Flink实现实时数据同步与清洗&#xff1a;MySQL和Oracle到目标MySQL的ETL流程 实现数据同步的ETL&#xff08;抽取、转换、加载&#xff09;过程通常涉及从源系统&#xff08;如数据库、消息队列或文件&#xff09;中抽取数据&#xff0c;进行必要的转换&#xff0c…

Windows C++ 应用软件开发从入门到精通详解

目录 1、引言 2、IDE 开发环境介绍 2.1、Visual Studio 2.2、QT Creator 3、Windows 平台实用小工具介绍 3.1、代码编辑器 VSCode 3.2、代码查看编辑器 Source Insight 3.3、文本编辑器 Notepad 3.4、文件搜索工具 Everything 4、 C语言特性 4.1、熟悉泛型编程 4.…

恭喜行云绽放,24年再度荣获国家鼓励的企业软件证书

在刚刚过去的五月份&#xff0c;行云绽放再次传来一个好消息&#xff0c;那就是2024年行云绽放再度荣获国家鼓励的企业软件证书。 什么是国家鼓励的企业软件证书&#xff1f; 国家鼓励的企业软件证书被称为“国家鼓励的软件企业证书”&#xff0c;这一证书由中国软件行业协会…

LangChain轻松入门和开发实践

LangChain是一个开发语言模型应用的框架。 LangChain能够简化开发与语言模型工作流中的复杂部分&#xff0c;帮助开发人员能够更轻松地进行开发&#xff0c;并定制满足需求的应用。 LangChain有两大优点&#xff0c;一是它能将外部数据&#xff0c;如文件、其他应用、API数据等…

kylinos 国产操作系统离线安装firefox 麒麟操作系统安装新版本firefox

1. 火狐地址&#xff1a; 下载 Firefox 浏览器&#xff0c;这里有简体中文及其他 90 多种语言版本供您选择 2. 选择&#xff1a; 3. 下载完之后&#xff0c;上传到离线机器 4. 解压缩&#xff1a; tar -xvjf firefox-127.0.1.tar.bz2 5. 去点击解压后的文件夹&#xff0c;找…

SpringCloud Alibaba Sentinel 流量控制之流控效果实践总结

当 QPS 超过某个阈值的时候&#xff0c;则采取措施进行流量控制。流量控制的效果包括以下几种&#xff1a;直接拒绝、Warm Up、匀速排队/排队等待。对应 FlowRule 中的 controlBehavior 字段。 注意&#xff1a;若使用除了直接拒绝之外的流量控制效果&#xff0c;则调用关系限流…

如何有效管理信息技术课堂

有效管理信息技术课堂是确保学生学习效果、维护课堂秩序和提升学生兴趣的关键。以下是一些详细的方法和策略&#xff0c;旨在帮助教师更好地管理信息技术课堂&#xff1a; 一、制定明确的课堂规则 强调课堂纪律&#xff1a;确保学生明确了解并遵守课堂纪律&#xff0c;如准时…

long long ago

一、long 众所周知&#xff0c;英文单词 long&#xff0c;表示长,长的。 但是&#xff0c;还有很多你不知道到的东西&#xff0c;根据英文单词首字母象形原则&#xff0c;我们可以做一下单词long结构分析&#xff1a; long l长 ong长 什么意思&#xff1f;就是说首字线 l…

H3C路由器密码恢复方法

H3C的路由器需要先关闭电源&#xff0c;重新启动路由器&#xff0c;注意终端上显示 press CTRLB to enter extended boot menu 的时候&#xff0c;请迅速按下ctrlB&#xff0c;这样将进入扩展启动选项。接着&#xff0c;你就可以进入路由器视图&#xff1a; 1.低端H3C设备 重启…

STM32 I2C总线锁死原因及解决方法

本文介绍STM32 I2C总线锁死原因及解决方法。 在使用STM32 I2C总线操作外设时&#xff0c;有时会遇到I2C总线锁死&#xff08;I2C总线为Busy状态&#xff09;的问题&#xff0c;即便复位MCU也无法解决&#xff0c;本文介绍其锁死的原因和解决方法&#xff0c;并给出相应的参考代…

pdf转图片转换器,pdf转图片的工具

在日常的工作和学习中&#xff0c;我们经常会遇到需要将PDF文件转换为图片格式的情况。那么&#xff0c;如何才能将PDF格式转换为图片格式呢&#xff1f;今天&#xff0c;我将为大家介绍几种简单易用的方法&#xff0c;帮助大家轻松实现PDF转图片。 打开“轻云pdf处理官网网站”…

deepin 加入甲辰计划,共建 RISC-V 繁荣生态

内容来源&#xff1a;deepin&#xff08;深度&#xff09;社区 今日&#xff0c;deepin(深度)社区宣布正式加入甲辰计划&#xff0c;致力于在下一个丙辰年&#xff08;2036龙年&#xff09;之前&#xff0c;基于RISC-V实现从数据中心到桌面办公、从移动穿戴到智能物联网全信息产…

【廉颇老矣,尚能饭否】传统的数据仓库是否还能发挥作用?

引言&#xff1a;随着数字化转型的深入和大数据技术的发展&#xff0c;大数据平台、数据中台和和数据湖技术不断涌现&#xff0c;给人感觉传统的数据仓库技术已经过时&#xff0c;廉颇老矣&#xff0c;不能应对新的挑战&#xff0c;在数字化转型中&#xff0c;不能发挥重要作用…

网络与协议安全复习 - 电子邮件安全

文章目录 PGP(Pretty Good Privacy)功能 S/MIME(Secure/Multipurpose Internet Mail Extensions)DKIM(Domain Keys Identified Mail) PGP(Pretty Good Privacy) 使用符号&#xff1a; Ks&#xff1a;会话密钥、KRa&#xff1a;A 的私钥、KUa&#xff1a;A 的公钥、EP&#xff…

JAVAWeb---- 数据库的简单了解

目录 1.什么是数据库 2.什么是数据库管理系统 3.什么是SQL 4.什么是关系型数据库 1.什么是数据库 用来存储和管理数据的“仓库”&#xff0c;简称DB(Database)&#xff1b; 2.什么是数据库管理系统 对数据库的一切操作都是在数据库管理系统进行的&#xff0c;比如MySQL&a…

软件测试之解构单元测试

软件单元测试是对软件中的最小可测试单元进行检查和验证的过程。这些单元可以是函数、方法、类实例&#xff0c;或者是任何具有明确功能、规格定义和接口定义的程序代码模块。单元测试是软件开发过程中的最低级别的测试活动&#xff0c;它确保软件的独立单元在与程序的其他部分…

eclipse中没有SERVER的解决办法(超详细)

将 Tomcat 和 Eclipse 相关联时&#xff0c;Eclipse有的版本发现 发现eclipse->【Window】->【Preferences】里没有【server】从而配置不了Runtime Environment。所以需要通过eclipse进行安装。 通过我个人的经验下面给出解决办法&#xff1a; 一、获取 Eclipse版本 点击…

Kafka中的时间轮算法

1. Kafka与时间轮&#xff1a; Kafka的定时器底层使用时间轮算法。Kafka时间轮是层次时间轮&#xff0c;并且支持时间轮复用。 优点&#xff1a; 高效的插入操作&#xff1a; 时间轮底层数据结构&#xff08;桶&#xff09;&#xff0c;使用双向链表的设计使得插入操作的时间…