100ms的SQL把服务器搞崩溃了

前言

一个项目上线了两个月,除了一些反馈的优化和小Bug之外,项目一切顺利;前期是属于推广阶段,可能使用人员没那么多,当然对于项目部署肯定提前想到并发量了,所以早就把集群安排上,而且还在测试环境搞了一下压测,绝对是没得问题的;但是,就在两个月后的一天,系统突然跑的比乌龟还慢,投诉开始就陆续反馈过来了。

经过排查,原来是频繁执行一条耗时100ms的SQL导致,100ms感觉不长,但就是把系统搞崩了,具体细节如下。

正文

1. 项目概况

项目采用ABP进行开发,集成统一的认证中心(IDS4),部分数据对接第三方系统,拆分后的这个项目架构相对简单。

考虑并发量不高,就算是高峰期也不会超过1000,于是就搞了个单台的数据库服务器(MySQL),测试环境中经过压测,完全能抗住。

上线时,由于线上资源的关系,DB服务器的配置没有按测试环境的标准来分配,相关人员想着后续看情况进行补配。上线推的比较紧,简单评估了配置风险,初步判断没啥大问题,于是就推上线了。

相关技术栈:ABP、IdentityServer4、Autofac、AutoMapper、Quartz.NET、EF Core、Redis、MySQL等,这都不重要,重要的是100ms的SQL把系统搞崩了。

由于系统相对不大,并没有把分布式日志、调度监控,性能监控集成上去。

2. 问题排查

上线期间,前期处于使用推广阶段,一切正常。两个月后的一天,系统处于使用高峰时段,突然陆续收到反馈:系统有点卡!!!于是赶紧进行排查。

由于系统已经是集群部署的,慢这个问题首先怀疑是数据库服务器,于是让DBA的同事排查了一下,没有锁,只是有大量事务等待提交(waiting for handler commit),通过如下命令可查的:

# 查看正在执行的脚本select *  from information_schema.PROCESSLIST t where t.COMMAND != 'Sleep'  order by time desc;

看到结果都是插入审计日志记录导致,一看日志记录频率,差不多一秒500条记录。DBA同事说可能是记录插入频繁导致,此时CPU已经爆到100%了,为了快速解决问题,于是就赶紧关掉了一些不必要的日志记录。

这么一改,稍微降了一点,没有事务提交的记录,系统勉强可以撑着用,但是CPU还是在85%~97%波动;

看到这种情况,当然还是不放心,继续排查。中间有对服务器的配置产生过怀疑,但非常肯定的是这不是主要原因,于是和DBA的同事继续排查。

系统虽然可以正常使用,但时不时的也看看监控屏,CPU一直处于高水位状态,还是有点慌的,因为一有问题,信息和电话都要爆。

突然DBA同事发现有一个单表查询的SQL执行比较频繁,于是单独拿出来试了一下,查询时间150ms左右,这个表的数据量不大,8万左右,但没有加任何索引,因为想着数据量不大,查询时长还可接受,所以当时就没有加相关索引。

定位到这条SQL后,想到的第一步就是增加索引,在测试环境上试了一把,执行效率直接飞速提高到1ms;效果如下:

142c4c32e913d4686b6af962bc7e12c9.png

所以和DBA同事达成一致意见,在生成环境上增加复合索引(创建索引一定要注意字段顺序),在中午时候,系统使用频率不太高,于是就在生成上快速加了索引,我去,CPU一下降到了20%以内,意不意外;就算在使用高峰期,也没超过20%,通过zabbix工具监控看到CPU的效果:

259c877aff392984c01fce4fed1a4d5e.png

问题算是解决了,总算松了一口气。

这里有个问题:CPU都爆了为什么没有报警提醒,这块DBA同事正在排查相关配置。这里发现CPU爆了,还是无意的远程到服务器,发现很卡,一看CPU才知道爆了。

系统虽小,问题不大,但其实暴露的问题还是挺多。

总结

这次线上小事故暂时分享到这,因为项目不大,所以没有做那么多监控,但以下建议,小伙伴可以参考一下:

  • 频繁执行的SQL语句,一定要保证其执行效率,不要小看ms级的优化,如果并发量上来也会是灾难;

  • 对应服务器要做好监控,指定预警范围提醒,避免打个措手不及

  • 尽量避免频繁的自动刷新;引入实时通信的方式,会减少不必要的访问压力。

  • 关于系统频繁记录的审计日志,尽量不要和业务数据库存放在一起;大量的日志频繁操作数据库是很占用IO的。

  • 对于拆分的项目,再加上集群部署,分布式日志管理必须安排上,不然分析日志排查问题是个费时费脑的事

关注“Code综艺圈”,和我一起学习吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

需求分析工程师岗位的职责描述(合集)

需求分析工程师岗位的职责描述1 职责: 1,负责需求调研,对需求进行分析,编写解决方案、需求规格说明书等 2,根据需求制作原型,并负责原型展示以及客户沟通等工作 3,负责向技术团队精确地传达业务…

nginx 下配置使用Thinkphp5解决跨目录活动并且设置网站根目录

由于TP5框架的一些特性规则,在nginx下导致跨目录的一些访问不能执行 最开始我尝试配置文件夹目录,导致出现各种奇葩错误,然后搜了以下资料发现原来只要简单的修改几个配置文件即可。 声明系统环境: **系统:Centos6.版本…

如何使用CPU来加速你的Linux命令

我们都知道 grep, bzip2, wc, awk, sed等等,都是单线程的,只能使用一个CPU内核。那么如何才能使用这些内核? 要想让Linux命令使用所有的CPU内核,我们需要用到GNU Parallel命令,它让我们所有的CPU内核在单机内做神奇的map-reduce操…

关于nginx为站点绑定域名以及绑定多个域名

环境: 系统:Centos6.版本 使用lnmp一键安装包安装环境(配置文件地址在其官网有写) 找到nginx的conf文件,我的目录为: /usr/local/nginx/conf 随后找到:server_name _; 如果没有配置就是…

【6】JAVA---地址App小软件(QueryPanel.class)(表现层)

查找模块: 年龄可进行段查找。 其他的都是模糊匹配。 空格为无用字符,会屏蔽的(除年龄)。 (如果在年龄中输入空格,会出现异常,当时没想到这点,要防护这点很容易的,但…

Edge 超越 Safari 成为全球第二大桌面端浏览器!Firefox 爆降致 Chrome 份额再创新高!...

桌面端StatCounter 近日发布全球桌面端浏览器 2022 年 3 月统计报告:微软 Microsoft Edge 浏览器桌面端市场份额从 9.61% 上升至 9.65%, 苹果 Safari 浏览器桌面端市场份额从 9.77% 下降至 9.56%。 这也意味着微软 Microsoft Edge 浏览器正式超越苹果 Sa…

hackgame汇总

2019独角兽企业重金招聘Python工程师标准>>> http://www.hackerforever.com/survius.php http://www.funnygames.co.nz/play/hacker http://www.hackerskills.com/ http://www.mod-x.co.uk/whatisit.php http://www.hackerevolution.org/page_hackerevolution.h…

关于thinkphp5的报错 mkdir() Permission denied的解决

声明环境: 系统: Centos 6.8 64x nginx 使用lnmp一键安装包安装 已解决tp5跨目录活动问题 mkdir() 的作用是函数创建目录,即读写相关,那么即报错“permission denied” 则我们可以改变目录权限。 环境为nginx,nginx有设置的访问用…

.NET LoongArch64 正式合并进入.NET

国内自主的龙芯,在做龙芯技术生态就把 .NET 作为其中一部分考虑进去,这也将对接下来国内.NET应用场景充满了期待。通过dotnet/runtime 可以知道现在龙芯版本的 .NET 已经合并到.NET 7 官方分支的工作已经完成了。LoongArch64架构合并进入.NET 7.0 已经安…

qtabwidget切换tab事件_某超超临界机组初压/限压切换过程中扰动原因分析

严寒夕 浙江浙能台州第二发电有限责任公司[摘要]某火电厂汽轮机在初压/限压切换过程中出现负荷瞬时上升问题。从初压/限压切换的逻辑及切换过程中主要参数的变化分析,确定原因为压力控制器指令上升瞬间和转速负荷控制器指令下降瞬间有短暂的时间间隔,造…

WiresShark之抓http包如何倒出图片格式的对象

1 问题 在WireShark抓取http数据包之后,里面有图片链接,我们怎么进行导出来,当然这里在浏览器或者Fiddler里面普通图片格式可以显示出来。 2 举例子操作说明 1)比如我们访问www.hao123.com.cn这个网站,我们首先打开wireShark,开启抓包,然后用浏览器访问这个网站,页面效…

linux生成地图,ROS中利用V-rep进行地图构建仿真

V-rep中显示激光扫描点在VREP自带的场景中找到practicalPathPlanningDemo.ttt文件,删除场景中多余的物体只保留静态的地图。然后在Model browser→components→sensors中找到SICK TiM310 Fast激光雷达,拖入场景中:打开脚本参数修改器&#xf…

Python环境搭建与连接SQL Server类MyDBase的实现

一、开发环境搭建 1、下载所需版本的软件包(点击下载),点击安装即可,注意x86与x64的选择。 2、配置环境:复制python安装目录,粘贴到Path中 3、打开cmd,输入python并回车,看到如下信息,则安装成功!

如何隐藏地址栏中的真实地址_Firefox推出Private Relay插件:可隐藏真实邮箱地址...

Mozilla 正在为 Firefox 开发一项名为Private Relay 的新服务,它能够用来一键随机生成电子邮件别名,以隐藏真实邮箱地址,使用户免受广告商和垃圾邮件侵害。Private Relay 将作为 Firefox插件提供。它于上个月开始测试,目前仍处于封…

使用VS开发C++ 控制台程序或其他项目出现 ‘ LINK : fatal error LNK1104: 无法打开文件“LIBCD.lib” ’ 常规解决办法

原因:大多是由低版本例如VC6(本人是)开发项目,然后在高版本上再开发该项目导致LIBCD.lib出现更改由此出现错误提示。 本人VS版本2017; 一般解决办法: 第一步:右键项目属性 第二步:在忽略特定库位置加上要忽…

不同步节点在线使用Remix开发以太坊Dapp及solidity学习入门 ( 一 ):智能合约HelloWorld

有问题可以点击–>加群互相学习 本人本来想自己写公链,结果发现任重道远; 遂,开始写Dapp,顺便写的时候搞个教程吧。。。 通过系列教程学习将会: 1.基本使用solidity 语言开发智能合约 2.知道怎么发自己的以太坊的to…

Blazor University (16)渲染树 — 使用 @key 优化

原文链接:https://blazor-university.com/components/render-trees/optimising-using-key/使用 key 优化源代码[1]提示: 对于在运行时循环生成的组件,始终使用 key。前面的示例运行良好,因为 Blazor 能够轻松地将虚拟 DOM 元素与浏…

苹果的热榜:积分墙背后的隐秘世界

电影《楚门的世界》中描述过这样的故事:楚门这个快乐单纯的青年,一直以为自己是平凡小镇上普通的保险推销员。直到有一天他发现这世界上的一切都是为他精心安排的。他会遇到谁、在他身上将要发生什么事件,都是按照剧本被人操纵的。甚至连他的…

solidity编写eth智能合约之contract 创建合约(二)

环境说明: Ide:在线remix Solidity IDE 语言:solidity solidity 版本号:0.4.20 Tip:如果一点都不懂的建议从头开始看 运行结果截图我不赘述,所有合约代码均通过个人检测。请按照标准进行操作,如…

为什么HttpContextAccessor要这么设计?

前言周五在群里面有小伙伴问,ASP.NET Core这个HttpContextAccessor为什么改成了这个样子?在印象中,这已经是第三次遇到有小伙伴问这个问题了,特意来写一篇记录,来回答一下这个问题。聊一聊历史关于HttpContext其实我们…