100ms的SQL把服务器搞崩溃了

前言

一个项目上线了两个月,除了一些反馈的优化和小Bug之外,项目一切顺利;前期是属于推广阶段,可能使用人员没那么多,当然对于项目部署肯定提前想到并发量了,所以早就把集群安排上,而且还在测试环境搞了一下压测,绝对是没得问题的;但是,就在两个月后的一天,系统突然跑的比乌龟还慢,投诉开始就陆续反馈过来了。

经过排查,原来是频繁执行一条耗时100ms的SQL导致,100ms感觉不长,但就是把系统搞崩了,具体细节如下。

正文

1. 项目概况

项目采用ABP进行开发,集成统一的认证中心(IDS4),部分数据对接第三方系统,拆分后的这个项目架构相对简单。

考虑并发量不高,就算是高峰期也不会超过1000,于是就搞了个单台的数据库服务器(MySQL),测试环境中经过压测,完全能抗住。

上线时,由于线上资源的关系,DB服务器的配置没有按测试环境的标准来分配,相关人员想着后续看情况进行补配。上线推的比较紧,简单评估了配置风险,初步判断没啥大问题,于是就推上线了。

相关技术栈:ABP、IdentityServer4、Autofac、AutoMapper、Quartz.NET、EF Core、Redis、MySQL等,这都不重要,重要的是100ms的SQL把系统搞崩了。

由于系统相对不大,并没有把分布式日志、调度监控,性能监控集成上去。

2. 问题排查

上线期间,前期处于使用推广阶段,一切正常。两个月后的一天,系统处于使用高峰时段,突然陆续收到反馈:系统有点卡!!!于是赶紧进行排查。

由于系统已经是集群部署的,慢这个问题首先怀疑是数据库服务器,于是让DBA的同事排查了一下,没有锁,只是有大量事务等待提交(waiting for handler commit),通过如下命令可查的:

# 查看正在执行的脚本select *  from information_schema.PROCESSLIST t where t.COMMAND != 'Sleep'  order by time desc;

看到结果都是插入审计日志记录导致,一看日志记录频率,差不多一秒500条记录。DBA同事说可能是记录插入频繁导致,此时CPU已经爆到100%了,为了快速解决问题,于是就赶紧关掉了一些不必要的日志记录。

这么一改,稍微降了一点,没有事务提交的记录,系统勉强可以撑着用,但是CPU还是在85%~97%波动;

看到这种情况,当然还是不放心,继续排查。中间有对服务器的配置产生过怀疑,但非常肯定的是这不是主要原因,于是和DBA的同事继续排查。

系统虽然可以正常使用,但时不时的也看看监控屏,CPU一直处于高水位状态,还是有点慌的,因为一有问题,信息和电话都要爆。

突然DBA同事发现有一个单表查询的SQL执行比较频繁,于是单独拿出来试了一下,查询时间150ms左右,这个表的数据量不大,8万左右,但没有加任何索引,因为想着数据量不大,查询时长还可接受,所以当时就没有加相关索引。

定位到这条SQL后,想到的第一步就是增加索引,在测试环境上试了一把,执行效率直接飞速提高到1ms;效果如下:

142c4c32e913d4686b6af962bc7e12c9.png

所以和DBA同事达成一致意见,在生成环境上增加复合索引(创建索引一定要注意字段顺序),在中午时候,系统使用频率不太高,于是就在生成上快速加了索引,我去,CPU一下降到了20%以内,意不意外;就算在使用高峰期,也没超过20%,通过zabbix工具监控看到CPU的效果:

259c877aff392984c01fce4fed1a4d5e.png

问题算是解决了,总算松了一口气。

这里有个问题:CPU都爆了为什么没有报警提醒,这块DBA同事正在排查相关配置。这里发现CPU爆了,还是无意的远程到服务器,发现很卡,一看CPU才知道爆了。

系统虽小,问题不大,但其实暴露的问题还是挺多。

总结

这次线上小事故暂时分享到这,因为项目不大,所以没有做那么多监控,但以下建议,小伙伴可以参考一下:

  • 频繁执行的SQL语句,一定要保证其执行效率,不要小看ms级的优化,如果并发量上来也会是灾难;

  • 对应服务器要做好监控,指定预警范围提醒,避免打个措手不及

  • 尽量避免频繁的自动刷新;引入实时通信的方式,会减少不必要的访问压力。

  • 关于系统频繁记录的审计日志,尽量不要和业务数据库存放在一起;大量的日志频繁操作数据库是很占用IO的。

  • 对于拆分的项目,再加上集群部署,分布式日志管理必须安排上,不然分析日志排查问题是个费时费脑的事

关注“Code综艺圈”,和我一起学习吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剑指offer之分行从上到下之字行打印二叉树

1 问题 分行从上到下之字行打印二叉树 比如二叉树 23 5 1 4 2 3 3 2 1 5 1 4 2 3 分行从上到下之字行打印二叉树结果如下 2 5 3 1 4 2 3 3 2 4 1 5 1 …

python中sendkeys.sendkeys_python的webbrowser模块和SendKeys模块

今天工作的时候突然遇到个问题,就尝试着按照领导所说要天马行空的想东西,于是那点scrapy的代码逐渐忘了的差不多了,想到用迅雷去下载一些东西,迅雷不知道怎么回事,但知道一点,他监控计算机浏览器&#xff0…

linux dns 动态更新时间,CentOS 7实现DNS+DHCP动态更新详解

然后再安装bind-chroot 执行/usr/libexec/setup-named-chroot.sh /var/named/chroot on 停用named,。昨天运维帮组织线下的沙龙,照着做又遇到各种问题,相信就能搞定了,最后不不知道到底什么原理实现的,man 5 dhcpd.con…

数组方法

json数据格式 <!DOCTYPE HTML><html><head><meta http-equiv"Content-Type" content"text/html; charsetutf-8"><title>无标题文档</title> <script>var json { name : leo, age : 32 };// alert( json.name )…

需求分析工程师岗位的职责描述(合集)

需求分析工程师岗位的职责描述1 职责&#xff1a; 1&#xff0c;负责需求调研&#xff0c;对需求进行分析&#xff0c;编写解决方案、需求规格说明书等 2&#xff0c;根据需求制作原型&#xff0c;并负责原型展示以及客户沟通等工作 3&#xff0c;负责向技术团队精确地传达业务…

基于.NET的系统开发需要注意的问题总结

从2009年进入大学校园以来,笔者渐渐对程序设计产生了浓厚的兴趣,对程序人生产生了深度的思考。记得刚开始学的第一门计算机语言就是风靡一时的Visual Basic,时至今日,时间已过了六年有余,已初步掌握了VB,C,C++,C#,Python,T-SQL等多种语言。回头想想,一路走来,真的很…

nginx 下配置使用Thinkphp5解决跨目录活动并且设置网站根目录

由于TP5框架的一些特性规则&#xff0c;在nginx下导致跨目录的一些访问不能执行 最开始我尝试配置文件夹目录&#xff0c;导致出现各种奇葩错误&#xff0c;然后搜了以下资料发现原来只要简单的修改几个配置文件即可。 声明系统环境&#xff1a; **系统&#xff1a;Centos6.版本…

剑指offer之先序非递归打印二叉树

1 问题 先序非递归打印二叉树 比如二叉树如下 * 2* 3 5 * 1 4 2 3 * 3 2 1 5 1 4 2 3 先序原则&#xff1a;中左右打印节点&#xff0c;如果左边有节点继续要打做节点&…

如何使用CPU来加速你的Linux命令

我们都知道 grep, bzip2, wc, awk, sed等等&#xff0c;都是单线程的&#xff0c;只能使用一个CPU内核。那么如何才能使用这些内核? 要想让Linux命令使用所有的CPU内核&#xff0c;我们需要用到GNU Parallel命令&#xff0c;它让我们所有的CPU内核在单机内做神奇的map-reduce操…

linux命令行设置编码,编码样式-Linux命令行开关和参数是否有标准?

-一种全部(不带参数)。 如果有GNU风格的--all选项&#xff0c;那么-a只能是同义词&#xff0c;这将是非常令人惊讶的。 示例&#xff1a;fuser(1)&#xff0c;fetchmail(1)。如tar(1)中所示追加。 通常将它与-d配对以进行删除。-b缓冲区或块大小(带参数)。 设置临界缓冲区大小&…

关于nginx为站点绑定域名以及绑定多个域名

环境&#xff1a; 系统&#xff1a;Centos6.版本 使用lnmp一键安装包安装环境&#xff08;配置文件地址在其官网有写&#xff09; 找到nginx的conf文件&#xff0c;我的目录为&#xff1a; /usr/local/nginx/conf 随后找到&#xff1a;server_name _; 如果没有配置就是…

【6】JAVA---地址App小软件(QueryPanel.class)(表现层)

查找模块&#xff1a; 年龄可进行段查找。 其他的都是模糊匹配。 空格为无用字符&#xff0c;会屏蔽的&#xff08;除年龄&#xff09;。 &#xff08;如果在年龄中输入空格&#xff0c;会出现异常&#xff0c;当时没想到这点&#xff0c;要防护这点很容易的&#xff0c;但…

Edge 超越 Safari 成为全球第二大桌面端浏览器!Firefox 爆降致 Chrome 份额再创新高!...

桌面端StatCounter 近日发布全球桌面端浏览器 2022 年 3 月统计报告&#xff1a;微软 Microsoft Edge 浏览器桌面端市场份额从 9.61% 上升至 9.65%&#xff0c; 苹果 Safari 浏览器桌面端市场份额从 9.77% 下降至 9.56%。 这也意味着微软 Microsoft Edge 浏览器正式超越苹果 Sa…

ArcGIS Engine 10.2开发环境搭建

1、安装LicenseManager 2、安装Desktop 3、安装VS2012 4、安装Engine 5、安装ArcObject SDK for .NET

hackgame汇总

2019独角兽企业重金招聘Python工程师标准>>> http://www.hackerforever.com/survius.php http://www.funnygames.co.nz/play/hacker http://www.hackerskills.com/ http://www.mod-x.co.uk/whatisit.php http://www.hackerevolution.org/page_hackerevolution.h…

python subprocess popen 无法打开_使用subprocess.Popen()在python脚本中设置PYTHONPATH失败...

本问题已经有最佳答案&#xff0c;请猛点这里访问。如果自定义模块不在sys.path变量的任何目录中&#xff0c;下面的代码允许我动态地标识和加载该模块。import syssys.path.append("/lib")但是&#xff0c;这给了我一个错误import subprocessx subprocess.Popen([&…

剑指offer之中序打印二叉树(非递归实现)

1 问题 中序打印二叉树&#xff08;非递归实现&#xff09;&#xff0c;比如二叉树如下 /* 2* 3 5 * 1 4 2 3 * 3 2 1 5 1 4 2 3 中序&#xff1a;按左中右来打印二叉树&am…

linux怎样测试tty,linux – 提示自定义:如何检测何时没有tty

我有一个带颜色的自定义提示符(使用tput),每次我在服务器中启动非交互式会话时,都会出现一堆错误.例如,如果我开始这样的非交互式会话&#xff1a;ssh roothostname6 "echo hello ; echo $TERM"我得到的输出是&#xff1a;helloxtermtput: No value for $TERM and no…

什么是物理路径,相对路径,绝对路径以及根目录

目 录 一、物理路径 二、相对路径 三、绝对路径 四、根目录 本文中,我们将为您讲述什么是物理路径,什么是相对路径,什么是绝对路径,什么是根目录,以及他们的使用方法。一般来说表示文件在电脑中位置的方式就有以上四种,在网页设计中通过以上几种路径可以表示链接,插…

关于thinkphp5的报错 mkdir() Permission denied的解决

声明环境: 系统&#xff1a; Centos 6.8 64x nginx 使用lnmp一键安装包安装 已解决tp5跨目录活动问题 mkdir() 的作用是函数创建目录&#xff0c;即读写相关&#xff0c;那么即报错“permission denied” 则我们可以改变目录权限。 环境为nginx&#xff0c;nginx有设置的访问用…