线上问题整理

JVM 案例

案例一:服务器内存不足,影响Java应用

问题: 收到报警,某Java应用集群中一台服务器可用内存不足,超过报警阈值。

[点击并拖拽以移动]

排查过程: 首先,通过Hickwall查看该应用各项指标,发现无论是请求数量、CPU使用率、还是JMX的各项指标均未发现异常。仅系统内存占用很高,但是从JMX指标中看,Java应用的Heap MemoryGC等都是正常的,在合理大小和范围内,未发现内存泄漏等问题。故怀疑不是Java应用本身的问题,而是系统上其他组件出了问题,但是从Hickwall等工具上又看不出其他组件的信息。然后,直接ssh登录到该服务器,由于是内存问题,故直接使用简单的top命令,根据内存占用排序后发现,是logagent进程占用了接近一半的系统内存。

由于账号权限限制,无法进一步处理,诱因找到后,随即反馈给网站运营中心的同事,帮忙临时将logagent进程杀死,系统恢复正常。后续经网站运营中心同事排查,发现是logagent内部bug,导致处理格式异常的日志文件时发生内存泄漏,后续打上补丁进行修复。

在这里插入图片描述

问题原因及思考: 目前公司各项监控工具已经比较完善,开发人员应熟练掌握并了解其中各项指标的含义,能够在分析具体问题时灵活运用各个工具,快速定位解决问题。

同时本案例虽然不是业务系统的问题,但这一案例也提醒了开发人员:线上实际问题可能是各方各面的,除了具备Java技术栈的相关的排障技能外,同时也要有基本的Linux操作能力,在已有工具无法帮助解决问题时,多一种途径快速定位问题,毕竟运营中心的同事人力有限,可能无法及时提供支持。

扩展

Java Full GC频繁: 可通过Hickwall中的JMX Full gc time/count指标观察Full GC情况,正常情况下不应有Full GC出现,Full GC意味着 STWJVM会阻塞其他所有线程来进行垃圾回收,频繁的Full GC会严重影响应用的性能。如果出现Full GC通常意味着Java堆内存大小无法满足需求,如果不是代码缺陷导致(可通过以上OOMJVM Sampler工具相关方法排查)则需要增加堆内存大小。

大数据量处理

案例一:大循环引起的 cpu 负载过高的问题

问题: x应用在一次发布时,cpu出现负载过高,其负载率突破200%,并且响应时间也大幅度超时。

在这里插入图片描述在这里插入图片描述

代码:

List<CityDataModel> cities = cityDomainService.allCities();
for (CityDataModel city : cities) {if (city.getCityCode().equalsIgnoreCase(flight.getDepartCity())) {dCountry = city.getCountryCode();}if (city.getCityCode().equalsIgnoreCase(flight.getArriveCity())) {aCountry = city.getCountryCode();}
}

通过在测试环境尝试调用一次服务请求,发现其循环的数据是城市列表。该列表的长度达到12000,而且发现该循环本身被执行了11次,String::equalsIgnoreCase方法执行了18万次,也就是说这是一个典型的大循环的代码。 并且通过记录日志发现,在生产中该块代码平均每次请求都会调用24万次左右,这导致很多cpu资源都集中在该方法上,使得cpu load大幅度提高。

问题解决: 由于代码中的大循环非常耗费cpu资源,通过分析,这里的Strings::equalsIgnoreCase方法的主要作用在于遍历判断取数据。 根据这种查找数据的情况,优先选择使用HashMap替代,用空间换时间,经过修改后重新发布,其cpu利用率明显下降,恢复正常。

思考总结:
【1】使用循环时需要特别注意大循环,优先使用O(1)HashMap,大循环对于cpu性能的压榨在这个问题上表现地淋漓尽致。
【2】镜像机器由于是使用生产流量转发访问,所以镜像发布高度贴近实际生产发布。在每次发布前,先使用镜像机器预发布,可以尽可能地将潜在的问题暴露出来。另外性能实验室中提供了cpu热点、内存分配热点和锁竞争热点的Flamegraph,在预发布中遇到问题时也可以更加直观地帮忙解决问题,并且不会对实际生产机器造成影响。
【3】此次发布前,虽然在测试环境进行了压测,但是并没有复现出该问题,分析原因,其与特定的压测的请求相关。由于在压测时使用的请求没有经过某些代码分支,使得循环的次数相比较少,故而在测试环境压测时没有暴露该问题。
【4】以上总结,除了代码层面的使用注意外,可以进行测试环境多种请求压力测试,以及生产镜像机器预发布等手段,来检测和杜绝这种潜在的问题发生。

案例二:多层嵌套 map

问题: 某日某查询服务器开始不断拉出集群,造成线上订单下跌。

在这里插入图片描述

遇到问题需咨询解决。。。

缓存

案例一:篡改缓存

问题: 查询接口下发错误数据故障

故障描述: 包含故障开始时间,发现时间,控制措施,故障排除细节

TimeEvent
15:00接到产品邮件告知下单调用查询接口的结果与前端的数据不一致,要求紧急对问题进行排查。
15:05开始对问题进行排查,同时了解问题大概影响范围。
16:00定位到是因为代码bug导致的接口在下发时,输出的结果不正确。3月1日接口由.net切换到了java版查询接口。
16:20开始着手对bug进行修复,并进行紧急发布。
16:20与产品沟通影响范围以及问题订单的处理办法。
16:30确定影响的单量:10万
16:50着手准备修复问题订单SQL
18:00完成紧急修复的上线

故障分析:
【1】为什么接口会下发错误?
.Net接口转Java过程中引发的代码bug,修改了本地缓存对象。

【2】为什么这个错误在代码review中没有被发现?
代码review不充分。虽然接口的逻辑并不复杂,但是代码量较多(40个文件,2000 additions and 1000 deletions),在review过程中遗漏了该错误。

【3】为什么在测试过程中没有发现该bug?
测试不充分,同时这个bug的触发存在一定概率性,当多个订单引用同一个基础服务对象时,在对礼盒进行遍历计算时,最后一个订单的计算结果会覆盖前面所有引用了该基础服务对象的订单。如果测试时选择的订单没有触发该·bug·,·.Net·和·Java·版本的对比结果是一致的。

【4】为什么影响的单量达·10W·以上规模?
bug212日发布直到33日才发现,持续了22天。

【5】为什么从212日起该问题直到33日才发现?
目前对于这类问题缺乏有效的检测机制,只能被动的等待客户投诉发生后才会反馈到开发团队。

分析总结:
【1】通过以上故障示例,我们可以发现缓存被修改带来的影响通常具有以下特性:
■ 不容易发现,因为数据可能只在特定条件下被修改。
■ 影响面非常广,因为数据本身是被频繁使用才会被加入缓存。
■ 不确定性,因为数据被修改具有“随机性”,该特性导致影响范围难以确定,数据也难以清洗。
【2】缓存篡改通常如何发生:
■ 从缓冲获取一个对象(引用),后续过程中修改了该对象的内部成员。

public class CityCache {private static final CityCache INSTANCE = new CityCache();private final Map<String, City> cityMap = new HashMap<>();public static CityCache getInstance() {return INSTANCE;}private CityCache() {// 此处为了简便,没有写定时刷新loadDataFromDB();}public City getCityByCode(String cityCode) {return cityMap.get(cityCode);}private void loadDataFromDB() {// load cities from database and put them into cityMap}
}@Data
public class City {public City() {}public City(String code, int id) {this.code = code;this.id = id;}private String code;private int id;
}@Test
public void errorTest() {// 通过SHA获取到缓存实体,该实体的三字码与SHA相同City city1 = CityCache.getInstance().getCityByCode("SHA");assertTrue("SHA".equals(city1.getCode()));// 业务代码直接修改了city1的三字码(CityCache中的实体被修改)city1.setCode("BJS");// ...// 再次通过SHA获取到缓存实体,该实体的三字码与SHA不相同了(非期望值)City city2 = CityCache.getInstance().getCityByCode("SHA");assertFalse("SHA".equals(city2.getCode()));
}@Test
public void correctTest() {// 通过SHA获取到缓存实体,该实体的三字码与SHA相同City city1 = CityCache.getInstance().getCityByCode("SHA");assertTrue("SHA".equals(city1.getCode()));// 业务代码不能直接修改缓存实体,正确做法是先Copy一个对象,修改Copy对象的属性,后续业务使用该Copy对象City cityCopy = new City(city1.getCode(), city1.getId());cityCopy.setCode("BJS");// ...// 通过SHA获取到缓存实体,该实体的三字码与SHA相同City city2 = CityCache.getInstance().getCityByCode("SHA");assertTrue("SHA".equals(city2.getCode()));
}
■  从缓冲获取一个集合(引用),后续过程中往该集合中添加/删除了元素。
public class CityCache {private static final CityCache INSTANCE = new CityCache();@Getterprivate final Map<String, City> cityMap = new HashMap<>();public static CityCache getInstance() {return INSTANCE;}private CityCache() {// // 此处为了简便,没有写定时刷新loadDataFromDB();}private void loadDataFromDB() {// load cities from database and put them into cityMap}
}@Data
public class City {public City() {}public City(String code, int id) {this.code = code;this.id = id;}private String code;private int id;
}@Test
public void errorTest() {Map<String, City> cityMap = CityCache.getInstance().getCityMap();// 通过SHA获取到缓存实体,该实体的三字码与SHA相同City city1 = cityMap.get("SHA");assertTrue("SHA".equals(city1.getCode()));// 业务代码直接修改缓存集合cityMap.put("SHA", new City("BJS", 2));// cityMap.remove("SHA");// 再次通过SHA获取到缓存实体,该实体的三字码与SHA不相同了(非期望值)City city2 = CityCache.getInstance().getCityMap().get("SHA");assertFalse("SHA".equals(city2.getCode()));
}
■  缓存实体被修改
public class CityCache {private static final CityCache INSTANCE = new CityCache();@Getterprivate final Map<String, City> cityMap = new HashMap<>();public static CityCache getInstance() {return INSTANCE;}private CityCache() {// // 此处为了简便,没有写定时刷新loadDataFromDB();}private void loadDataFromDB() {// load cities from database and put them into cityMap}
}@Data
public class City {public City() {}public City(String code, int id) {this.code = code;this.id = id;}private String code;private int id;
}@Test
public void errorTest() {Map<String, City> cityMap = CityCache.getInstance().getCityMap();// 通过SHA获取到缓存实体,该实体的三字码与SHA相同City city1 = cityMap.get("SHA");assertTrue("SHA".equals(city1.getCode()));// 运行期间非预期的修改了缓存集合中的对象cityMap.forEach((k, v) -> {if (!"SHA".equals(k)) {return;}// ...v.setCode("BJS");});// 再次通过SHA获取到缓存实体,该实体的三字码与SHA不相同了(非期望值)City city2 = CityCache.getInstance().getCityMap().get("SHA");assertFalse("SHA".equals(city2.getCode()));
}

【3】如何避免缓存篡改:
■ 在可能需要修改数据的场景,从缓存获取一个深拷贝对象/集合。
■ 将缓存对象设计为只读状态,确保一旦构建就不可再修改其内部数据。

多线程

"多线程"这个话题想必开发人员或多或少都会接触到。 使用多线程最主要的原因是提高系统的资源利用率。 但在使用的过程中可能会遇到各种各样的问题,"死循环"便是其中比较棘手的一类。 下文分析了多线程环境下的死循环场景,希望对大家有所帮助。

死循环危害

在这里插入图片描述

程序进入假死状态: 当某个请求导致死循环,该请求会在很大一段时间内,都无法获取接口的返回。

CPU 使用率飙升: 代码出现死循环后,由于没有休眠,一直不断抢占cpu资源,导致cpu长时间处于繁忙状态,必定会使cpu使用率飙升。

内存使用率飙升: 代码出现死循环时,循环体内有大量创建对象的逻辑,垃圾回收器无法及时回收,会导致内存使用率飙升。同时,如果垃圾回收器频繁回收对象,也会造成cpu使用率飙升。

StackOverflowError栈溢出: 在一些递归调用的场景,如果出现死循环,多次循环后,最终会报 StackOverflowError 栈溢出,程序直接挂掉。

案例一:多线程环境下的死循环案例

问题: 循环条件不正确
案例: 这里以二分查找为例

int search(List<Integer> nums, int target) {int l = 0, r = nums.size() - 1;while (l < r) {int mid = (l + r) / 2;if (nums.get(mid) > target)r = mid - 1;else// 可能出问题位置l = mid;}if (nums.get(l) == target)return l;elsereturn -1;
}

首先,会不会产生死循环的关键是lr是否在每次循环后至少有一个的值发生了改变, 而while循环体中,若走入了else语句,l的值有可能不发生变化,就会导致死循环的产生。 可以对循环体做以下调整:

while (l < r) {int mid = (l + r) / 2;if (nums.get(mid) >= target)r = mid;elsel = mid + 1;
}

案例二:flag 线程间不可见

有时候我们的代码需要一直做某件事情,直到某个条件达到,有个状态告诉它,要终止任务了,它就会自动退出。 这时候,很多人都会想到用while(flag)实现这个功能:

public class FlagTest {private boolean flag = true;public void setFlag(boolean flag) {this.flag = flag;}public void fun() {while (flag) {}System.out.println("done");}public static void main(String[] args) throws InterruptedException {final FlagTest flagTest = new FlagTest();new Thread(() -> flagTest.fun()).start();Thread.sleep(200);flagTest.setFlag(false);}
}

这段代码在子线程中执行无限循环,当主线程休眠200毫秒后,将flag变成false,这时子线程就会自动退出了。想法是好的,但是实际上这段代码进入了死循环,不会因为flag变成false而自动退出。 为什么会这样? 线程间flag是不可见的,这时如果flag加上了volatile关键字,变成:

private volatile boolean flag = true;
会强制把共享内存中的值刷新到主内存中,让多个线程间可见,程序可以正常退出。

案例三:HashMap JDK7/8 死循环

问题: JDK7 rehash(扩容)时和JDK8链表更改为红黑树时。链接

案例四:自己手动写死循环

定时任务比如有个需求要求每隔5分钟,从远程拉取数据,覆盖本地数据。 这时候,如果你不想用其他的定时任务框架,可以实现一个简单的定时任务,具体代码如下:

public static void sync() {new Thread(() -> {while (true) {try {System.out.println("sync data");Thread.sleep(1000 * 60 * 5);} catch (Exception e) {log.error(e);}}}).start();
}

其实很多JDK中的定时任务,比如:Timer类的底层,也是用了while(true)的无限循环(也就是死循环)来实现的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/621133.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux第22步_安装CH340驱动和串口终端软件MobaXterm

开发板输出信息通常是采用串口&#xff0c;而计算机通常是USB接口&#xff0c;为了让他们之间能够交换数据&#xff0c;我们通常采用USB转串口的转换器来实现。目前市场上的串口转换器大多是采用CH340芯片来实现的&#xff0c;因此我们需要在计算中安装一个CH340驱动程序&#…

[代码复现]BrainGNN: Interpretable Brain Graph Neural Network for fMRI Analysis

目录 1. 论文资料 2. 代码复现步骤及可能存在的问题 2.1. 环境配置 2.2. 代码运行 3. 为啥跑这个代码 1. 论文资料 &#xff08;1&#xff09;论文原文&#xff1a;BrainGNN&#xff1a;用于fMRI分析的可解释脑图神经网络 - ScienceDirect &#xff08;2&#xff09;论文…

Android 拍照以及相册中选择(适配高版本)————上传头像并裁剪(一)

前言 在项目研发中&#xff0c;相信大家都遇到过给用户增加头像照片的需求。 随着手机版本的不断更新&#xff0c;android 8、android 9、android 10、android 12、android 13、鸿蒙系统等等&#xff1b;遇到这个功能需求&#xff0c;大家肯定会想&#xff0c;“这还不好写&…

【Python学习】Python学习17- File(文件) 方法

目录 [TOC](【Python学习】Python学习17- File(文件) 方法) 文章所属专区 Python学习 前言 本章节主要说明Python文件操作的具体说明 open()方法 Python open() 方法用于打开一个文件&#xff0c;并返回文件对象&#xff0c;在对文件进行处理过程都需要使用到这个函数&#…

信息系统中的需求分析

软件需求是指用户对新系统在功能、行为、性能、设计约束等方面的期望。根据IEEE的软件工程标准词汇表&#xff0c;软件需求是指用户解决问题或达到目标所需的条件或能力&#xff0c;是系统或系统部件要满足合同、标准、规范或其他正式规定文档所需具有的条件或能力&#xff0c;…

Azure Machine Learning - 视频AI技术

Azure AI 视频索引器是构建在 Azure 媒体服务和 Azure AI 服务&#xff08;如人脸检测、翻译器、Azure AI 视觉和语音&#xff09;基础之上的一个云应用程序&#xff0c;是 Azure AI 服务的一部分。 有了 Azure 视频索引器&#xff0c;就可以使用 Azure AI 视频索引器视频和音频…

蓝桥杯练习题(八)

&#x1f4d1;前言 本文主要是【算法】——蓝桥杯练习题&#xff08;八&#xff09;的文章&#xff0c;如果有什么需要改进的地方还请大佬指出⛺️ &#x1f3ac;作者简介&#xff1a;大家好&#xff0c;我是听风与他&#x1f947; ☁️博客首页&#xff1a;CSDN主页听风与他 …

Java重修第五天—面向对象3

通过学习本篇文章可以掌握如下知识 1、多态&#xff1b; 2、抽象类&#xff1b; 3、接口。 之前已经学过了继承&#xff0c;static等基础知识&#xff0c;这篇文章我们就开始深入了解面向对象多态、抽象类和接口的学习。 多态 多态是在继承/实现情况下的一种现象&#xf…

【汇编要笑着学】汇编模块化编程 | call和ret调用指令 | jmp跳转指令 | inc自加指令

Ⅰ.汇编模块化编程 0x00 一个简单的例子 我们了解模块化编程前先给出一个例子&#xff0c;方便大家快速了解。 SECTION MBR vstart0x7c00 ; 起始地址编译在0x7c00mov ax,cs mov ds,ax mov es,axmov ss,axmov fs,axmov sp,0x7c00 ; 上面这些都没什…

camtasia studio2024免费版如何下载?怎么录屏?

camtasia studio怎么录屏&#xff1f;Camtasia Studio是一款专门录制屏幕动作的工具&#xff0c;它能在任何颜色模式下轻松地记录屏幕动作&#xff0c;包括影像、音效、鼠标移动轨迹、解说声音等等。一般情况下&#xff0c;用户使用camtasia studio进行录屏时&#xff0c;需要注…

【进程调度】基于优先级的轮转调度C++实现算法

一、简介 1.1 背景 在计算机科学领域&#xff0c;进程调度是操作系统中一个关键的组成部分&#xff0c;它负责协调系统中各个进程的执行顺序&#xff0c;以最大程度地提高系统资源利用率。在这篇博客中&#xff0c;将深入探讨基于优先级的轮转调度算法&#xff0c;该算法结合…

Vue3-customRef的使用

读取数据前&#xff0c;需要先track&#xff08;&#xff09; 告诉Vue数据msg很重要&#xff0c;你要对msg进行持续关注&#xff0c;一旦msg变化就去更新 修改数据后&#xff0c;需要trigger&#xff08;&#xff09;收尾 通知Vue一下数据msg变化了 自定义ref如何防抖 hooks中…

UniApp调试支付宝沙箱(安卓)

先看下这里完整的交互的图&#xff1a;小程序文档 - 支付宝文档中心 一、打包 不管怎样&#xff0c;先打个包先。可以直接使用云端证书、云端打包&#xff0c;只需要指定包名即可。 二、在支付宝开放平台创建应用 这个参考官方的过程就可以了&#xff0c;只要有刚才打的包&…

Fastadmin上传图片服务端压缩图片,实测13.45M压缩为29.91K

先前条件&#xff1a;第一步安装compose&#xff0c;已安装忽略。 先上截图看效果 一、在fastadmin的根目录里面输入命令安装think-image composer require topthink/think-image二、找到公共上传类&#xff0c;application/common/library/Upload.php&#xff0c;在最下面…

TensorRT(C++)基础代码解析

TensorRT(C)基础代码解析 文章目录 TensorRT(C)基础代码解析前言一、TensorRT工作流程二、C API2.1 构建阶段2.1.1 创建builder2.1.2 创建网络定义2.1.3 定义网络结构2.1.4 定义网络输入输出2.1.5 配置参数2.1.6 生成Engine2.1.7 保存为模型文件2.1.8 释放资源 2.2 运行期2.2.1…

【elastic search】详解elastic search集群

目录 1.与集群有关的一些概念 2.集群搭建 3.集群搭建 4.kibana链接集群 5.选举流程 6.请求流程 7.master的作用 1.与集群有关的一些概念 数据分片&#xff1a; 数据分片&#xff08;shard&#xff09;&#xff0c;单台服务器的存储容量是有限的&#xff0c;把一份数据…

git提交记录全部删除

目录 问题描述 解决方案 结果 问题描述 新复制的项目具有特比多的提交记录我想给他清除&#xff0c;因为不清楚过多历史也就导致包特别大下载和提交等方面都不是很快 解决方案 查看代码clone网址&#xff1b; 打开远程仓库&#xff0c;选择要去除历史记代码分支&#xff08…

低代码助力制造业数智转型,激发创新力迎接工业 4.0

随着科技的不断进步&#xff0c;我们迈入了一个崭新的工业时代——工业4.0。这场工业革命不仅颠覆了制造业的传统形象&#xff0c;还为全球生产方式带来了前所未有的变革。 在这一过程中&#xff0c;制造业数字化转型逐渐成为主旋律&#xff0c;而低代码技术在这其中发挥着重要…

近红外光谱分析技术与基于深度学习的化学计量学方法

郁磊【副教授】&#xff1a;主要从事AI人工智能与大数据分析等相关研究&#xff0c;长期致力于人工智能与近红外生物医学工程等领域融合&#xff0c;主持并完成多项科研课题。著有《神经网络43个案例分析》等书籍。 // 讲座内容 1、近红外光谱基本理论、近红外光谱仪基本原理…

python爬虫-代理ip理解

目录 1、为什么使用代理IP 2、代理IP 3、IP池 4、代理分类&#xff1a; 5、python中使用代理IP 6、如何找可以使用的代理IP 7、拿到IP后&#xff0c;测试IP的有效性 8、扩展理解正向代理和反向代理 1、为什么使用代理IP 就是为了防止ip被封禁&#xff0c;提高爬虫的效…