监控最佳实践--redis及业务接口

简介: 监控最佳实践--redis及业务接口

 

1. 背景

1.1 问题

2020-12-04,客户侧redis集群版监控DB0 CPU突增至100%,导致数据库无法正常服务,经排查客户侧业务上存在2M左右的大key导致DB0阻塞。并且客户侧使用的集群连接方式为默认proxy模式,如下图所示,DB0阻塞导致其他节点也无法正常服务;处理办法:客户侧配合切断大key业务的高频繁次调用,请求恢复。

图1:proxy模式

 

1.2 思考

此次问题导致客户侧课程报名入口严重受损,进而引发深度思考。在使用redis等产品方面的监控报警手段不够完善,不够仔细,并且后续再查看业务日志发现错误率已经逐渐增多,直至redis层面表现出来才get到问题所在。针对此次redis的大key问题,给客户提供了关于大key以及热点key的分析办法,并建议完善客户侧监控报警的可读性以及业务日志接口的错误告警。

2. 数据库监控分析

2.1 redis监控指标分享

redis集群版云监控指标如下表所示。

监控项

单位

MetricName

Dimensions

Statistics

平均响应时间

us

ShardingAvgRt

userId、instanceId、nodeId

Average、Maximum

连接数使用率

%

ShardingConnectionUsage

userId、instanceId、nodeId

Average、Maximum

CPU使用率

%

ShardingCpuUsage

userId、instanceId、nodeId

Average、Maximum

命中率

%

ShardingHitRate

userId、instanceId、nodeId

Average、Maximum

入方向流量

KByte/s

ShardingIntranetIn

userId、instanceId、nodeId

Average、Maximum

流入带宽使用率

%

ShardingIntranetInRatio

userId、instanceId、nodeId

Average、Maximum

出方向流量

KByte/s

ShardingIntranetOut

userId、instanceId、nodeId

Average、Maximum

流出带宽使用率

%

ShardingIntranetOutRatio

userId、instanceId、nodeId

Average、Maximum

缓存内Key数量

ShardingKeys

userId、instanceId、nodeId

Average、Maximum

最大响应时间

us

ShardingMaxRt

userId、instanceId、nodeId

Average、Maximum

内存使用率

%

ShardingMemoryUsage

userId、instanceId、nodeId

Average、Maximum

QPS使用率

%

ShardingQPSUsage

userId、instanceId、nodeId

Average、Maximum

已用连接数

ShardingUsedConnection

userId、instanceId、nodeId

Average、Maximum

内存使用量

Bytes

ShardingUsedMemory

userId、instanceId、nodeId

Average、Maximum、Sum

平均每秒访问次数

ShardingUsedQPS

userId、instanceId、nodeId

Average、Maximum

2.2 redis大key分析

1.在控制台选择对应的实例,进行大key及Hot key分析处理。

图2:实例分析

2.利用API接口进行分析大 key以及Hot key。

缓存分析与热点Key查询可参考文后资料了解详情[1]。

2.3 数据库同环比监控

创建分组报警规则目前已更新至分组界面。

2.3.1 创建应用分组

图3:创建应用分组

 

2.3.2 创建报警规则

图4:创建报警规则

 

图5:设置报警规则

 

3. 日志监控

利用sls接入客户端日志,可以通过设定规则建立仪表盘以及实现报警。此方案日志接入采取logtail方式内网传输。

3.1 安装logtail

安装logtail方法可参考文后资料[2]。

3.2 创建project和logstore

登录日志服务控制台,依次创建对应地域的project及logstore。

图6:project-logstore创建

 

3.3 数据接入向导

此次客户侧日志格式分别为json、log4j。

3.3.1 json

选择json文本日志>选择现有机器组>对应logtail配置

图7:logtail配置

 

1.设置索引

对于多重json日志,需要将字段类型更改为json。

图8:设置索引

2.查询分析

图9:查询分析

 

3.3.2 log4j

选择正则文本日志>选择现有机器组>对应logtail配置
1.正则识别首行

图10:设置自动生成

 

2.提取字段

图11: 日志提取字段

 

3.设置索引
注意:只对新写入数据生效。

图12:设置索引

 

4.查询分析

图13:查询分析

3.4 日志报警

3.4.1 仪表盘

图14:仪表盘信息展示

3.4.2 报警

在仪表右上侧导航栏中单击告警,在下拉菜单中选择创建。

图15:创建告警

 

图16:告警内容设置

作者:SRE团队技术小编-小凌

原文链接

本文为阿里云原创内容,未经允许不得转载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514122.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

汽车电气化竞争:获胜的途径

“如果您觉得一切都在掌握之中,那就是您的速度还不够快。”— Mario Andretti 多年来,汽车制造商不断面临对更大功率需求的挑战。在早期,汽车使用 6V 电池供电,直到 20 世纪 50 年代中期,汽车系统演变为 12V 电源&…

从MVC到云原生:CBU研发体系演进之路

简介: 本文对过去十年 CBU 在研发方式和技术架构上的探索做一个简要的回顾总结,以及对未来的展望。 前言 CBU作为集团内最早成立的几个BU之一,有着多年丰富的业务沉淀,而CBU的技术也伴随着业务一起不断地演进和成长着。从PC时代的…

你们关心十三香不香,我却关心背后的质检稳不稳

前些天,一年一度的科技圈春晚——苹果秋季新品发布会如约而至,iPhone13再度成为苹果产品发布会的绝对主角。 更强的CPU,更强的相机,更好的屏幕,更长的续航,更性感的配色,还有更低的价格——在全…

如何通过 Serverless 提高 Java 微服务治理效率?

简介: 在业务初期,因人手有限,想要快速开发并上线产品,很多团队使用单体的架构来开发。但是随着公司的发展,会不断往系统里面添加新的业务功能,系统越来越庞大,需求不断增加,越来越多…

每次都需要解释大量指令?使用 PolarDB-X 向量化引擎

简介: 向量化引擎为PolarDB-X的表达式计算带来了显著的性能提升。 介绍 PolarDB-X是阿里巴巴自研的云原生分布式数据库,采用了计算-存储分离的架构,其中计算节点承担着大量的表达式计算任务。这些表达式计算涉及到SQL执行的各个环节&#xff…

稳定性保障6步走:高可用系统大促作战指南!

简介: 年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”&#xff0c…

观测云品牌正式亮相,携手通信院共推国内可观测性概念与技术发展!

2021年9月17日,由中国信息通信研究院、中国通信标准化协会联合主办的“2021 OSCAR 开源产业大会”在北京中关村拉开序幕。会上正式发布了《开源治理标准与评估结果》《开源法则》等多项重要成果,而由通信院主导、驻云科技参与制定的《中国可观测性标准》…

闲鱼如何建设技术舆情治理体系 (多图多代码)

简介: 从日志、监控、性能检测几个方面建设了有日志可查、有数据可依的排查体系 现状和问题 闲鱼的舆情治理,依托阿里集团的设施建设,有以下能力: 崩溃异常、性能在线聚合查询;本地日志:TLog;在…

全球企业KVM开源贡献榜发布,腾讯云、华为、阿里巴巴等入围

9月16日晚,在全球虚拟化顶级技术峰会 KVM Forum 上,2021年度全球企业 KVM 开源贡献榜正式发布,华为、腾讯云、阿里巴巴等中国公司纷纷入围。其中,腾讯云更是连续第五年入围,成为唯一取得这一成就的中国企业。 据了解&a…

使用MQTT与函数计算做热力图的实践

简介: 在各类场景中,关于上报数据的处理无处不在,而以上提到的场景都可以通过本方案的MQTTFCAPI Gateway的方式参考优化来实现。 前言 最近几年,我们在一些商场、图书馆、机场或港口环境里,经常可以看到一些机器人在转…

Google 宣布推出隐私计算核心服务;Amazon Managed Grafana正式可用……

NEWS本周新闻回顾Google 宣布推出隐私计算核心服务今年 5 月 Google I/O 开发者大会发布 Android 12 的同时,宣布了隐私计算核心(Private Compute Core)。这是一项开源计划,提供了一个沙盒式的安全环境,将智能回复、实…

谈身份管理之基础篇 - 保障云上安全,从[规范账号使用]开始

简介: 身份和密钥的管理,是企业上云的重中之重;每年国内外都有因为身份和密钥的管理不善,或泄露,或误操作导致严重的生产事故或者数据泄露。本期小编将重点聊聊云上身份的那些值得关注的事儿。 引言 2021年初&#xf…

开课啦 dubbo-go 微服务升级实战

简介: 杭州开课啦教育科技有限公司是一家致力于为中小学生提供学习辅导的在线教育公司,目前公司后端服务基础设施主要依托于阿里云原生,其中包含计算、网络、存储以及 Kubernetes 服务。 技术选型背景 2020 年是开课啦公司发展壮大的一年&am…

gui界面设计心得体会 python_Python笔记-GUI界面设计(tkinter)

文章目录前言相关介绍一、函数方法介绍二、导入tkinter库三、窗口[1]. 创建[2]. 设置标题[3]. 设置大小[4]. 设置背景色[5]. 删除窗口四、按钮[1]. 创建[2]. 放置按钮(绝对位置)[3]. 放置按钮(相对位置)[4]. 代码五、单行文本[1]. 创建[2]. 代码前言此篇文章介绍的是有关图形用…

阿里云科技驱动“数字化转型”,助力中小企业发展“突围”

2020年至2021年的新冠疫情, 让全世界进入了困难模式,国家的经济运行不得不放缓脚步。这不仅给每个人造成了很多不便,更是给人们所依赖的企业组织,造成了巨大的影响。每一个微观个体所感受的只是自己身边肉眼可见的影响&#xff0c…

这些中秋礼盒绝了,悄悄惊艳互联网人

整理 | 王晓曼出品 | 程序人生 (ID:coder _life)来了来了它们来了,2021年腾讯、阿里、百度、字节等诸多互联网大厂带着他们的中秋礼盒来了!“八月十五月儿圆,中秋月饼香又甜”,没有月饼的中秋节…

想成为全栈工程师,要做到哪几点?

简介: 如何成为一名全栈工程师?需要具备哪些技术积累?成为全栈工程师有哪些好处?希望本文能为期望成为全栈工程师的同学提供一点帮助,和同学们一起分享交流。 作为开发者,我们不过度区分服务端 server 客户…

DDD as Code:如何用代码诠释领域驱动设计?

简介: 相较于常规的MVC架构,DDD更抽象、更难以理解,各个开发者对DDD的解释也不尽相同。那么哪种设计方式才更好?在学习时如何知道哪种DDD更正统,没有被别人带歪?本文尝试使用“DDD as Code”的概念&#xf…

谈身份管理之进阶篇 - 快速了解从管理到治理的最佳方案

简介: 云上身份安全是当今企业管理者和云上运维团队所面临的挑战之一,针对云上身份管理不全面所产生的风险究竟又哪些?又应当如何应对?本文将结合案例和最佳实践与您分享。 引言 云上身份安全是当今企业管理者和云上运维团队所面…

报名倒计时 | TeaTalk 深圳站邀您共话安全云世界

对越发复杂的网络环境,保障网络安全势不可挡,为此国家也对应颁布了系列规章政策。除相关政策外,网络安全及云安全也同时被列入国家规划重点发展方向,随着“十三五”规划逐渐落实,“十四五”规划制定实施,推…