AWS RDS ElasticCache 监控可观测最佳实践

在当今的电子商务时代,一个高效、稳定的电商平台对于保持竞争力至关重要。数据库作为电商平台的核心支撑,其性能直接影响到用户体验和业务流畅度。本文将深入探讨如何在电商场景下通过观测云对亚马逊云科技 RDS(MySQL) 和 ElasticCache(Redis)进行有效的性能监控和优化。

背景

电商平台通常面临着巨大的用户访问量、大规模的数据处理需求和高并发的交易操作。这些挑战要求数据库能够:

  • 快速响应用户查询,确保页面加载速度。
  • 高效处理事务,支持秒杀、抢购等高并发场景。
  • 稳定运行,保证数据的一致性和完整性。

为此,监控和优化数据库性能成为电商运营中的关键任务。观测云作为亚马逊云科技的合作伙伴,为客户快速提供构建可观测性的解决方案,协助客户优化软件代码质量,提高业务系统的稳定性和可靠性。下面介绍如何快速通过观测云构建 MySQL 和 Redis 的性能监控。

指标采集

CloudWatch 是 亚马逊云科技提供的一项监控服务。开发人员和系统管理员可通过 CloudWatch 收集、监控和分析与亚马逊云科技基础架构和应用程序相关的日志文件和指标数据。观测云通过对接 CloudWatch 获取基础数据,借助自身数据清洗打标能力和自定义数据展示能力,为开发人员和系统管理员定制自定义统一观测仪表板提供便利,使用户更灵活的构建云服务观测场景。除此之外,观测云通过 DataKit 可以直接采集数据库的性能指标,对的 CloudWatch 的监控进一步增强。

在 RDS 数据库相关服务的统一观测场景中,首先我们需要将各项云服务的数据指标集成到观测云,为后续自定义数据仪表板做好准备。采集数据的组件有两个,其一是观测云 DataKit 数据采集套件,通过用户环境内部署的 DataKit 桥接,用户可方便的将 RDS MySQL 或 Redis 的指标发送到观测云。其二是观测云 Dataflux Function 数据开发平台(简称Func),通过脚本访问 亚马逊云科技API 的方式获取云服务指标。以下将介绍如何采集 CloudWatch 指标。

通过观测云 DataKit 采集

配置方式:

  • 首先确保您已注册观测云账号,并为需要观测的云资源分配好工作空间
  • 在一台虚机上安装 DataKit
  • 进入 DataKit 安装目录下的 conf.d/db 目录,复制 mysql.conf.sample 并命名为 mysql.conf
  • 进入 DataKit 安装目录下的 conf.d/db 目录,复制 redis.conf.sample 并命名为 redis.conf
  • 配置配置文件连接参数后并重启 DataKit
  • 进入观测云查看 MySQL 、Redis 仪表板

相对于通过脚本访问亚马逊云科技 API 的方式获取云服务指标,观测云通过 DataKit 直接采集数据,可以配合标准视图显示更多指标,并且可以进一步补充,如 RDS 直接采集可以进一步获取 MySQL 慢查询日志、普通日志、运行日志等信息,在观测云 UI 上配合指标进行进一步分析;Redis 直接采集,可获取 redis_bigkey 、 redis_hotkey 等字段分析、结合采集到的 Redis 指标、慢查询日志等,帮助工程师进一步进行分析性能、定位问题。

通过观测云 DataFlux Func 采集

配置方式:

  • 首先确保您已注册观测云账号,并为需要观测的云资源分配好工作空间
  • 访问 func.guance.com,获取 DataFlux Func 环境安装命令,并完成 Func 安装
  • 登录 Func 页面,完成初始化配置后,进入官方脚本库
  • 检索安装 MySQL 对应的采集脚本:「观测云集成(RDS采集)」(ID:guance_rds)
  • 检索安装 Redis 对应的采集脚本:「观测云集成(MemoryDB采集)」(ID:guance_memorydb)
  • 点击【安装】后,为每个脚本配置亚马逊云科技访问权限参数,包括亚马逊 AK、亚马逊账户名
  • 点击【部署启动脚本】,系统会自动创建 Startup 脚本集,并自动配置相应的启动脚本,开始对指标的自动采集
  • 登录观测云平台并打开对应,进入「指标」-「指标管理」查看是否有对应监控数据
  • 查看 RDS MySQL 仪表板

日志采集

指标用于衡量当前服务关于资源状态和性能的定量数据,用于实时监控的状态判断和其他数值应用场景,例如设置基于数值判断的告警规则。而日志则提供了更详细的事件和操作记录,用于故障排除、安全审计和性能分析等目的。两者通常结合使用,以全面监控和管理云环境中的资源和应用程序。因此,我们除了采集云服务的指标数据,还需要补充日志数据的采集,来完善对云服务的观测维度。

对于数据库服务,一个典型的分析场景是性能优化和故障排除。慢查询日志可以帮助识别数据库中执行时间较长的查询语句,从而找出性能瓶颈和潜在的优化机会。用户通过分析慢查询日志,可以发现可能需要优化的索引、缓存问题、复杂查询等,以提高数据库性能,排除数据库故障。

如下图所示,观测云可以通过采集 Amazon CloudWatch Logs 的 RDS 日志,来实现存储、查询、分析以及可视化服务。

RDS 日志导出至 Amazon CloudWatch Logs 。

配置 lambda 函数,添加触发器。

观测云 Lambda 函数地址:
https://github.com/GuanceCloud/terraform-guance-forwarder/tree/main/examples/xxx

添加环境变量。

传输至datakit 机器,开通9529端口。

登录到观测云查看日志。

构建性能仪表板

完成云服务指标和日志等基础数据准备后,用户可登录观测云工作空间,通过观测云场景仪表板构建构建自定义 Dashboard ,以可视化的方式实时监控、故障诊断、性能优化、趋势分析和协作等功能,帮助用户全面了解和管理系统的运行状况。所选指标和日志的展示内容均可按照用户自身需要进行组合、过滤、筛选,充分利用观测云数据整合的灵活性构建符合用户使用习惯或使用需求的定制化仪表板。

观测云仪表板的构建,可以通过新建仪表板的方式从零开始自由绘制新的仪表板。如果希望减轻开发工作量,也可利用观测云提供的基础模板,在现有仪表板基础上进行改造。标准化模板在「场景」-「仪表板」中选择。例如我们现在需要监控 MySQL 和 Redis ,输入对应的关键字即可一键创建对应的监控仪表板。

RDS 模板

观测云提供 RDS 监控视图标准模版,包括查询响应时间、并发连接数、事务吞吐量、慢查询、缓冲池使用率等指标,如上图 RDS 采集指标所示,相对于 RDS 控制台指标可以提供更多的指标分析并可结合 RDS 日志做更进一步可视化分析。

Redis 模板

观测云提供 Redis 监控视图标准模版,包括命中率、内存使用、读写操作速率、redis_bigkey 大键、redis_hotkey 热键等指标,相对于 Elasticcache 控制台指标可以提供更多的指标分析,并可结合 Redis 日志做更进一步可视化分析。

自定义仪表板

使用观测云带来的一个关键价值点是用户可以按自身监控需求,将不同的数据集中在一个仪表板中进行关联展示,通过数据标签或时间标签,筛选同一故障时刻的指标和日志内容进行关联展示,提升问题分析的效率。为实现这个效果,需要点击进入对应的仪表板,通过添加图表的方式,在当前时序仪表中增加日志查看器。并编辑日志来源,选择对应 MySQL 的慢日志或 Redis 服务的日志,使日志和指标在同一个仪表板中展示:

这些数据可基于页面视图变量或时间标签进行联动,当用户选择指定的时间标签或视图变量时,指标和日志可随变量选择关联展示对应的数据和文本。用户基于该功能快速定位至故障时间点的相关监控信息,缩短监控数据的查找和等待时间,提升故障处理效率。

数据监控及告警

云服务各项基础监控指标和日志除了应用于实时状态观测,用户还可基于这些数据,建立自动跟踪系统状态的告警监控器,实现对故障的自动识别、告警通知等功能。配置告警监控器可通过工作空间的「监控」-「监控器」-「新建监控器」,根据指标判断的方式选择不同的监控器类型。

在监控器内部,配置需要监测的指标来源、检测条件、通知内容、通知对象后,点击保存即可使该监控器生效。后续如果被监测对象出现异常,用户可通过工作空间的「事件」菜单,查看对应告警的详情。

针对标准云服务产品,观测云也提供了预置的标准监控模板,为用户提供开箱即用的告警配置体验。

总结

通过对云服务指标和日志的收集,观测云为用户提供了统一视图、关联分析、自定义可视化图表等能力。通过将来自不同亚马逊云科技服务的指标和日志数据集中到一个统一的仪表板中,减少在不同的云服务监控控制台之间切换,提升监控效率。通过自定义仪表将不同来源的指标和日志数据进行关联展示,综合分析不同层面的指标和日志数据,发现潜在的关联性问题,加快故障诊断和问题解决的速度。通过自定义仪表板能力,用户可以根据特定的关注点和业务需求创建定制化仪表,方便不同用户使用监控数据来保障系统稳定运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python+selenium - UI自动框架之封装log类

通过自定log类,能把执行过程记录到日志,方便检查和重现问题。 log类介绍: 每次调用log函数,会根据绝对路径生成日志文件在logs目录下面(在被调用的时候日志会输出到指定的文件),日志文件的格式是年月日.lo…

vue+element的表格(el-table)排班情况表(2024-05-09)

vueelement的表格&#xff08;el-table&#xff09;排班情况&#xff0c;增删查改等简单功能 代码&#xff1a; <template><!-- 表格 --><div class"sedules"><el-header><el-date-pickerv-model"monthValue2"type"month…

postgresql中控制符带来的数据错觉

简介 在数据库字符集中&#xff0c;由于数据质量的控制不够完善&#xff0c;每一个字符集都并不是所有字符的能看见&#xff0c;有些字符的展示可能会出现乱码&#xff0c;甚至出现不同字符展示成同样效果的可能&#xff0c;给开发人员造成分析错觉。 当数据库存入了控制符&am…

【Unity Shader入门精要 第7章】基础纹理(三)

1. 渐变纹理 另外一种对于纹理的使用方式是通过渐变纹理为物体提供漫反射光照效果。 顾名思义&#xff0c;渐变纹理本身就是一张颜色渐变&#xff08;可以是连续渐变&#xff0c;也可能是突变&#xff09;的图片&#xff0c;这个渐变的过程模拟的就是光源从不同的角度照射物体…

Win11下Java环境安装指南

Windows下Java环境安装指南 前言一、安装简介JDK与JRE安装包 二、JDK安装检查操作系统类型基于Win11基于Win10 安装包准备工作 三、配置环境配置JAVA_HOME配置Path配置CLASSPATH 四、检验配置是否打开cmd命令行窗口输出java -version命令 五、注意事项 前言 在Windows系统上安…

移动机器人的机动性

移动机器人的机动性 机器人底盘运动学的活动性是表示它在环境中直接运动的能力。限制活动性的基本约束是每一轮子必须满足它的滑动约束的规则。所以,我们可从方程(3.26)正式地推导机器人的活动性。 除了瞬时的运动学运动之外,移动机器人通过操纵可操纵的轮子,能够随时操纵它的…

基于springboot实现的教师人事档案管理系统

开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09; 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&…

循环神经网络RNN的初学

1.循环神经网络的特点 x1——>y1的同时会产生a1&#xff0c;它包含了我们第一列处理信息的一些特点&#xff0c;然后这个a1就会被传送到y2上去&#xff0c;那么x2——>y2的序列中就会包含前一个的特点&#xff0c;依次类推&#xff0c;这就是我们的RNN结构**&#xff08…

八分钟“手撕”包装类与泛型

目录 一、包装类 基本数据类型和对应的包装类 装箱和拆箱 【思考题】 二、泛型 什么是泛型 引出泛型 怎么定义泛型和使用泛型 裸类型(Raw Type) 擦除机制 额外&#xff0c;注意下列代码&#xff1a; 泛型的上界 泛型的接口应用 泛型方法 一、包装类 简单来…

HNCTF_RE复现(一)

baby_python hnctf.yuanshen.life:33276 网页打不开&#xff0c;只能 nc 连接远程服务器。 运行没有回显 利用pickletools库进行反编译为字节码&#xff08;不知道为什么&#xff09; # Python 3.10.12 from pickle import loads import pickletools main b"\x80\x04ct…

windows快速计算文件的SHA256数值的步骤

在文件路径打开cmd窗口 输入命令 用Windows自带的certutil命令来计算一个文件的校验值1&#xff1a; certutil支持的算法有&#xff1a;MD2 MD4 MD5 SHA1 SHA256 SHA384 SHA512。 certutil的使用方法非常简单&#xff0c;只需要执行“certutil -hashfile 文件名 校验值类型”…

分享我经常用的一个图片下载插件,不会写爬虫代码也能随意下载图片

更多精彩内容在公众号。 ImageAssistant&#xff08;图片助手&#xff09;是一款专为Chrome浏览器设计的扩展程序&#xff0c;它具备强大的网页图片处理功能。以下是关于ImageAssistant的一些主要特点和功能&#xff1a; 批量下载图片&#xff1a;ImageAssistant的核心功能之一…

HackTheBox-Machines--Bank

文章目录 0x01 信息收集0x02 文件上传漏洞利用0x03 权限提升方法一&#xff1a;SUID提权方法二&#xff1a;配置不当提权 Bank 测试过程 0x01 信息收集 1.端口扫描 发现 ssh(22)、DNS(53)、HTTP(80) 端口 nmap -sC -sV 10.129.29.200访问 80 端口&#xff0c;页面为Apache2 U…

免费、无限量出图!字节跳动旗下这款国产AI工具,居然这么好用!(强烈推荐)

文章首发于公众号&#xff1a;X小鹿AI副业 大家好&#xff0c;我是程序员X小鹿&#xff0c;前互联网大厂程序员&#xff0c;自由职业2年&#xff0c;也一名 AIGC 爱好者&#xff0c;持续分享更多前沿的「AI 工具」和「AI副业玩法」&#xff0c;欢迎一起交流~ 之前X小鹿一直在各…

软考--试题六--抽象工厂模式(Abstract Factory)

抽象工厂模式(Abstract Factory) 意图 提供一个创建一系列相关或相互依赖对象的接口&#xff0c;而无须指定他们具体的类 结构 适用性 1、一个系统要独立于它的产品的创建、组合和表示时 2、一个系统要由多个产品系统中的一个来配置时 3、当要强调一系列相关的产品对象的设…

Python中使用C扩展详解

文章目录 1. Python/C API示例2. Cython示例3. ctypes关于C扩展的进一步讨论安全性和兼容性性能优化策略调试C扩展发布和分发C扩展 应用实例&#xff1a;加速矩阵乘法运算1. 准备C扩展代码2. 编译C扩展3. 在Python中使用C扩展 在Python中&#xff0c;使用C扩展是一种提高程序性…

Leetcode - 130双周赛

目录 一&#xff0c;3142. 判断矩阵是否满足条件 二&#xff0c;3143. 正方形中的最多点数 三&#xff0c;3144. 分割字符频率相等的最少子字符串 四&#xff0c;3145. 大数组元素的乘积 一&#xff0c;3142. 判断矩阵是否满足条件 本题题意&#xff0c;满足每一列的数全部…

【Linux系统编程】第十九弹---进程状态(下)

​​​​​​​ ✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、僵尸进程 2、孤儿进程 3、运行状态 4、阻塞状态 5、挂起状态 6、进程切换 总结 1、僵尸进程 上一弹…

网工路由基础——动态路由协议(RIP)

一、动态路由协议的分类 1.按工作区域分类&#xff1a; 动态路由协议按用途分类可以分为内部网关协议&#xff08;IGP&#xff09;和外部网关协议&#xff08;EGP&#xff09;。一个Internet网可以被分成多个域或多个自治系统&#xff0c;各自治系统通过一个核心路由器…

基于语义感知的对象草图绘制

摘要 抽象是素描的核心&#xff0c;因为线条画的简单和最小化特性。抽象涉及识别对象或场景的基本视觉属性&#xff0c;这需要语义理解和对高级概念的先验知识。因此&#xff0c;抽象表现对艺术家来说是具有挑战性的&#xff0c;对机器来说更是如此。我们提出了CLIPasso&#…