使用 Feature Flags 与可观测工具实现数据库灰度迁移

场景描述

很多企业会遇到数据库升级、或数据库迁移的情况,尤其是在自建数据库服务向云数据库服务、自建机房向云机房、旧数据库向新数据库迁移等场景。
然而,我们需要在整个移植过程中保证其稳定性、避免数据遗失、服务宕机等情况,最常见的移植方法之一就是数据库双写移植操作

解决方案

如下图所示,这个双写移植的过程为:

  1. 原始阶段,程序只对一个旧数据库进行读写。
  2. 在现有的读写旧数据库的代码程序基础上,需要添加读写新数据库的代码。例如,在某个表中插入一条数据时,我们需要把这条数据同时插入到新旧两个数据库中。通常情况下,我们会并行执行这两个插入操作,以尽可能保持服务的原有调用处理时间。
  3. 当一个写数据库请求进来,我们将其写入旧数据库的同时,将一个很少的百分比流量写入新的数据库。
  4. 将写入新数据库的流量比缓慢提高,直到 100% 为止。在这个过程中如果出现问题,可以及时回滚,并在不影响生产环境服务的情况下进行修复。
  5. 写移植完成后,开始逐步放量从新的数据库中读取数据返回给服务,如先允许 10% 的流量在新数据库做读操作。在这个过程中测量性能的同时对比结果,如果在读操作中遇到问题,可以马上回滚新数据库的读流量,并在不影响生产环境服务的情况下进行修复。
  6. 直到在新数据库实现 100% 的读写操作一段时间没有问题后,就可以停止与旧数据库相关的代码服务了。

在实际操作过程中,不止新旧数据库的操作流量要逐渐开放,实际上新的数据库的读写代码也需要逐步的更新到生产环境服务中,以确保可迭代的稳定平滑移植。

实践方法与工具

整个过程中,除了自身系统架构的设计外,有两个特别的工具在其中起到重要环节:

  1. 负责可灵活、实时、稳定放量、回滚的 Feature Flags 服务 (FeatBit)。
  2. 在整个过程中全方位(支持无侵入和针对性埋点模式)的监测服务异常与及时报警的可观测服务 (观测云)。

使用 FeatBit 实现实时的数据库移植请求流量控制

如下代码所示,为某一个服务的数据库读取操作分流的示例伪代码:

  • 第 6 行代码,调用 _fbService.BoolVariation("read-sport-olddb") 方法获得流量控制返回值,如果为 true,则将读取旧数据库的 Query 函数添加到并行任务执行队列中。
  • 第 9 行代码,调用 _fbService.BoolVariation("read-sport-newdb")方法获得流量控制返回值,如果为 true,则将读取新数据库的 Query 函数添加到并行任务执行队列中。
  • 第 19 行代码,为使用 FeatBit Feature Flags SDK 同时运行两个数据库读取操作,并将结果进行对比验证,根据执行情况返回正确值,并向观测云发送相关异常数据。
public async Task<List<Sport>> GetSportsByCityAsync(int cityId, int pageIndex, int pageSize)
{var tasks = new List<Task<List<Sport>>>();// 当读取 Sport 相关业务的旧数据库开关返回 true 时,则添加读取任务到执行任务队列if (_fbService.BoolVariation("read-sport-olddb")){tasks.Add(GetSportsByCityQueryAsync(_oldDbContext, cityId, pageIndex, pageSize));}// 当读取 Sport 相关业务的新数据库开关返回 true 时,则添加读取任务到执行任务队列if (_fbService.BoolVariation("read-sport-newdb")){tasks.Add(GetSportsByCityQueryAsync(_newDbContext, cityId, pageIndex, pageSize));}// 同时执行两个读操作(为了避免新增数据读取增加请求时间),并将结果进行对比并返回// 如果结果不一致,则返回旧数据库读取结果,并进行记录return await _fbService.RunAndCompareDbTasksAsync(tasks,timeoutDelayForNewDB: 3000, // 设定新数据库的最长等待时间,避免不良体感(timeoutInfo) => { }, // 当新数据库调用超时,发信息至观测云(unMatchInfo) => { }, // 当返回结果不一致时,发信息至观测云(exception) => { } // 当出现异常时,发信息至观测云);
}

在把类似于上述的代码逐步的集成到我们的项目中之后,就可以通过 FeatBit 提供的 Feature Flags 控制中心来控制每一个对应的数据库移植的双写双读放量工作了。例如我们先将 feature flag read-sport-from-newdb 放量调整到 5%,若在一段时间未在观测云中观察到异常状况,增大放量百分比至 10% (如下图)。

使用观测云观测移植全过程,及时发现潜在问题

在整个的数据迁移过程中,自动化的、及时发现错误问题并回滚,是极为重要的。他可以最有效的帮我们避免诸多问题,如:

  • 新数据库操作带来巨大的系统资源消耗时,我们需要第一时间知道并通过 Feature Flags 系统立刻回滚。
  • 当某个写操作或读操出现时间操作超时数量超过预估阈值时,我们可以快速定位问题,回滚的同时进行快速的修复,提高移植的速度。
  • 当某个写操作或读操作出现信息错误时(如结果不一致、请求时间过长、程序异常等),我们可以根据观测系统具体定位错误信息,从而加速 debug 的速度。
  • 等等

实现这些,我们只需要:

  1. 根据《观测云文档:快速入门》,选择与自己业务相符的技术栈,进行小白式的在 15 分钟内完成配置和安装。
  2. 运行你已有的服务程序,开始你的数据库系统移植。
  3. 打开观测云控制台的「应用性能检测」页面,定位到链路,你将看到所有服务的运行情况。

通过「链路」与「错误追踪」快速定位移植错误

通过「链路」页面,我们发现在移植过程中,出现了一些红色项(即 Error),通过资源列可以轻松的看到我们在对新数据库的读取操作中出现了错误异常,如下所示:

点击对应的 Error,我们可以快速查看其对应的调用链路火焰图。如下图所示,根据火焰图的解释:

  1. 如下图 位置的 Span 所提示,在这个地方出现了数据库移植的 Timeout 错误,即新数据库的读取时间超出了我们可以接受的请求响应时间阈值。
  2. 如下图 位置中,指出错误发生在 Feature flag read-sport-newdb 为 true 的情况下面。也就是说我们可以快速定位可能需要回滚或关掉的 Feature Flags,从而避免移植风险。
  3. 而根据 位置 Span 可以快速定位出现超时现象的服务端 API 服务,并且根据捕捉到的 API 的参数与 Header,可以帮助我们后面去更好的调试解决问题。

通过 Feature Flags 实时将读操作回滚至无超时状态

根据上面的「链路」查找方式,我们快速定位到了出现异常的数据库读操作。那么,我们只需要回到 FeatBit 的后台界面,找到上面发现的开关 read-sport-newdb,并将其放量为 true 的百分比向后回滚即可。如下图所示,将 true 的百分比从 10% 回滚到之前未出现读数据异常的 5%的流量分配。

回滚后,下面代码所示的 _fbService.BoolVariation("read-sport-newdb") 返回值,只会将有 5% 的比率为 true。

// 当读取Sport相关业务的新数据库开关返回 true 时,则添加读取任务到执行任务队列
if (_fbService.BoolVariation("read-sport-newdb"))
{tasks.Add(GetSportsByCityQueryAsync(_newDbContext, cityId, pageIndex, pageSize));
}

总结与后续

这篇文章介绍了使用观测云与 FeatBit 通过双写双读的操作方式实现了降低数据库移植风险的基础方法。
在实际运行中,我们可能有大量的业务需要处理,人为的介入和操作会因为各种原因造成反应不及时的问题。在后续的文章中,我们将介绍更多的内容,如:

  • 使用观测云的指标服务与 FeatBit 的 Trigger 服务,实现移植时自动化实时回滚避灾与报警方案。
  • 使用观测云的指标服务与 FeatBit 的 Scheduler 服务 ,实现自动化的放量与回滚方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/51237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构 | 堆

本文简要总结堆的概念。 更新&#xff1a;2023 / 8 / 20 数据结构 | 堆 堆概念方法插入步骤 删除步骤 示例大根堆堆插入删除堆排序 代码实现Python大根堆1.2. heapq 小根堆1.2. heapq 参考链接 堆 概念 如果谈到堆排序&#xff0c;那么必然要说说什么是 大根堆 max heap 和 …

百度23Q2财报最新发布:营收利润加速增长,AI+生态战略渐显规模

百度集团-SW(9888.HK)Q2财报已于2023/08/22(美东)盘前发布&#xff0c;二季度百度集团整体收入实现341亿元&#xff0c;同比增长15%;归属百度的净利润(non-GAAP)达到80亿元&#xff0c;同比增长44%。营收和利润双双实现大幅增长&#xff0c;超市场预期。其中&#xff0c;百度核…

数学建模-常见算法(3)

KMP算法&#xff08;Knuth-Morris-Pratt算法&#xff09; KMP算法是一种用于字符串匹配的算法&#xff0c;它的时间复杂度为O(mn)。该算法的核心思想是在匹配失败时&#xff0c;利用已经匹配的信息&#xff0c;减少下一次匹配的起始位置。 def kmp(text, pattern): n len(…

【框架】SpringBoot数组传参问题

方式一 前端以字符串形式传递idList&#xff0c;采用逗号拼接&#xff0c;后端直接使用list接收 // 前端代码 form: {otherParam: ,idList: [id1,id2].join(,) }//后端代码 // 在后端接收idList时&#xff0c;直接使用List<T> 就可以接收前端字符串&#xff08;默认使用…

基于乌燕鸥算法优化的BP神经网络(预测应用) - 附代码

基于乌燕鸥算法优化的BP神经网络&#xff08;预测应用&#xff09; - 附代码 文章目录 基于乌燕鸥算法优化的BP神经网络&#xff08;预测应用&#xff09; - 附代码1.数据介绍2.乌燕鸥优化BP神经网络2.1 BP神经网络参数设置2.2 乌燕鸥算法应用 4.测试结果&#xff1a;5.Matlab代…

课程项目设计--项目建立--宿舍管理系统--springboot后端

前要 项目设计–宿舍管理系统 文章目录 项目建立导入依赖配置文件配置目录结构config配置mybatis-plusswagger 生成实体、mapper和servicebaseEntity统一响应实例响应码接口响应码接口实现统一响应result统一分页响应 项目建立 太长了&#xff0c;修改一下 导入依赖 暂时先加…

深入浅出理解相机标定原理

重要说明&#xff1a;本文从网上资料整理而来&#xff0c;仅记录博主学习相关知识点的过程&#xff0c;侵删。 一、参考资料 微信公众号&#xff1a;计算机视觉life 专栏&#xff1a;#相机标定 Camera Calibration 张正友标定法-完整学习笔记-从原理到实战 二、相机标定相…

软考高级系统架构设计师系列论文八十一:论行业应用软件系统的开发规划

软考高级系统架构设计师系列论文八十一:论行业应用软件系统的开发规划 一、摘要二、正文三、总结一、摘要 本文通过地震基本参数快速获取与发布系统论述了行业应用软件系统的开发规划。本人去年有幸参加了《地震基本参数快速获取与发布系统的研制》项目的开发,该系统按功能被…

文件内容搜索工具 - Python实现

在本篇文章中&#xff0c;我们将介绍如何使用 wxPython 库创建一个简单的文件搜索工具。这个工具允许用户选择一个文件夹&#xff0c;并在该文件夹中的所有 .py 文件中查找指定的文字&#xff0c;并显示匹配的位置。 C:\pythoncode\blog\searchwordinpyfile.py 代码实现 我们首…

Android 场景Scene的使用

Scene 翻译过来是场景&#xff0c;开发者提供起始布局和结束布局&#xff0c;就可以实现布局之间的过渡动画。 具体可参考 使用过渡为布局变化添加动画效果 大白话&#xff0c;在 Activity 的各个页面之间切换&#xff0c;会带有过渡动画。 打个比方&#xff0c;使用起来类似…

Launcher3开发注意事项

平台 本文以展锐 Android10平台为例。 编译 编译时用 make Launcher3QuickStep -j4 &#xff0c;而不是 make Launcher3 -j4 界面结构 Launcher.java 对应布局 launcher.xml 当前界面 Workspace&#xff0c; CellLayout 是单一页。 控制应用图标隐藏 复写AppFilte…

点亮社交新篇章:探索 WeTalk 新增的头像与群聊功能

目录 引言&#xff1a; 引入头像功能&#xff1a; 头像功能的优势&#xff1a; 引入群聊功能&#xff1a; 群聊功能的优势&#xff1a; 引入头像功能&#xff1a; 查看头像&#xff1a; ​编辑 上传头像&#xff1a; 引入群聊功能&#xff1a; 创建群聊&#xff1a…

1. Java基础知识介绍

文章目录 1. Java基础知识介绍1. 简单输入输出1.1 输入1.2 输出 2. 数据类型2.1 基本数据类型2.2 引用数据类型 3. 函数4. 类基础知识5. 小结 1. Java基础知识介绍 1. 简单输入输出 在Java编程中&#xff0c;我们经常需要与用户进行交互&#xff0c;以获取输入并输出结果。Ja…

万字长文,YOLOv8 yaml 文件解析 | 一文搞定 YOLOv8 分类任务,检测任务,分割任务,关键点任务

之前写过一篇 YOLOv5/v7的 yaml 文件解析,大家反馈都不错,这篇主要介绍 YOLOv8 的 yaml 文件, 其实原本前几个版本的 YOLOv8 的 yaml 文件和 v5v7 的 yaml 一样的,但是更新了很多版之后,有了挺大的改变, 并且 YOLOv8 这个项目支持的算法和任务很多,所以这个 yaml 文件…

nginx文件配置

在部署前后端分离项目时&#xff0c;当前端和后端不在一个服务器上时&#xff0c;需要在前端服务器上下载nginx并配置 #hkdp-front-test 前端服务器 xxx.xxx.x.69 前端项目端口号9528&#xff0c;监听文件夹 /home/apps/vue/hkdp-manager 配置如下 server{ …

LLVM编译报错解决:collect2: fatal error: ld terminated with signal 9 [Killed]

LLVM 编译安装 克隆代码到本地 git clone https://github.com/llvm/llvm-project.git # 需要时间比较长 如果不需要做额外的操作可以只克隆最新的commit git clone --depth 1 https://github.com/llvm/llvm-project.git配置编译选项 cd llvm-project cmake -S llvm -B build…

八月更新 | CI 构建计划触发机制升级、制品扫描 SBOM 分析功能上线!

点击链接了解详情 这个八月&#xff0c;腾讯云 CODING DevOps 对持续集成、制品管理、项目协同、平台权限等多个产品模块进行了升级改进&#xff0c;为用户提供更灵活便捷的使用体验。以下是 CODING 新功能速递&#xff0c;快来看看是否有您期待已久的功能特性&#xff1a; 01…

一个pdf文件分割成两个

# -- coding: utf-8 --** import PyPDF2 # 打开原始PDF文件 # with open(zhongguojinxiandaishi.pdf, rb) as pdf_file: # pdf_reader PyPDF2.PdfReader(pdf_file) # num_pages len(pdf_reader.pages) # # # 确定分割点&#xff08;例如&#xff0c;将页面一分为二&#xff0…

RabbitMq-3入门案例

rabbitmq入门 1.生产者&#xff08;服务提供方&#xff09; //依赖<dependencies> <!-- rabbitmq客户端依赖--><dependency><groupId>com.rabbitmq</groupId><artifactId>amqp-client</artifactId><version>5.8.0<…

element-ui 下拉框选择器selete多选时,单行显示所选内容

1.只需重写 el-select 原生样式 .el-select__tags {flex-wrap: inherit !important;overflow-x: auto !important; }特别注意&#xff1a;重写原生样式时&#xff0c;去掉当前 style 的 scoped 或者可以通过该穿透去实现 ::v-deep .el-select__tags {flex-wrap: inherit !imp…