【性能优化下】组织结构同步优化二,全量同步/增量同步,断点续传实现方式

看到这一篇文章的 xdm ,应该对组织结构同步有一些想法了吧,如果没有,可以看前面两篇文章,可以通过如下地址查看一下:

  • 【性能优化上】第三方组织结构同步优化一,你 get 到了吗?
  • 坑爹,线上同步近 3w 个用户导致链路阻塞引入发的线上问题,你经历过吗?

这类文章,主要是期望能给 xdm 带来不一样的思考,如有表述不当的地方,还请不吝赐教,期望对你有帮助😀

这篇文章主要是阐述将临时表中的用户组数据/用户数组,按照既定的步骤同步到我们的正式表,过程中遇到异常中断,可以对我们的正式平台无影响,能够保证下一次同步任务过来仍然可以进行断点续传

首先全量同步和增量同步分别指什么?🧐🧐

🔥全量同步

简单理解,全量同步,咱们就是将对方所有的数据,全部同步到我们内部系统中,对于组织结构同步的时候,我们没有必要每一次都是全量的,一般是第一次,无到有的时候会用到全量同步,可以理解为全量覆盖

🔥增量同步

那么增量同步就比较好理解了,此处的增量同步指的是,第三方数据对于目前内部系统数据来说,哪一些是增加或者变动的数据,那么就同步这一部分数据到内部系统中

那么对于我们本次同步组织结构来说,就看内部系统是否已经存在了 /IDaaS 组,如果存在了,那么就走增量同步,如果不存在,则走全量同步

😃😃😃

🔥全量同步基本流程

全量同步的基本流程比较简单,再来回顾一下之前文章的一张总体图

可以看到全量同步和增量同步在我们整个同步流程的第四个阶段,到这个阶段的时候,第三方组织结构的数据已经全部正确的写入到了我们的临时表中

这个时候,我们就需要将临时表中的数据按照我们的逻辑和步骤写入到正式表中

此处阶段,显示判断是否有 /IDaaS 组,如果没有,则在同步记录表中写入 同步类型为 full 全量同步,如果有 /IDaaS 组,则记录同步类型为 incr 增量同步

全量同步比较简单,总共分成两个阶段,一个阶段是全量同步组 full_sync_group,一个是全量同步用户 full_sync_user

序号步骤含义
1full_sync_group全量同步临时表中的组到正式表
2full_sync_user全量同步临时表中的用户到正式表

此处比较简单,同步用户之前,自然是先要将组给同步过来,完全分清楚,对于正式表中,数据是从无到有,所以步骤相对就简单一些

🧐开始全量同步

在进行全量同步前,仍然还是检查当前的同步状态是否是 sync_in,且同步步骤是否是sync_temp_user,若不是则不处理

  1. 检查用户数量是否超过平台最大限制

    1. 若过程中出现 error,则关闭当前任务,不进行同步,并且将同步记录中同步状态设置为同步中断 sync_interrupt,同步记录表中重试次数 +1
    2. 检查临时表有效用户 + 已有正式表中未删除用户的数量是否超过平台最大限制(一般平台会有对于一个租户最多容纳多少用户的限制),更新同步状态为同步失败 sync_fail,并且清空临时数据,通知其他服务处理失败,且关闭当前任务
  1. 校验当前同步步骤是 sync_temp_user 或者 full_sync_group ,则开始正式将临时表的组信息同步到正式表中,并将当前的同步步骤修改为 full_sync_group
  • 这次这样进行判断,如果是 sync_temp_user 说明第一次处理到这里,如果是 full_sync_group 步骤,说明这个步骤之前被中断了,此刻需要断点续传
    • 获取临时表中的组深度,且获取按照深度排序的组列表
    • 按照由浅到深的将组数据写入到正式表中
    • 删除临时用户表
    • 如果过程中出现 error,则在该租户的同步记录中,同步状态标记为 sync_interrupt
  1. 当同步步骤是 full_sync_group 或者 full_sync_user 的时候,则开始将用户从临时表加入到正式用户表中,且将同步步骤修改为 full_sync_user
  • 同理,此处这样的处理逻辑,也是为了断点续传,逻辑之外,关于一个步骤中数据库的处理都是开启事务的
    • 一层一层的去添加用户,先从临时表中查询同一个深度下对应的所有用户
    • 从正式表中读取已经存在的用户
    • 从临时表中按照例如 1000 条每次去读取数据(有效合法用户),写到到正式表中,校验如果用户已经存在于正式表中,则记录冲突用户,且不录入该用户,反之亦然
    • 删除临时表中已经插入到正式表中的用户数据,并在临时表中更新指定用户是非法的
    • 如果过程中出现 error,则在该租户的同步记录中,同步状态标记为 sync_interrupt
    • 同步结束,则将同步状态设为 sync_success同步步骤设置为 sync_end,同时将临时表中非法的组,非法的用户全部读书出来,将非法数据传出去
    • 最终清除临时用户组表,和临时用户表 ,在 redis 中记录下一次需要同步的时间

🔥增量同步基本流程

增量同步的话,相对步骤就会多一些,看起来可能会觉得复杂,实际上按照如下步骤走的话,会很清晰并不复杂

序号步骤含义
1incr_sync_markup_group标记组步骤
2incr_sync_markup_user标记用户步骤
3incr_sync_delete_user从正式表中删除用户步骤
4incr_sync_add_group将临时表中的组写入到正式表中
5incr_sync_move_user处理正式表中移动用户
6incr_sync_add_user将临时表中的用户添加到正式表中
7incr_sync_edit_user编辑正式表中的用户
8incr_sync_delete_group删除正式表中的组
9sync_end增量同步结束

那么对于增量同步为什么需要那么多步骤才能保证咱们顺利同步?才能保证咱们可以断点续传??

实际上稍加思考的话,我们就需要考虑这些问题:

  • 同步数据,自然是需要先同步组
  • 那么对于组的增删改查,用户的增删改,我们需要按照这样的顺序处理呢?
  • 思考之后,自然是

    • 删除正式表中的用户(避免后续冲突,此步骤说明最新的同步数据中没有这一部分用户)
    • 添加组
    • 移动用户 (如果移动的目的组不存在的话,那还玩什么??所以添加组要放在这个步骤的前面
    • 添加用户
    • 编辑用户
    • 删除组

🧐开始处理增量同步数据

下面关于校验步骤的位置,理由都是为了确定当前执行的步骤是正确的,并且为了做到断点续传

  1. 开始标记组

    1. 校验当前同步步骤是 sync_temp_user 或者 incr_sync_markup_group,则当前的同步步骤修改为 incr_sync_markup_group
    2. 读取原有正式表中的组,读取临时表中的组数据
    3. 通过标记,找到新增的组,找到删除的组,并在临时用户组表中标记新增的组,在正式表中标记删除的组
  1. 开始标记用户

    1. 校验当前同步步骤是 incr_sync_markup_group 或者 incr_sync_markup_user,则将当前步骤修改为 incr_sync_markup_user
    2. 获取原有正式表中的非IDaaS组下的用户,读取临时表中的用户,通过读取出来的临时表中的用户去读取正式表中的数据,标记哪一些用户是新增的,哪一些是修改的,哪一些是移动的(组变动了),在正式表中标记删除的用户
  1. 开始处理正式表,临时表中的标记数据

    1. 删除用户 ,检查当前步骤是 incr_sync_markup_user 或者是 incr_sync_delete_user 才进行,且更新步骤为 incr_sync_delete_user
    2. 新增用户组,校验同步步骤是 incr_sync_delete_user 或者是 incr_sync_add_group 才进行,且更新步骤为 incr_sync_add_group
    3. 移动用户,校验同步步骤是incr_sync_add_group 或者是 incr_sync_move_user 才进行,且更新步骤为 incr_sync_move_user
    4. 删除用户组,校验同步步骤是 incr_sync_move_user 或者是 incr_sync_delete_group 才进行,且更新步骤为 incr_sync_delete_group
    5. 新增用户,校验同步步骤是 incr_sync_delete_group 或者是incr_sync_add_user 才进行,且更新步骤为 incr_sync_add_user
    6. 修改用户,校验同步步骤是 incr_sync_add_user 或者是 incr_sync_edit_user 才进行,且更新步骤为 incr_sync_edit_user
    7. 如果过程中出现 error,则在该租户的同步记录中,同步状态标记为 sync_interrupt
    8. 同步结束,则将同步状态设为 sync_success ,同步步骤设置为 sync_end,同时将临时表中非法的组,非法的用户全部读书出来,将非法数据传出去
    9. 最终清除临时用户组表,和临时用户表 ,在 redis 中记录下一次需要同步的时间

自然,对于每一个步骤的实现方式根据实际情况来定,这只是一个例子,主要是理解,整个流程的 3 张表4 个同步状态,以及 14 个同步步骤

是怎么保证断点续传的?

可以看到对于每一个步骤都在我们的操控范围内,还记的最开始创建同步任务的时候吗?

这个 同步中断 就是用于断点续传的

可以这样来实现 断点续传

  • 后台会启动一个定时任务,定时去扫同步记录表中 同步状态是 sync_interrupt 状态的记录
  • 根据每一条记录是全量同步还是增量同步,来走不同的同步路径
  • 再根据每一条同步记录中的同步步骤,就可以接着中断之前的步骤来进行同步数据了

自然,细心的同学还发会发,同步记录表中有重试次数这个字段,用法是每中断一次,这个字段值 +1,如果发现已经 3 次了,那么就会删除这条记录,若之后再次触发该租户的同步任务,则从 0 开始同步即可

至此,关于本次组织结构同步的内容更新完毕,如果对你能够带来一些思考的话,欢迎冒个泡吧

感谢阅读,欢迎交流,点个赞,关注一波 再走吧

欢迎点赞,关注,收藏

朋友们,你的支持和鼓励,是我坚持分享,提高质量的动力

好了,本次就到这里

技术是开放的,我们的心态,更应是开放的。拥抱变化,向阳而生,努力向前行。

我是阿兵云原生,欢迎点赞关注收藏,下次见~

文中提到的技术点,感兴趣的可以查看这些文章:

  • 【性能优化上】第三方组织结构同步优化一,你 get 到了吗?
  • 坑爹,线上同步近 3w 个用户导致链路阻塞引入发的线上问题,你经历过吗?
  • OAUTH之钉钉第三方授权
    可以进入地址进行体验和学习:https://xxetb.xet.tech/s/3lucCI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/83502.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式Java实战

文章目录 一、前置1.1 目的1.2 面向对象1.3 接口和抽象类 二、七大设计原则2.1 单一职责2.2 接口隔离原则2.3 依赖倒转原则2.4 里氏替换原则2.5 开闭原则2.6 不要重复原则2.7 迪米特最少知道法则 三、23种设计模式3.1创建型:创建对象3.1.1 单例模式定义最佳实践场景…

servlet中doGet方法无法读取body中的数据

servlet中doGet方法不支持读取body中的数据。

10万单词例句表单词句子ACCESS\EXCEL数据库

原本我以为《3万5千英语句子英语例句大全ACCESS数据库》例句已经够多了,没想到今天遇到一个10万条英语单词例句的数据,非常适合与单词词典进行关联学习,例句多了单词的用法以及句子的掌握都更有效率。 截图下方有显示“共有记录数”&#xff…

一台主机外接两台显示器

一台主机外接两台显示器 写在最前面双屏配置软件双屏跳转 写在最前面 在使用电脑时需要运行多个程序,时不时就要频繁的切换,很麻烦 但就能用双屏显示来解决这个问题,用一台主机控制,同时外接两台显示器并显示不同画面。 参考&a…

100G QSFP28 100km光模块最新解决方案

随着信息时代的到来,数据传输的速度和距离要求越来越高。目前,易天光通信发布了具有超低成本、可实现100G超长距离传输新方案——100G QSFP28 100km光模块,该方案是在100G ZR4 80km光模块上的全面升级。 一、产品概述 100G ZR4 100km是专为…

【探索Linux】—— 强大的命令行工具 P.9(进程地址空间)

阅读导航 前言一、内存空间分布二、什么是进程地址空间1. 概念2. 进程地址空间的组成 三、进程地址空间的设计原理1. 基本原理2. 虚拟地址空间 概念 大小和范围 作用 虚拟地址空间的优点 3. 页表 四、为什么要有地址空间五、总结温馨提示 前言 前面我们讲了C语言的基础知识&am…

【web开发】7、Django(2)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、部门列表二、部门管理(增删改)三、用户管理过渡到modelform组件四、modelform实例:靓号操作五、自定义分页组件六、datepick…

Pytest接口自动化测试实战演练

结合单元测试框架pytest数据驱动模型allure 目录 api: 存储测试接口 conftest.py :设置前置操作 目前前置操作:1、获取token并传入headers,2、获取命令行参数给到环境变量,指定运行环境 commmon:存储封装的公共方法 connect_mysq…

集成Activiti-Modeler流程设计器

集成Activiti-Modeler流程设计器 Activiti Modeler 是 Activiti 官方提供的一款在线流程设计的前端插件,可以方便流程设计与开发人员绘制流程图,保存流程模型,部署至流程定义等等。 1、材料准备 首先我们需要获取activiti-explorer.zip&…

zabbix监控平台部署(二)

目录 一、自定义监控 二、Nginx监控 三、监控mysql 四、钉钉告警 五、163邮箱报警 总结 zabbix5.0 一、自定义监控 zabbix-agent(147) agent端操作 vim /etc/zabbix/zabbix_agentd.conf 在配置未文件末尾添加 UserParametermemory_userd,free…

vue修改node_modules打补丁步骤和注意事项

当我们使用 npm 上的第三方依赖包,如果发现 bug 时,怎么办呢? 想想我们在使用第三方依赖包时如果遇到了bug,通常解决的方式都是绕过这个问题,使用其他方式解决,较为麻烦。或者给作者提个issue,然…

【Java 基础篇】Java后台线程和守护线程详解

在Java多线程编程中,有两种特殊类型的线程:后台线程(Daemon Thread)和守护线程(Daemon Thread)。这两种线程在一些特定的场景下非常有用,但也需要谨慎使用。本文将详细介绍后台线程和守护线程的…

(JavaEE)(多线程案例)线程池 (简单介绍了工厂模式)(含经典面试题ThreadPoolExector构造方法)

线程诞生的意义,是因为进程的创建/销毁,太重了(比较慢),虽然和进程比,线程更快了,但是如果进一步提高线程创建销毁的频率,线程的开销就不能忽视了。 这时候我们就要找一些其他的办法…

Ansible之Playbook的任务控制

一)Ansible 任务控制基本介绍 这⾥主要来介绍PlayBook中的任务控制。 任务控制类似于编程语⾔中的if … 、for … 等逻辑控制语句。 这⾥我们给出⼀个实际场景应⽤案例去说明在PlayBook中,任务控制如何应⽤。 在下⾯的PlayBook中,我们创建了…

pnpm入门教程

一、概述 1、更小 使用 npm 时,依赖每次被不同的项目使用,都会重复安装一次。 而在使用 pnpm 时,依赖会被存储在内容可寻址的存储中。 2、更快 依赖解析。 仓库中没有的依赖都被识别并获取到仓库。目录结构计算。 node_modules 目录结构是…

什么是GPT磁盘?介绍GPT(GUID 分区表)磁盘及其优势!

GPT概述 GPT磁盘是什么意思?GPT是全局唯一标识符分区表(GUID Partition Table)的简称,它是硬盘分区表结构的一个标准模式。在我们深入了解GPT磁盘的特性之前须知,MBR磁盘的分区信息直接保存在主引导记录&#xff0…

【探索C语言中VS调试技巧】:提高效率和准确性

文章目录 前言1. 什么是bug?2. 调试是什么?有多重要?2.1 调试是什么?2.2 调试的基本步骤2.3 Debug和Release的介绍 3. Windows环境调试介绍3.1 调试环境的准备3.2 学会快捷键3.3 调试的时候查看程序当前信息3.3.1 查看临时变量的值…

【C++】动态内存管理 ③ ( C++ 对象的动态创建和释放 | new 运算符 为类对象 分配内存 | delete 运算符 释放对象内存 )

文章目录 一、C 对象的动态创建和释放1、C 语言 对象的动态创建和释放 的方式2、C 语言 对象的动态创建和释放 的方式 二、代码示例 - 对象的动态创建和释放 一、C 对象的动态创建和释放 使用 C 语言中的 malloc 函数 可以为 类对象 分配内存 ; 使用 free 函数可以释放上述分配…

Android 富文本SpannableString

一、认识SpannableString 为什么要使用富文本 在Android开发中,有很多UI会画出一些特别炫酷的界面出来,比如一个字符串里有特殊的字会有其他颜色并加粗、变大变小、插入小图片、给某几个文字添加边框,如果我们使用笨办法用几个TextView或者Im…

单片机第三季-第三课:STM32开发板原理图、配置、浮点运算单元

目录 1,开发板原理图 2,浮点运算单元(FPU) 1,开发板原理图 课程视频比较早,介绍了三款开发板。观看视频时用的开发板说和51单片机共板的STM32核心板,将51单片机从底座拆下来后,安…