Karmada更高效地实现故障转移

随着云原生技术的发展,其应用场景不断扩大。越来越多的企业开始将应用程序部署在 Kubernetes 集群中,随着 Kubernetes 集群规模的不断扩大,也带来了许多管理挑战,例如多集群间负载均衡、资源调度、故障转移等问题。为了解决这些问题,Karmada 多集群管理平台应运而生,同时还提供了强大的故障转移能力。

在多云多集群场景中,为了提高业务的高可用性,工作负载可能会被部署在多个不同的集群。在 Karmada 中,当集群发生故障,或是用户不希望在某个集群上继续运行工作负载时,集群状态将被标记为不可用,并被添加上一些污点。Taint-manager 检测到集群故障之后,会从这些故障集群中驱逐工作负载,被驱逐的工作负载将被调度至其他最适合的集群,从而达成故障迁移的目的,保证了用户业务的可用性与连续性。

一、故障迁移的场景

为何需要故障转移?下面来介绍一些多集群故障迁移的场景:

  • 管理员在 Karmada 控制面部署了一个离线业务,并将业务 Pod 实例分发到了多个集群。突然某个集群发生故障,管理员希望 Karmada 能够把故障集群上的 Pod 实例迁移到其他条件适合的集群中;

  • 普通用户通过 Karmada 控制面在某一个集群上部署了一个在线业务,业务包括服务器实例、配置文件等,服务通过控制面上的 ELB 对外暴露,此时某一集群发生故障,用户希望把整个业务能迁移到另一个情况较适合的集群上,业务迁移期间需要保证服务不断服;

  • 管理员将某个集群进行升级,作为基础设施的容器网络、存储等发生了改变,管理员希望在集群升级之前把当前集群上的应用迁移到其他适合的集群中去,业务迁移期间需要保证服务不断服。

二、如何进行故障迁移

上图展示了两种不同的迁移方式 

Karmada 支持用户设置分发策略,在集群发生故障后,将故障集群实例进行自动的集中式或分散式的迁移。如图用户在 Karmada 中加入了三个集群,分别为:member1、member2 和 member3。

  1. 在 Karmada 的控制面部署了一个副本数为 3 的工作负载,并通过部署策略(PropagationPolicy)将其分发到了集群 member1 和 member2 上。
  2. 当集群 member1发生故障之后,其工作负载上的 Pod 实例将会被驱逐,通过 PropagationPolicy/ClusterPropagationPolicy 的副本调度策略 ReplicaSchedulingStrategy 来控制 Pod 被全部迁移到集群 member2 或是分散迁移至两个集群中。

 

三、工作负载被驱逐的时间线

下面通过示例,简单讲解在 DCE 5.0 多云编排模块中,一个工作负载被驱逐的时间线:

首先,每一段时间调用一次集群的 API 用以记录集群的健康状态,当集群状态始终为健康时,我们认定集群的健康状态正常。此时我们将 DCE 与集群 APIserver 之间的 TCP 断开,10s-20s 之内,若没有获取到集群的健康状态将认为集群异常,被标记为非健康状态,同时打上 NoSchedule 的污点,如果集群的不健康状态持续一段时间,在指定时间内若集群仍然没有恢复健康,超过指定的驱逐容忍时长后,将被打上 NoExecute 的污点,最终被驱逐。

 

 

四、影响故障转移时效的指标

在 Karmada 中启用了 Failover 之后,Karmada 提供了几个参数配置选项,与上图对应,分别为:

ClusterMonitorPeriod:检查集群状态的时间间隔,默认 60s;

ClusterMonitorGracePeriod:运行中标记集群不健康检查时长,默认 40s;

ClusterStartupGracePeriod:启动时标记集群不健康的检查时长,默认 600s;

FailoverEvictionTimeout:驱逐容忍时长,集群被标记为不健康后,超过此时长会给集群打上污点,并进入驱逐状态,默认 30s;

ClusterTaintEvictionRetryFrequency:优雅驱逐超时时长,进入优雅驱逐队列后,最长等待时长,超时后会立即删除,默认 5s。

影响故障转移的延时时效的主要有以下 2 个维度的指标,需要组合配置才能最终达到延迟灵敏度的效果。如何使配置过程更加友好?在我们的 DCE 5.0 多云编排模块中,我们将故障转移的相关配置表单化,能够降低用户的使用门槛,同时提高配置的成功率。

1. 集群维度:标记集群为不健康的检查时长、集群驱逐容忍时长。

 

2. 工作负载维度:集群污点容忍时长。

 

当用户创建资源 PropagationPolicy/ClusterPropagationPolicy 后,Karmada 会通过 webhook 为它们自动增加如下集群污点容忍:

 

 

五、优化故障转移时效的优势

1、提高应用程序的可靠性和可用性

Karmada 故障转移功能可以确保工作负载在节点或集群出现故障时不会直接停机,从而提高应用程序的可靠性和可用性。这对于一些已经部署了庞大的业务系统的企业来说是非常重要的。

 

2、提供快速的恢复能力

Karmada 故障转移功能能够快速迁移工作负载到健康节点或集群上,从而缩短节点恢复的时间,减少业务停机时间,大大节约企业的成本和时间。

3、避免业务流量损失

Karmada 故障转移功能能够及时将故障的工作负载迁移至健康节点或集群,从而避免业务流量损失。

今后,相信随着云原生技术的不断发展和完善,Karmada 的故障转移功能在未来能够更加广泛地应用到各个领域,为企业的业务提供更好的保障。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/144448.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis一条set命令的执行过程

set命令,在我们看来很简单,set zhangsan lisi,redis给我们返回一个 ok,就完事了。那redis的服务端是怎么处理这条简单的命令的?是不是像我们看起来的这么简单。今天这篇文章就来聊聊这个问题。 在上一篇文章中,我们聊…

超详细的Jmeter随机参数各种搭配

前言 参数配置应该有三种场景,具体其他的我还没想到,那到底是哪三种呢?如果你也对这个问题感兴趣的话,那就让我们一起往下看吧! 一、两个固定值之间随机生成一个值,应用场景没有限制 1、最简单的两个值之…

【Pytorch笔记】7.torch.nn (Convolution Layers)

我们常用torch.nn来封装网络,torch.nn为我们封装好了很多神经网络中不同的层,如卷积层、池化层、归一化层等。我们会把这些层像是串成一个牛肉串一样串起来,形成网络。 先从最简单的,都有哪些层开始学起。 Convolution Layers -…

Windows内的Ubuntu虚拟机安装docker

博主使用源码安装时遇到了很多奇葩情况,不知道是不是稀奇古怪的东西安装太多了导致的,下面是一个探索出来的可行又简单的路子: 流程 curl -fsSL https://test.docker.com -o install_docker.sh sudo sh install_docker.sh等待一阵子&#x…

使用新版Visual Studio编译老项目部分报错处理

“/ZI”和“/Gy-”命令行选项不兼容 进入“项目”—>“属性”—>“C/C” (1) —>“常规”—>“调试信息格式”—>选择“程序数据库(/Zi)”或“无” (2) —>“代码生成”—>“启用函数集链接”—>选择“是 (/Gy)” 使用zlib库 报错 error LNK2019: 无…

使用 Stable Diffusion Img2Img 生成、放大、模糊和增强

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器 Stable Diffusion 2022.1 Img5Img 于 2 年发布,是一款革命性的深度学习模型,正在重新定义和推动照片级真实…

Ubuntu18.04编译OpenCV时遇到无法下载ADE的问题

安装OpenCV过程中编译时出现下载ADE失败的问题 报错如下: -- ADE: Downloading v0.1.2a.zip from https://github.com/opencv/ade/archive/v0.1.2a.zip -- Try 1 failed CMake Warning at cmake/OpenCVDownload.cmake:248 (message):ADE: Download failed: 28;&quo…

分布式锁的概念、应用场景、实现方式和优缺点对比

一:什么是分布式锁 分布式锁是一种用于协调分布式系统中多个节点对共享资源的访问的机制。在分布式系统中,由于多个节点的并发执行,可能会导致对共享资源的竞争,而分布式锁的目的就是确保在任何时刻,只有一个节点能够持…

小米手机获取电池健康度

目录 方法一:使用Bug反馈功能 1. 打开拨号界面,输入*#*#284#*#* 2. 导出结果,等待即可 3. 找到这个压缩文件 4. 解压缩【我这里直接拷贝到电脑中操作,手机同理】 4.1 解压: 4.2 将得到的新的压缩文档解压 5. 打…

mysql 添加limit,sql 语句执行时间变长的问题

调优一个sql语句,在语句如下 select resources_id,title,file_type,period,subject_id,subject_name from cms_resources where status2 and period"2" and subject_id6 and FIND_IN_SET("114",category_id…

安防监控EasyCVR视频汇聚平台使用海康SDK播放出现花屏是什么原因?

视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同,支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。音视频流媒体视频平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频录像、…

【go/方法记录】局部坐标与世界坐标间的相互转换(位置/方向)

文章目录 说在前面计算旋转矩阵计算变换矩阵Inverse QuaternionEuler To QuaternionWorld to LocalPositionRotation Local to WorldPositionRotation 参考 说在前面 golang版本: go1.20.5 windows/386gonum版本:gonum.org/v1/gonum v0.14.0 计算旋转矩阵…

hutool SM2(秘钥对、签名、验签、加密、解密)

//生成公钥对KeyPair pair SecureUtil.generateKeyPair("SM2");//私钥String privateKeyStr Base64.getEncoder().encodeToString(pair.getPrivate().getEncoded());//公钥String publicKeyStr Base64.getEncoder().encodeToString(pair.getPublic().getEncoded())…

F.binary_cross_entropy、nn.BCELoss、nn.BCEWithLogitsLoss与F.kl_div函数详细解读

提示:有关loss损失函数详细解读,并附源码!!! 文章目录 前言一、F.binary_cross_entropy()函数解读1.函数表达2.函数运用 二、nn.BCELoss()函数解读1.函数表达2.函数运用 三、nn.BCEWithLogitsLoss()函数解读1.函数表达…

Vue dev-tools的安装

安装 Vue 开发者工具,装插件调试Vue应用 1.通过谷歌应用商店来进行安装(国外网站) 2.极简插件: 搜索 Vue -> 下载解压 -> 浏览器扩展模式打开,开发者模式 -> 将解压的CRX文件拖拽安装 -> 插件详情 &…

vscode Prettier配置

常用配置项: .prettierrc.json 是 Prettier 格式化工具的配置文件 {"printWidth": 200, // 指定行的最大长度"tabWidth": 2, // 指定缩进的空格数"useTabs": false, // 是否使用制表符进行缩进,默认为 false"singl…

华为Matebook X Pro 2022款 i7 集显(MRG-W76)原装出厂Windows11预装系统21H2

下载链接:https://pan.baidu.com/s/12ru9lUeQ7mWd5u1KLCM0Pg?pwdc7pi 提取码:c7pi 原厂系统自带指纹、面部识别、声卡、网卡、显卡等所有驱动、出厂主题壁纸、Office办公软件、华为电脑管家等预装程序,如图 由于时间关系,绝大部分资料没…

照亮夜晚的台灯:户外空间的闪亮之选

户外台灯是家庭和社交空间的重要元素,它们不仅提供照明,还可以为您的户外区域增添美感,以及创造一个温馨的社交氛围。以下是一些关于户外台灯的信息,以帮助您更好地了解它们的多功能性和用途。 1、照明的重要性:户外台…

工作中积累的对K8s的就绪和存活探针的一些认识

首先,我的项目是基于 Spring Boot 2.3.5 的,并依赖 spring-boot-starter-actuator 提供的 endpoints 来实现就绪和存活探针,POM 文件如下图: 下面,再让我们来看下与该项目对应的Deployment的YAML文件,如下…

ES的索引概念

1. 概念:Elasticsearch(ES)是一个开源的全文搜索引擎,可以快速地存储、搜索和分析大量的结构化和非结构化数据。 2. 索引的作用:ES索引是将数据存储在Elasticsearch中的基本方式。它用于存储、搜索、分析和查询数据。…