DEVOPS: 集群伸缩原理

概述

  • 阿里云 K8S 集群的一个重要特性,是集群的节点可以动态的增加或减少
  • 有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用
    率降低的时候,释放节点以节省费用
  • 理解实现原理,在遇到问题的时候,我们就可以高效地排查并定位原因
  • 我们的讨论基于1.12.6 版本

节点增加原理

  • 阿里云 K8S 集群可以给集群增加节点的方式有,添加已有节点,集群扩容,和自动伸缩
  • 其中,添加已有节点又可分为手动添加已有节点和自动添加已有节点
  • 节点的增加涉及到的组件有,节点准备,弹性伸缩(ESS),管控,Cluster Autoscaler 以及调度器

手动添加已有节点

  • 节点准备,其实就是把一个普通的 ECS 实例,安装配置成为一个 K8S 集群节点的过程
  • 这个过程仅靠一条命令就可以完成,这条命令使用 curl 下载 attach_node.sh 脚本
  • 然后以 openapi token 为参数,在 ECS 上运行
  • curl http:///public/pkg/run/attach//attach_node.sh | bash -s – --openapi-token
    • 这里 token 是一个对的 key,而 value 是当前集群的基本信息
    • 阿里云 K8S集群的管控,在接到手动添加已有节点请求的时候
    • 会生成这个对,并把 key 作为token 返回给用户
    • 这个 token(key)存在的价值,是其可以让 attach_node.sh 脚本
    • 以匿名身份在 ECS 上索引到集群的基本信息(value)
    • 而这些基本信息,对节点准备至关重要
  • 总体上来说,节点准备就做两件事情,读和写,读即数据收集,写即节点配置
  • 这里的读写过程,绝大部分都很基础,大家可以通过阅读脚本来了解细节
  • 唯一需要特别说明的是,kubeadm join 把节点注册到 Master 的过程
  • 此过程需要新加节点和集群 Master 之间建立互信
  • 一边,新加节点从管控处获取的 bootstrap token
    • 与 openapi token 不同,此token 是 value 的一部分内容
    • 实际上是管控通过可信的途径从集群 Master 上获取的
    • 新加节点使用这个 bootstrap token 连接 Master
    • Master 则可通过验证这个 bootstrap token 来建立对新加节点的信任
  • 另一边,新加节点以匿名身份从 Master kube-public 命名空间中获取集群cluster-info
    • cluster-info 包括集群 CA 证书,和使用集群 bootstrap token 对这个 CA 做的签名
    • 新加节点使用从管控处获取的 bootstrap token
    • 对 CA 生成 b 新的签名,然后将此签名与 cluster-info 内签名做对比
    • 如果两个签名一致,则说明cluster-info 和 bootstrap token 来自同一集群
    • 新加节点因为信任管控,所以建立对 Master 的信任

自动添加已有节点

  • 自动添加已有节点,不需要人为拷贝黏贴脚本到 ECS 命令行来完成节点准备的过程
  • 管控使用了 ECS userdata 的特性,把类似以上节点准备的脚本,写入ECS userdata
  • 然后重启 ECS 并更换系统盘。当 ECS 重启之后,会自动执行 Userdata 里边的脚本
  • 来完成节点添加的过程。这部分内容,大家其实可以通过查看节点 userdata 来确认

!/bin/bash

mkdir -p /var/log/acs
curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash
-s -- --docker-version --token --endpoint --cluster-dns > /var/log/acs/init.log
  • 这里我们看到,attach_node.sh 的参数,与前一节的参数有很大的不同
  • 其实这里的参数,都是前一节 value 的内容,即管控创建并维护的集群基本信息
  • 自动添加已有节点省略了通过 key 获取 value 的过程

集群扩容

  • 集群扩容与以上添加已有节点不同,此功能针对需要新购节点的情形
  • 集群扩容的实现,在添加已有节点的基础上,引入了弹性伸缩 ESS 组件
  • ESS 组件负责从无到有的过程,而剩下的过程与添加已有节点类似
  • 即依靠 ECS userdata 脚本来完成节点准备
  • 下图是管控通过 ESS 从无到有创建 ECS 的过程

自动伸缩

  • 前边三种方式是需要人为干预的伸缩方式,而自动伸缩的本质不同
  • 是它可以在业务需求量增加的时候,自动创建 ECS 实例并加入集群
  • 为了实现自动化,这里引入了另外一个组件 Cluster Autoscaler
  • 集群自动伸缩包括两个独立的过程
  • 其中第一个过程,主要用来配置节点的规格属性,包括设置节点的用户数据
  • 这个用户数据和手动添加已有节点的脚本类似,不同的地方在于,其针对自动伸缩这种场景,增加了一些专门的标记
  • attach_node.sh 脚本会根据这些标记,来设置节点的属性

!/bin/sh

curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash -s -- --openapi-token --ess true --labels k8s.io/cluster-autoscaler=true,workload_type=cpu,k8s.aliyun.com=true
  • 而第二个过程,是实现自动增加节点的关键
  • 这里引入了一个新的组件 Autoscaler,它以 Pod 的形式运行在 K8S 集群中
  • 理论上来说,我们可以把这个组件当做一个控制器
  • 因为它的作用与控制器类似,基本上还是监听 Pod 状态
  • 以便在 Pod 因为节点资源不足而不能被调度的时,去修改 ESS 的伸缩规则来增加新的节点
  • 这里有一个知识点,集群调度器衡量资源是否充足的标准,是“预订率”,而不是“使用率”
  • 这两者的差别,类似酒店房价预订率和实际入住率:
    • 完全有可能有人预订了酒店
    • 但是并没有实际入住
  • 在开启自动伸缩功能的时候,我们需要设置缩容阈值,就是“预订率”的下线
  • 之所以不需要设置扩容阈值。是因为 Autoscaler 扩容集群
  • 依靠的是 Pod 的调度状态:当 Pod 因为节点资源“预订率”太高无法被调度的时候 Autoscaler 就会扩容集群

节点减少原理

  • 与增加节点不同,集群减少节点的操作只有一个移除节点的入口
  • 但对于用不同方法加入的节点,其各自移除方式略有不同
  • 首先,通过添加已有节点加入的节点,需要三步去移除:
    • 管控通过 ECS API 清楚 ECS userdata;
    • 管控通过 K8S API 从集群中删除节点;
    • 管控通过 ECS Invoke-Command 在 ECS 上执行 kubeadm reset 命令清理节点
  • 其次,通过集群扩容加入的节点,则在上边的基础上,增加了断开 ESS 和 ECS 关系的操作,此操作由管控调用 ESS API 完成
  • 最后,经过 Cluster Autoscaler 动态增加的节点,则在集群 CPU 资源“预订率”降低的时候,由 Cluster Autoscaler 自动移除释放
  • 其触发点是 CPU“预订率”,即上图写 Metrics 的原因

总结

  • 总体上来说,K8S 集群节点的增加与减少,主要涉及四个组件,分别是 Cluster
    Autoscaler,ESS,管控以及节点本身(准备或清理)
  • 根据场景不同,我们需要排查不同的组件
    • 其中 Cluster Autoscaler 是一个普通的 Pod,其日志的获取和其他Pod 无异
    • ESS 弹性伸缩有其专门的控制台
    • 我们可以在控制台排查其伸缩配置、伸缩规则等相关子实例日志和状态
    • 而管控的日志,可以通过查看日志功能来查看
  • 最后,对于节点的准备与清理,其实就是排查对应的脚本的执行过程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/57135.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为OD机试 - 无向图染色(Java 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(E卷D卷A卷B卷C卷)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加…

云智慧完成华为原生鸿蒙系统的适配, 透视宝 APM 为用户体验保驾护航

2024 年 10 月 22 日,首个国产移动操作系统 —— 华为原生鸿蒙操作系统 HarmonyOS NEXT 正式面世,成为继 iOS 和 Android 后的全球第三大移动操作系统。HarmonyOS NEXT,从系统内核、数据库根基,到编程语言创新、AI(人工…

无人机之任务分配算法篇

无人机的任务分配算法是无人机系统中的重要组成部分,它决定了无人机如何高效、合理地执行各种任务。以下是一些常见的无人机任务分配算法: 一、合同网协议(Contract Net Protocol, CNP) 基本概念:CNP算法是一种分布式…

【WRF数据处理】基于GIS4WRF插件将geotiff数据转为tiff(geogrid,WPS所需数据)

【WRF数据处理】基于GIS4WRF插件将geotiff数据转为tiff(geogrid,WPS所需数据) 数据准备:以叶面积指数LAI为例QGis实操:基于GIS4WRF插件将geotiff数据转为tiff警告:GIS4WRF: Input layer had an unexpected …

【MySQL基础】高级查询

文章目录 一、聚合函数:COUNT、SUM、AVG、MIN、MAX1. 统计总数:COUNT2. 计算总和:SUM3. 计算平均值:AVG4. 找最小值:MIN5. 找最大值:MAX 综合使用聚合函数的例子小结 二、分组查询——GROUP BY 和 HAVING1.…

ElasticSearch备考 -- Index shrink

一、题目 索引task包括5个分片一个副本,对索引执行shrink压缩操作,压缩后索引为1主分片,索引名称为task-new 二、思考 在执行shrink前必须满足三个前置条件 The index must be read-only.A copy of every shard in the index must reside o…

名词(术语)了解--CSSOM (CSS Object Model)

名词(术语)了解–CSSOM (CSS Object Model) CSSOM 概述 CSSOM 是一个与 DOM (Document Object Model) 相对应的、用于 CSS 的 API 集合。 它提供了一种程序化的方式来读取和修改文档的样式信息。 CSSOM 的主要组成部分 样式规则树 document └── …

智能化超声波影像分析,优化医疗决策的开源AI解决方案

思通数科的医疗信息精准抽取系统是一款基于人工智能的开源软件,旨在自动化处理医疗数据,特别是从超声波影像到诊断报告的信息提取。该系统集成了图像识别、自然语言处理和知识图谱等先进技术,能够从医疗影像中提取关键数据,并将这…

Objective-C 音频爬虫:实时接收数据的 didReceiveData_ 方法

在互联网技术领域,数据的获取和处理是至关重要的。尤其是对于音频内容的获取,实时性和效率是衡量一个爬虫性能的重要指标。本文将深入探讨在Objective-C中实现音频爬虫时,如何高效地使用didReceiveData:方法来实时接收数据,并通过…

Python轴承故障诊断 (15)基于CNN-Transformer的一维故障信号识别模型

往期精彩内容: Python-凯斯西储大学(CWRU)轴承数据解读与分类处理 Pytorch-LSTM轴承故障一维信号分类(一)-CSDN博客 Pytorch-CNN轴承故障一维信号分类(二)-CSDN博客 Pytorch-Transformer轴承故障一维信号分类(三)-CSDN博客 三十多个开源…

如何在 Elasticsearch Ruby 客户端中使用 ES|QL Helper

作者:来自 Elastic Fernando Briano 了解如何使用 Elasticsearch Ruby 客户端编写 ES|QL 查询并处理其结果。 简介 Elasticsearch Ruby 客户端可用于编写 EQ|QL 查询,使处理从 esql.query 返回的数据更加容易。ES|QL 允许开发人员通过查询过滤、转换和分…

【elkb】ELKB安装token过期

问题 elastic启动时候生成的token 有效期只有30分钟。 30分钟后提示: Couldnt configure Elastic Generate a new enrollment token or configure manually. 相关版本信息 elasticsearch:8.8.1kibana:8.8.1logstash:8.8.1file…

交易所开发:开启数字金融新时代

当今数字化高速发展的时代,交易所作为金融市场的核心枢纽,发挥着至关重要的作用。而随着区块链技术的兴起,数字货币交易所的开发更是为金融领域带来了全新的变革与机遇。 一、数字货币交易所的重要性 数字货币交易所是连接数字货币世界与传统…

企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门

本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统…

网上商城设计小程序ssm+论文源码调试讲解

2相关技术 2.1微信小程序 小程序是一种新的开放能力,开发者可以快速地开发一个小程序。小程序可以在微信内被便捷地获取和传播,同时具有出色的使用体验。尤其拥抱微信生态圈,让微信小程序更加的如虎添翼,发展迅猛。 2.2 MYSQL数据…

大贤3D家谱——让修家谱不再困难

修家谱作为一种文化传统,承载着家族的历史和文化记忆,但近年来确实面临一些困难,导致很多人不愿意修家谱。以下是一些主要原因: 1、信息获取难度: 家谱的修订需要大量的历史资料和族谱记录。许多家庭的老谱由于时间久…

Node + HTML搭建自己的ChatGPT [基础版]

文章目录 明明外面的ChatGPT产品那么多了,为什么要在本地搭建自己的ChatGPT呢?整体架构流程1. 获取APIKey1.1 常见的AI模型1.2 为什么选DeepSeek1.3 怎么获取DeepSeek的APIKey1.3.1 注册并登录DeepSeek开放平台1.3.2 选择API keys1.3.3 创建API key1.3.4…

【Linux学习】(8)第一个Linux编程进度条程序|git三板斧

前言 第一个Linux编程——进度条git的简单使用 一、第一个Linux编程——进度条 在写进度条之前我们需要两个基础知识: 回车换行缓冲区 1. 回车换行 首先我们需要知道回车换行它是两个概念,回车是回车,换行是换行换行:光标从上往下…

DEVOPS: 认证与调度

概述 不知道大家有没有意识到一个现实,就是大部分时候,我们已经不像以前一样通过命令行,或者可视窗口来使用一个系统了现在我们上微博、或者网购,操作的其实不是眼前这台设备,而是一个又一个集群 通常,这样…

MUX VLAN 实验配置

MUX VLAN(Multiplex VLAN)是一种高级的VLAN技术,通过在交换机上实现二层流量隔离和灵活的网络资源控制,提供了一种更为细致的网络管理方式 MUX VLAN通过定义主VLAN(Principal VLAN)和多个子VLAN&#xff0…