K8S(七)—污点、容忍

目录

  • 污点、容忍
      • 污点(Taints):
      • 容忍(Tolerations):
      • 如何一起使用污点和容忍:
      • 操作符(Equal、Exists)
      • 例子
      • 基于污点的驱逐
      • 基于节点状态添加污点

污点、容忍

官网地址:https://kubernetes.io/zh-cn/docs/concepts/scheduling-eviction/taint-and-toleration/

Kubernetes(通常简称为K8s)是一个用于容器编排和管理的开源平台。在Kubernetes中,污点(Taints)和容忍(Tolerations)是用于控制Pod调度的重要概念,它们允许您指定哪些节点可以接受哪些Pod。以下是有关污点和容忍的详细解释:

污点(Taints):

  1. 什么是污点
    污点是一种节点级别的属性,它告诉Kubernetes哪些节点不适合运行特定类型的Pod。节点上的污点可以阻止Pod被调度到不适合的节点上。

  2. 如何定义污点
    污点由节点的管理员定义,它们是键值对的形式,包括:

    • key:污点的名称,通常是一个字符串。
    • value:污点的值,通常为空字符串。
    • effect:污点的效果,可以是NoSchedulePreferNoScheduleNoExecute
      • NoSchedule:Pod将不会被调度到带有该污点的节点上。
      • PreferNoSchedule:Kubernetes会尽量避免将Pod调度到带有该污点的节点上,但如果没有其他可用节点,仍然可以调度。
      • NoExecute:对于已经运行在该节点上的Pod,如果它们不符合污点的要求,将被驱逐。

    设置污点

    [root@k8smaster taint_toleration]# kubectl describe node k8snode1|grep -i NoExecute
    Taints:             cf=tencent:NoExecute

取消污点

[root@k8smaster taint_toleration]# kubectl taint node k8snode1 cf=tencent:NoExecute-node/k8snode1 untainted
[root@k8smaster taint_toleration]# kubectl describe node k8snode1|grep -i NoExecute
[root@k8smaster taint_toleration]# 

容忍(Tolerations):

  1. 什么是容忍
    容忍是Pod级别的属性,它告诉Kubernetes该Pod可以容忍哪些节点上的污点。容忍允许Pod被调度到具有特定污点的节点上。

  2. 如何定义容忍
    容忍是在Pod的规范(Spec)中定义的,包括:

    • key:与污点的key匹配。
    • value:与污点的value匹配。
    • operator:匹配操作符,可以是Equal(等于)、Exists(存在)等。
    • effect:与污点的effect匹配。
  3. 示例
    假设您有一个Pod,它希望容忍名为gpu的污点,您可以使用以下方式定义容忍:

    tolerations:
    - key: gpuoperator: Equalvalue: nvidiaeffect: NoSchedule
    

如何一起使用污点和容忍:

  • 通过在节点上定义污点,您可以将一组节点标记为特定类型(例如GPU节点),然后通过在Pod规范中定义容忍,您可以确保只有需要GPU的Pod才会被调度到这些节点上。

  • 污点和容忍的结合可以为您提供更高的灵活性,以满足特定的部署需求。您可以根据需要在节点和Pod级别上定义多个污点和容忍。

总之,污点和容忍是Kubernetes中用于控制Pod调度的强大机制,它们使得您可以更精确地管理Pod在集群中的位置,以满足特定的硬件或软件要求。这对于在多样化的硬件和环境条件下运行容器化应用程序非常有用。

操作符(Equal、Exists)

你可以在 Pod 规约中为 Pod 设置容忍度。 下面两个容忍度均与上面例子中使用 kubectl taint 命令创建的污点相匹配, 因此如果一个 Pod 拥有其中的任何一个容忍度,都能够被调度到 node1

tolerations:
- key: "key1"operator: "Equal"value: "value1"effect: "NoSchedule"
tolerations:
- key: "key1"operator: "Exists"effect: "NoSchedule"

这里是一个使用了容忍度的 Pod:

pods/pod-with-toleration.yaml

apiVersion: v1
kind: Pod
metadata:name: nginxlabels:env: test
spec:containers:- name: nginximage: nginximagePullPolicy: IfNotPresenttolerations:- key: "example-key"operator: "Exists"effect: "NoSchedule"

operator 的默认值是 Equal

一个容忍度和一个污点相“匹配”是指它们有一样的键名和效果,并且:

  • 如果 operatorExists(此时容忍度不能指定 value),或者
  • 如果 operatorEqual,则它们的 value 应该相等。

说明:

存在两种特殊情况:

如果一个容忍度的 key 为空且 operatorExists, 表示这个容忍度与任意的 key、value 和 effect 都匹配,即这个容忍度能容忍任何污点。

如果 effect 为空,则可以与所有键名 key1 的效果相匹配。

下面的例子表示任何污点都可以接受

tolerations:- key:""operator: "Exists"value:""effect:"" 

上述例子中 effect 使用的值为 NoSchedule,你也可以使用另外一个值 PreferNoSchedule。 这是“优化”或“软”版本的 NoSchedule —— 系统会 尽量 避免将 Pod 调度到存在其不能容忍污点的节点上, 但这不是强制的。effect 的值还可以设置为 NoExecute,下文会详细描述这个值。

你可以给一个节点添加多个污点,也可以给一个 Pod 添加多个容忍度设置。 Kubernetes 处理多个污点和容忍度的过程就像一个过滤器:从一个节点的所有污点开始遍历, 过滤掉那些 Pod 中存在与之相匹配的容忍度的污点。余下未被过滤的污点的 effect 值决定了 Pod 是否会被分配到该节点。需要注意以下情况:

  • 如果未被忽略的污点中存在至少一个 effect 值为 NoSchedule 的污点, 则 Kubernetes 不会将 Pod 调度到该节点。
  • 如果未被忽略的污点中不存在 effect 值为 NoSchedule 的污点, 但是存在至少一个 effect 值为 PreferNoSchedule 的污点, 则 Kubernetes 会 尝试 不将 Pod 调度到该节点。
  • 如果未被忽略的污点中存在至少一个 effect 值为 NoExecute 的污点, 则 Kubernetes 不会将 Pod 调度到该节点(如果 Pod 还未在节点上运行), 并且会将 Pod 从该节点驱逐(如果 Pod 已经在节点上运行)。

例如,假设你给一个节点添加了如下污点:

kubectl taint nodes node1 key1=value1:NoSchedule
kubectl taint nodes node1 key1=value1:NoExecute
kubectl taint nodes node1 key2=value2:NoSchedule

假定某个 Pod 有两个容忍度:

tolerations:
- key: "key1"operator: "Equal"value: "value1"effect: "NoSchedule"
- key: "key1"operator: "Equal"value: "value1"effect: "NoExecute"

在这种情况下,上述 Pod 不会被调度到上述节点,因为其没有容忍度和第三个污点相匹配。 但是如果在给节点添加上述污点之前,该 Pod 已经在上述节点运行, 那么它还可以继续运行在该节点上,因为第三个污点是三个污点中唯一不能被这个 Pod 容忍的。

通常情况下,如果给一个节点添加了一个 effect 值为 NoExecute 的污点, 则任何不能忍受这个污点的 Pod 都会马上被驱逐,任何可以忍受这个污点的 Pod 都不会被驱逐。 但是,如果 Pod 存在一个 effect 值为 NoExecute 的容忍度指定了可选属性 tolerationSeconds 的值,则表示在给节点添加了上述污点之后, Pod 还能继续在节点上运行的时间。例如,

tolerations:
- key: "key1"operator: "Equal"value: "value1"effect: "NoExecute"tolerationSeconds: 3600

这表示如果这个 Pod 正在运行,同时一个匹配的污点被添加到其所在的节点, 那么 Pod 还将继续在节点上运行 3600 秒,然后被驱逐。 如果在此之前上述污点被删除了,则 Pod 不会被驱逐。

例子

使用yaml启动pod

[root@k8smaster taint_toleration]# cat pod.yaml 
apiVersion: v1
kind: Pod
metadata:name: demo-podnamespace: defaultlabels:app: myappenv: dev
spec:nodeName: k8snode1containers:- name: busyboximage: busybox:latestimagePullPolicy: IfNotPresentcommand:- "/bin/sh"- "-c"- "sleep 3600"

此时,k8snode1和k8snode2都没有污点,都可以正常被调度,但是在yaml文件在指定了要运行在那个节点上。

[root@k8smaster taint_toleration]# kubectl get pod -o wide
NAME                                READY   STATUS    RESTARTS   AGE    IP               NODE       NOMINATED NODE   READINESS GATES
demo-pod                            1/1     Running   0          20s    10.244.249.24    k8snode1   <none>           <none>
nginx-deployment-559d658b74-75fpp   1/1     Running   0          100m   10.244.249.21    k8snode1   <none>           <none>
nginx-deployment-559d658b74-j6rdd   1/1     Running   0          101m   10.244.249.20    k8snode1   <none>           <none>
nginx-deployment-559d658b74-kh8jb   1/1     Running   0          101m   10.244.185.250   k8snode2   <none>           <none>

设置污点

[root@k8smaster taint_toleration]# kubectl describe node k8smaster|grep -i taint
Taints:             node-role.kubernetes.io/master:NoSchedule
[root@k8smaster taint_toleration]# kubectl  taint nodes k8snode1 cf=tencent:NoExecutenode/k8snode1 tainted[root@k8smaster taint_toleration]# kubectl describe node k8snode1|grep -i taint 
Taints:             cf=tencent:NoExecute

demo-pod 会停止运行

[root@k8smaster taint_toleration]# cat pod.yaml 
apiVersion: v1
kind: Pod
metadata:name: demo-podnamespace: defaultlabels:app: myappenv: dev
spec:nodeName: k8snode1containers:- name: busyboximage: busybox:latestimagePullPolicy: IfNotPresentcommand:- "/bin/sh"- "-c"- "sleep 3600"tolerations:- key: "cf"operator: "Equal"value: "tencent"effect: "NoExecute"

将ymal文件进行修改,将容忍度也设置为k8snode1可以接受的程度,如下:

  tolerations:- key: "cf"operator: "Equal"value: "tencent"effect: "NoExecute"

可以看到demo-pod 重新运行了

[root@k8smaster taint_toleration]# kubectl get pod -o wide
NAME                                READY   STATUS    RESTARTS   AGE   IP              NODE       NOMINATED NODE   READINESS GATES
demo-pod                            1/1     Running   0          13h   10.244.249.25   k8snode1   <none>           <none>

基于污点的驱逐

特性状态: Kubernetes v1.18 [stable]

前文提到过污点的效果值 NoExecute 会影响已经在节点上运行的如下 Pod:

  • 如果 Pod 不能忍受这类污点,Pod 会马上被驱逐。
  • 如果 Pod 能够忍受这类污点,但是在容忍度定义中没有指定 tolerationSeconds, 则 Pod 还会一直在这个节点上运行。
  • 如果 Pod 能够忍受这类污点,而且指定了 tolerationSeconds, 则 Pod 还能在这个节点上继续运行这个指定的时间长度。

当某种条件为真时,节点控制器会自动给节点添加一个污点。当前内置的污点包括:

  • node.kubernetes.io/not-ready:节点未准备好。这相当于节点状况 Ready 的值为 “False”。
  • node.kubernetes.io/unreachable:节点控制器访问不到节点. 这相当于节点状况 Ready 的值为 “Unknown”。
  • node.kubernetes.io/memory-pressure:节点存在内存压力。
  • node.kubernetes.io/disk-pressure:节点存在磁盘压力。
  • node.kubernetes.io/pid-pressure: 节点的 PID 压力。
  • node.kubernetes.io/network-unavailable:节点网络不可用。
  • node.kubernetes.io/unschedulable: 节点不可调度。
  • node.cloudprovider.kubernetes.io/uninitialized:如果 kubelet 启动时指定了一个“外部”云平台驱动, 它将给当前节点添加一个污点将其标志为不可用。在 cloud-controller-manager 的一个控制器初始化这个节点后,kubelet 将删除这个污点。

在节点被排空时,节点控制器或者 kubelet 会添加带有 NoExecute 效果的相关污点。 如果异常状态恢复正常,kubelet 或节点控制器能够移除相关的污点。

在某些情况下,当节点不可达时,API 服务器无法与节点上的 kubelet 进行通信。 在与 API 服务器的通信被重新建立之前,删除 Pod 的决定无法传递到 kubelet。 同时,被调度进行删除的那些 Pod 可能会继续运行在分区后的节点上。

说明:

控制面会限制向节点添加新污点的速率。这一速率限制可以管理多个节点同时不可达时 (例如出现网络中断的情况),可能触发的驱逐的数量。

你可以为 Pod 设置 tolerationSeconds,以指定当节点失效或者不响应时, Pod 维系与该节点间绑定关系的时长。

比如,你可能希望在出现网络分裂事件时,对于一个与节点本地状态有着深度绑定的应用而言, 仍然停留在当前节点上运行一段较长的时间,以等待网络恢复以避免被驱逐。 你为这种 Pod 所设置的容忍度看起来可能是这样:

tolerations:
- key: "node.kubernetes.io/unreachable"operator: "Exists"effect: "NoExecute"tolerationSeconds: 6000

说明:

Kubernetes 会自动给 Pod 添加针对 node.kubernetes.io/not-readynode.kubernetes.io/unreachable 的容忍度,且配置 tolerationSeconds=300, 除非用户自身或者某控制器显式设置此容忍度。

这些自动添加的容忍度意味着 Pod 可以在检测到对应的问题之一时,在 5 分钟内保持绑定在该节点上。

DaemonSet 中的 Pod 被创建时, 针对以下污点自动添加的 NoExecute 的容忍度将不会指定 tolerationSeconds

  • node.kubernetes.io/unreachable
  • node.kubernetes.io/not-ready

这保证了出现上述问题时 DaemonSet 中的 Pod 永远不会被驱逐。

基于节点状态添加污点

控制平面使用节点控制器自动创建 与节点状况 对应的、效果为 NoSchedule 的污点。

调度器在进行调度时检查污点,而不是检查节点状况。这确保节点状况不会直接影响调度。 例如,如果 DiskPressure 节点状况处于活跃状态,则控制平面添加 node.kubernetes.io/disk-pressure 污点并且不会调度新的 Pod 到受影响的节点。 如果 MemoryPressure 节点状况处于活跃状态,则控制平面添加 node.kubernetes.io/memory-pressure 污点。

对于新创建的 Pod,可以通过添加相应的 Pod 容忍度来忽略节点状况。 控制平面还在具有除 BestEffort 之外的 QoS 类的 Pod 上添加 node.kubernetes.io/memory-pressure 容忍度。 这是因为 Kubernetes 将 GuaranteedBurstable QoS 类中的 Pod(甚至没有设置内存请求的 Pod) 视为能够应对内存压力,而新创建的 BestEffort Pod 不会被调度到受影响的节点上。

DaemonSet 控制器自动为所有守护进程添加如下 NoSchedule 容忍度,以防 DaemonSet 崩溃:

  • node.kubernetes.io/memory-pressure
  • node.kubernetes.io/disk-pressure
  • node.kubernetes.io/pid-pressure (1.14 或更高版本)
  • node.kubernetes.io/unschedulable (1.10 或更高版本)
  • node.kubernetes.io/network-unavailable (只适合主机网络配置)

添加上述容忍度确保了向后兼容,你也可以选择自由向 DaemonSet 添加容忍度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/219732.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大数据】详解 AVRO 格式

详解 AVRO 格式 1.Avro 介绍2.schema2.1 原始类型2.2 复杂类型2.2.1 Records2.2.2 Enums2.2.3 Arrays2.2.4 Maps2.2.5 Unions2.2.6 Fixed 3.Avro 的文件存储格式3.1 数据编码3.1.1 原始类型3.1.2 复杂类型 3.2 存储格式3.3 存储格式 4.小结 1.Avro 介绍 Apache Avro 是 Hadoop…

three.js(一)

文章目录 three.js环境搭建正文补充 示例效果知识点补充1:一个标准的html知识点补充2:原生的前端框架和Vue框架的区别原生的前端框架Vue框架声明式编程和响应式编程 three.js环境搭建 正文 搭建 Three.js 的环境通常包括以下几个步骤&#xff1a; 1.创建项目目录&#xff1a…

Spark读写MySQL数据库

Spark读写MySQL数据库 文章目录 Spark读写MySQL数据库一、读取数据库&#xff08;一&#xff09;通过RDD的方式读取MySQL数据库&#xff08;二&#xff09;通过DataFrame的方式读取MySQL数据库 二、添加数据到MySQL&#xff08;一&#xff09;通过RDD的方式插入数据到MySQL&…

初级数据结构(三)——栈

文中代码源文件已上传&#xff1a;数据结构源码 <-上一篇 初级数据结构&#xff08;二&#xff09;——链表 | 初级数据结构&#xff08;四&#xff09;——队列 下一篇-> 1、栈的特性 1.1、函数栈帧简述 即使是刚入门几天的小白&#xff0c;对栈这个字…

基于YOLOv8深度学习的吸烟/抽烟行为检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源&#xff0c;可关注公-仲-hao:【阿旭算法与机器学习】&#xff0c;共同学习交流~ &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推…

基于SSM实现的精品课程网站

一、系统架构 前端&#xff1a;jsp | js | css | jquery | bootstrap 后端&#xff1a;spring | springmvc | mybatis 环境&#xff1a;jdk1.7 | mysql | maven | tomcat 二、代码及数据库 三、功能介绍 01. 登录页 02. web端-首页 03. web端-视频教程 04. web端-资料…

RK3568全国产化多网口板卡带poe供电,支持鸿蒙麒麟系统

信迈XM-3568-01主板采用瑞芯微RK3568四核Cortex-A55 处理器&#xff0c;主频最高可达2.0GHz&#xff0c;效能有大幅提升最高可配8GB内存容量&#xff0c;频率高达1600MHz&#xff1b;支持全链路ECC&#xff0c;让数据更安全可靠配置双千兆自适应RJ45以太网口&#xff0c;并扩展…

Unity | Shader基础知识(第三集:案例<对材质颜色进行干预>)

一、本节介绍 上一集&#xff0c;我们学到&#xff0c;shader的语法格式&#xff0c;这一集&#xff0c;我们要学习第二简单的shader案例&#xff0c;对shader颜色的简单干预。 二、理论介绍 1.获取位置信息 Unity | Shader基础知识&#xff08;什么是shader&#xff09;_u…

stm32---串口使用

### 串口数据发送 #include <string.h> //先引用这个字符串操作库。char str[]" HALLO WORD "&#xff1b; //定义这个数组字符串。HAL_UART_Transmit(&huart2, str, strlen(str), 100); //&huart2,这里他是一个指针&#xff0c;所以要用取地址符…

使用python的socketserver使服务器支持多客户端访问

1 背景 近期在做机器人集群的分布式控制&#xff0c;涉及到了机器人之间的交流工作&#xff0c;其中&#xff0c;每一台机器人都需要与多个机器人进行交流。 考虑使用python的socket来做&#xff0c;但简单测试了一下&#xff0c;socket模块不能方便的实现一个服务器与多客户…

C_9练习题答案

一、单项选择题(本大题共20小题,每小题2分,共40分。在每小题给出的四个备选项中,选出一个正确的答案,并将所选项前的字母填写在答题纸的相应位置上。) C语言程序中,要使用数学库函数(例sqrt、sin等),需要在程序最前面加上包含文件的预处理命令&#xff08;C)。 A. #include &l…

java内部类的使用

什么是内部类&#xff1a;在一个类的内部定义的类称为内部类 为什么用内部类&#xff1a;完成某些功能只在某个具体的外部类中使用&#xff0c;其他地方不需要再使用&#xff0c;这是可以将此功能定义在一个内部类中&#xff0c;而不需要单独创建一个类。 用内部类的好处在内…

在WPF窗口中增加水印效果

** 原理&#xff1a; ** 以Canvas作为水印显示载体&#xff0c;在Canvas中创建若干个TextBlock控件用来显示水印文案&#xff0c;如下图所示 然后以每一个TextBlock的左上角为中心旋转-30&#xff0c;最终效果会是如图红线所示&#xff1a; 为了达到第一行旋转后刚好与窗口…

日常记录软件操作

webstorm下载集成码云步骤 1&#xff1a;file>>>settings>>plugins &#xff0c;在marketplace&#xff0c;下载gitee&#xff1b; 2&#xff1a;重启编辑器 3&#xff1a;file>>>settings>>>version control >>> gitee ,添加对应用…

App防止恶意截屏功能的方法:iOS、Android和鸿蒙系统的实现方案

防止应用被截图是一个比较常见的需求&#xff0c;主要是出于安全考虑。下面将分别为iOS&#xff08;苹果系统&#xff09;、Android&#xff08;安卓系统&#xff09;及HarmonyOS&#xff08;鸿蒙系统&#xff09;提供防止截屏的方法和示例代码。 在企业内部使用的应用中&…

物联网架构之CDH

1、常规初始化操作 三个节点都需要执行 hostnamectl set-hostname cdhmaster yum -y install vim lrzsz net-tools cat >>/etc/hosts<<EOF 192.168.180.210 cdhmaster 192.168.180.200 cdhslave01 192.168.180.190 cdhslave02 EOF systemctl stop firewalld.s…

深入解析Freemarker模板引擎及其在Spring Boot中的高级整合

目录 引言1. Freemarker1.1.什么是Freemarker1.2 Freemarker模板组成部分1.3.优点 2. Spring Boot整合Freemarker2.1 配置2.2 数据类型 3. 案例总结 引言 Freemarker作为一款强大的模板引擎&#xff0c;与Spring Boot的整合能够极大地提升Web应用的开发效率和灵活性。本篇博客…

Java面试题(每天10题)-------连载(47)

目录 Mybatis篇 1、#{}和${}的区别 2、通常一个Xml映射文件&#xff0c;都会写一个Dao接口与之对应&#xff0c;那么这个Dao接口的工作原理是什么&#xff1f;Dao接口中的方法&#xff0c;参数不同时&#xff0c;方法能重载吗&#xff1f; 3、Mybatis是如何让进行分页的&am…

探索 Vim:一个强大的文本编辑器

引言&#xff1a; Vim&#xff08;Vi IMproved&#xff09;是一款备受推崇的文本编辑器&#xff0c;拥有强大的功能和高度可定制性&#xff0c;提供丰富的编辑和编程体验。本文将探讨 Vim 的基本概念、使用技巧以及为用户带来的独特优势。 简介和发展 1. Vim 的简介和历史 V…

axios全局封装取消请求,你可以创建一个 Axios 实例,并为该实例配置默认的 CancelToken

import axios from axios; // Axios 的 CancelToken const CancelToken axios.CancelToken; // 创建一个 Axios 实例 const instance axios.create(); // 用于存储所有的 cancel 函数 const pendingRequests new Set(); // 添加请求配置 instance.interceptors.…