集群故障处理之处理思路以及健康状态检查(三十三)

640?wx_fmt=gif

前言               


按照笔者的教程,大家应该都能够比较顺畅的完成k8s集群的部署,不过由于环境、配置以及对Linux、k8s的不了解会导致很多问题、异常和故障,这里笔者分享一些处理技巧和思路,以及部分常见的问题,以供大家参考和学习。

总之,出现问题不要慌,先根据异常、故障症状初步推敲问题的所在,然后结合相关命令、工具、日志推敲出具体问题。其中,具体的日志内容是关键,请务必获得相关异常的详细日志进行诊断,而不是被表象所迷惑,或者根据表象问题(比如“XXXX”pod崩溃了)去猜、搜索或者请教他人。总体上,思路如下图所示:

640?wx_fmt=png

如果问题实在无法解决或者无法确定是哪里的配置以及操作不当引起的,可以试着重置节点以及重置集群。

如果出现问题,我们应该怎么去分析和解决问题呢?下面,笔者将分享一些思路和经验:


目录


健康状态检查——初诊

  • 组件、插件健康状态检查

  • Kubernetes 组件异常分析

  • 节点健康状态检查

  • Pod健康状态检查



健康状态检查——初诊


首先,我们需要根据表象进行初步诊断,以便沿着线索按图索骥。



组件、插件健康状态检查


使用命令:

kubectl get componentstatus

kubectl get cs

健康情况下如下图所示:

640

Kubernetes组件(插件)部分默认基于systemd运行,比如kubelet、docker等,我们需要使用以下命令确保其处于活动(active)状态:

systemctl status kubelet docker

640

而大部分的Kubernetes的组件则运行在命名空间为“kube-system”的静态Pod 之中(参见“kubeadm init”一节),我们可以使用以下命令来查看这些Pod 的状态:

kubectl get pods -o wide -n kube-system

640


Kubernetes 组件异常分析


k8s组件主要分为Master组件和节点组件,Master组件对集群做出全局性决策(比如调度), 以及检测和响应集群事件。如果Master组件出现问题,可能会导致集群不可访问,Kubernetes API 访问出错,各种控制器无法工作等等。而节点组件在每个节点上运行,维护运行的Pod并提供 Kubernetes运行时环境。如果节点组件出现问题,可能会导致该节点异常并且该节点Pod无法正常运行和结束。

因此,根据不同的组件,可能会出现不同的异常。

kube-apiserver对外暴露了Kubernetes API,如果kube-apiserver出现异常可能会导致:

  • 集群无法访问,无法注册新的节点

  • 资源(Deployment、Service等)无法创建、更新和删除

  • 现有的不依赖Kubernetes API的pods和services可以继续正常工作


etcd用于Kubernetes的后端存储,所有的集群数据都存在这里。保持稳定的etcd集群对于Kubernetes集群的稳定性至关重要。因此,我们需要在专用计算机或隔离环境上运行etcd集群以确保资源需求。当etcd出现异常时可能会导致:

  • kube-apiserver无法读写集群状态,apiserver无法启动

  • Kubernetes API访问出错

  • kubectl操作异常

  • kubelet无法访问apiserver,仅能继续运行已有的Pod

kube-controller-manager和kube-scheduler分别用于控制器管理和Pod 的调度,如果他们出现问题,则可能导致:

  • 相关控制器无法工作

  • 资源(Deployment、Service等)无法正常工作

  • 无法注册新的节点

  • Pod无法调度,一直处于Pending状态


kubelet是主要的节点代理,如果节点宕机(VM关机)或者kubelet出现异常(比如无法启动),那么可能会导致:

  • 该节点上的Pod无法正常运行,如果节点关机,则当前节点上所有Pod都将停止运行

  • 已运行的Pod无法伸缩,也无法正常终止

  • 无法启动新的Pod

  • 节点会标识为不健康状态

  • 副本控制器会在其它的节点上启动新的Pod

  • Kubelet有可能会删掉当前运行的Pod


CoreDNS(在1.11以及以上版本的Kubernetes中,CoreDNS是默认的DNS服务器)是k8s集群默认的DNS服务器,如果其出现问题则可能导致:

  • 无法注册新的节点

  • 集群网络出现问题

  • Pod无法解析域名


kube-proxy是Kubernetes在每个节点上运行网络代理。如果它出现了异常,则可能导致:

  • 该节点Pod通信异常


节点健康状态检


我们可以使用以下命令来检查节点状态:

kubectl get nodes

640

其中,“Ready”表示节点已就绪,为正常状态,反之则该节点出现异常。节点出现问题,则Pod无法无法调度到该节点。

Pod健康状态检查


如果是集群应用出现异常,我们需要检查相关Pod是否运行正常,可以使用以下命令:

kubectl get pods -o wide

640

如果存在命名空间,需要使用-n参数指定命名空间。如上图所示,Pod为“Running”状态才是正常。

如果Pod运行正常,但是又无法访问(集群内部、外部),这时,我们需要检查Service是否正常,可使用以下命令:

kubectl get svc -o wide

640


往期内容

Docker+ Kubernetes已成为云计算的主流(二十六)

容器化之后如何节省云端成本?(二十七)

了解Kubernetes主体架构(二十八)

使用Minikube部署本地Kubernetes集群(二十九)

使用kubectl管理k8s集群(三十)

使用Kubeadm创建k8s集群之部署规划(三十一)

使用Kubeadm创建k8s集群之节点部署(三十二)




640?wx_fmt=jpeg


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/314634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Educational Codeforces Round 32 G. Xor-MST 01tire + 分治 + Boruvka

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一个长度为nnn序列aaa&#xff0c;每两个点之间的边权为ai⊕aja_i\oplus a_jai​⊕aj​&#xff0c;问你最小生成树的权值是多少。 n≤2e5,ai<230n\le2e5,a_i< 2^{30}n≤2e5,ai​<230 思路&am…

Trie初步

简单的描述就是一个字典树&#xff0c; 我们用下图来简单描述一下。 上述的字典树代表着 ab abc abk cd ca b 这六个单词&#xff0c;我们不难发现其中标记是红色的代表从一个伪根节点到这是一个完整的单词。不同的单词有重复的部分&#xff0c;例如accepted&#xff0c;accep…

XXI Open Cup. Grand Prix of Korea I. Query On A Tree 17 树剖 + 二分 + 树带权重心

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一棵树&#xff0c;每棵树初始权值都为000&#xff0c;现在给你两个操作&#xff1a; (1)(1)(1)将uuu的子树权值全部加111。 (2)(2)(2)将(u,v)(u,v)(u,v)路径上的点权值都加111。 每次输出一个点xxx,满…

使用Kubeadm创建k8s集群之节点部署(三十二)

前言 由于上次忘开申明原创&#xff0c;特再发一次。本篇部署教程将讲述k8s集群的节点&#xff08;master和工作节点&#xff09;部署&#xff0c;请先按照上一篇教程完成节点的准备。本篇教程中的操作全部使用脚本完成&#xff0c;并且对于某些情况&#xff08;比如镜…

Trie:hdu 4825、1251、1247、Poj 3764

hdu 4825链接 题目意思很简单&#xff0c;就是要求最大异或值的数。 我们可以从二进制的最高位开始选择&#xff0c;不断的排除一些数。我们先假设存在某些数字的二进制数是与当前查找的数不一样的&#xff0c;我们进入这一部分数进行查找&#xff0c;以此重复&#xff0c;不断…

Codeforces Round #675 (Div. 2) F. Boring Queries 区间lcm + 主席树

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一个长度为nnn的序列aaa&#xff0c;qqq个询问&#xff0c;每次询问[l,r][l,r][l,r]内的lcmlcmlcm是多少&#xff0c;对1e971e971e97取模。 n≤1e5,a≤2e5,q≤1e5n\le1e5,a\le2e5,q\le1e5n≤1e5,a≤2e5,…

ASP.NET Core on K8S深入学习(2)部署过程解析与部署Dashboard

上一篇《K8S集群部署》中搭建好了一个最小化的K8S集群&#xff0c;这一篇我们来部署一个ASP.NET Core WebAPI项目来介绍一下整个部署过程的运行机制&#xff0c;然后部署一下Dashboard&#xff0c;完成可视化管理。本篇已加入了《.NET Core on K8S学习实践系列文章索引》&#…

字符Hash初步

兔子与兔子 很久很久以前&#xff0c;森林里住着一群兔子。 有一天&#xff0c;兔子们想要研究自己的 DNA 序列。 我们首先选取一个好长好长的 DNA 序列&#xff08;小兔子是外星生物&#xff0c;DNA 序列可能包含 26 个小写英文字母&#xff09;。 然后我们每次选择两个区间&…

02 | 健康之路 kubernetes(k8s) 实践之路 : 生产可用环境及验证

上一篇《 01 | 健康之路 kubernetes(k8s) 实践之路 : 开篇及概况 》我们介绍了我们的大体情况&#xff0c;也算迈出了第一步。今天我们主要介绍下我们生产可用的集群架设方案。涉及了整体拓补图&#xff0c;和我们采用的硬件配置&#xff0c;目前存在的问题等内容。遵循上一篇提…

NWERC 2018 C. Circuit Board Design 树 + 构造

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一颗nnn个点的树&#xff0c;让你在二维平面中构造一颗树&#xff0c;保证相邻点的距离正好为111&#xff0c;并且线段不能有相交&#xff0c;坐标绝对值≤3e3\le3e3≤3e3。 n≤1e3n\le1e3n≤1e3 思路&…

[开源] .NETCore websocket 即时通讯组件---ImCore

ImCore 是一款 .NETCore 下利用 WebSocket 实现的简易、高性能、集群即时通讯组件&#xff0c;支持点对点通讯、群聊通讯、上线下线事件消息等众多实用性功能。开源地址&#xff1a;https://github.com/2881099/im &#xff0c;求 star~~dotnet add package ImCoreIM服务端publ…

算法竞赛进阶指南——后缀数组

后缀数组 后缀数组 (SA) 是一种重要的数据结构&#xff0c;通常使用倍增或者DC3算法实现&#xff0c;这超出了我们的讨论范围。 在本题中&#xff0c;我们希望使用快排、Hash与二分实现一个简单的O(nlog2n)的后缀数组求法。 详细地说&#xff0c;给定一个长度为 n 的字符串S&a…

NWERC 2018 A. Access Points 二维转一维 + 单调栈

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你平面上nnn个点&#xff0c;你需要对于1−n1-n1−n依次选择nnn个点作为每个点的终点&#xff0c;满足选择的点i<j,xi≤xj,yi≤yji<j,x_i\le x_j,y_i\le y_ji<j,xi​≤xj​,yi​≤yj​&#xff0…

【译】在 Linux 上不安装 Mono 构建 .NET Framework 类库

在这篇文章中&#xff0c;我展示了如何在 Linux 上构建针对 .NET Framework 版本的.NET项目&#xff0c;而不使用 Mono。通用使用微软新发布的 Mocrosoft.NETFramework.ReferenceAssemblies NuGet 包&#xff0c;您将不需要安装除 .NET Core SDK 之外的任何其他软件包&#xff…

hdu 5023 线段树染色问题

题目链接 A Corrupt Mayor’s Performance Art Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 100000/100000 K (Java/Others) Total Submission(s): 4094 Accepted Submission(s): 1418 Problem Description Corrupt governors always find ways to get dirty money…

Codeforces Round #740 (Div. 2) D2. Up the Strip dp + 分块优化 + 逆向思维

传送门 文章目录题意&#xff1a;思路题意&#xff1a; 有nnn个细胞&#xff0c;你初始在第nnn细胞上&#xff0c;假设你当前在xxx处&#xff0c;你每次可以进行如下两个操作&#xff1a; (1)(1)(1)选择[1,x−1][1,x-1][1,x−1]内一个数yyy&#xff0c;跳到第x−yx-yx−y个细胞…

poj 2528 线段树离散化+染色

题目链接 Mayor’s posters Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 92628 Accepted: 26452 Description The citizens of Bytetown, AB, could not stand that the candidates in the mayoral election campaign have been placing their electoral pos…

Codeforces Round #740 (Div. 2) E. Bottom-Tier Reversals 构造

传送门 文章目录题意&#xff1a;思路&#xff1a;题意&#xff1a; 给你一个长度为奇数nnn的排列aaa&#xff0c;每次可以选择长度为奇数的前缀&#xff0c;并将[1,len][1,len][1,len]翻转&#xff0c;你需要用不超过5n2\frac{5n}{2}25n​次操作将其变成有序的&#xff0c;输…

DevOps书单:调研了101名专家,推荐这39本必读书籍

任何一个领域都遵循从新人到熟手&#xff0c;从熟手到专家的路径。在成长过程中&#xff0c;DevOps人经常会陷入没人带&#xff0c;没人管&#xff0c;找不到职业方向的迷茫。DevOps是在商业演进与企业协作的进化过程中诞生的一个全新职业&#xff0c;被很多人看成是一个“全栈…

模板:Prime最小生成树堆优化 + Dijkstra单源最短路堆优化

Dijkstra 单源最短路堆优化 #include<bits/stdc.h> using namespace std; typedef pair<int, int> PII; const int N 2e5 10; int head[N], to[N], value[N], nex[N], cnt 1; int n, m, rt, st, dis[N], visit[N]; struct cmp {bool operator()(PII a, PII b) …