k8s集群部分常见问题处理

640?wx_fmt=gif

目录

部分常见问题处理

  • Coredns CrashLoopBackOff 导致无法成功添加工作节点的问题

  • 添加工作节点时提示token过期

  • kubectl 执行命令报“The connection to the server localhost:8080 was refused”

  • 网络组件flannel无法完成初始化

  • 部分节点无法启动pod

最后

部分常见问题处理

结合我们上篇文章(链接:集群故障处理之处理思路以及听诊三板斧(三十四))的处理思路和手段,接下来我们就进行一些实践讲解。

Coredns CrashLoopBackOff 导致无法成功添加工作节点的问题

k8s集群安装完成之后,当我们添加工作节点时,可能会在长久的等待之中而无任何进展,这时可以使用以下命令来查看k8s各个服务的状态:

kubectl get pods -n kube-system -o wide

640

初步诊断容器崩溃,我们需要进一步查看日志,使用“kubectl logs”:

kubectl log -f coredns-5c98db65d4-8wt9z -n kube-system

这次我们获得了以下具体错误:

github.com/coredns/coredns/plugin/kubernetes/controller.go:322: Failed to list *v1.Namespace: Get https://10.96.0.1:443/api/v1/namespaces?limit=500&resourceVersion=0: dial tcp 10.96.0.1:443: connect: no route to host

解决方案:

这问题很有可能是防火墙(iptables)规则错乱或者缓存导致的,可以依次执行以下命令进行解决:

systemctl stop kubelet	
systemctl stop docker	
iptables --flush	
iptables -tnat --flush	
systemctl start kubelet	
systemctl start docker

添加工作节点时提示token过期

集群注册token的有效时间为24小时,如果集群创建完成后没有及时添加工作节点,那么我们需要重新生成token。相关命令如下所示:

#生成token	
kubeadm token generate	
#根据token输出添加命令	
kubeadm token create <token> --print-join-command --ttl=0

640

然后仅需复制打印出来的命令到工作节点执行即可。

kubectl 执行命令报“The connection to the server localhost:8080 was refused”

作为集群管理的核心,工作节点上的kubectl可能一上来就跪了,如下图所示:

640

出现这个问题的原因是kubectl命令需要使用kubernetes-admin的身份来运行,在“kubeadm int”启动集群的步骤中就生成了“/etc/kubernetes/admin.conf”。

因此,解决方法如下,将主节点中的【/etc/kubernetes/admin.conf】文件拷贝到工作节点相同目录下:

#复制admin.conf,请在主节点服务器上执行此命令	
scp /etc/kubernetes/admin.conf 172.16.2.202:/etc/kubernetes/admin.conf	
scp /etc/kubernetes/admin.conf 172.16.2.203:/etc/kubernetes/admin.conf

640

然后分别在工作节点上配置环境变量:

#设置kubeconfig文件	
export KUBECONFIG=/etc/kubernetes/admin.conf	
echo "export KUBECONFIG=/etc/kubernetes/admin.conf" >> ~/.bash_profile

接下来,工作节点就正常了,如:

640

网络组件flannel无法完成初始化

网络组件flannel安装完成后,通过命令查看时一直在初始化状态,并且通过日志输出内容如下所示:

kubectl get pods -n kube-system -o wide	
kubectl logs -f kube-flannel-ds-amd64-hl89n -n kube-system

640

具体错误日志为:

Error from server: Get https://172.16.2.203:10250/containerLogs/kube-system/kube-flannel-ds-amd64-hl89n/kube-flannel?follow=true: dial tcp 172.16.2.203:10250: connect: no route to host

这时,我们可以登录节点所在的服务器,使用以下命令来查看目标节点上的kubelet日志:

journalctl -u kubelet -f

注意:journalctl工具可以查看所有日志,包括内核日志和应用日志。

640

通过日志,我们发现是镜像拉取的问题。对此,大家可以参考上文中镜像拉取的方式以及重命名镜像标签来解决此问题,当然也可以通过设置代理来解决此问题。

部分节点无法启动pod

有时候,我们部署了应用之后,发现在部分工作节点上pod无法启动(一直处于ContainerCreating的状态):

640

通过排查日志最终我们得到重要信息如下所示:

NetworkPlugin cni failed to set up pod "demo-deployment-675b5f9477-hdcwg_default" network: failed to set bridge addr: "cni0" already has an IP address different from 10.0.2.1/24

这是由于当前节点之前被反复注册,导致flannel网络出现问题。可以依次执行以下脚本来重置节点并且删除flannel网络来解决:

kubeadm reset    #重置节点	
systemctl stop kubelet && systemctl stop docker && rm -rf /var/lib/cni/ && rm -rf /var/lib/kubelet/* && rm -rf /var/lib/etcd && rm -rf /etc/cni/ && ifconfig cni0 down && ifconfig flannel.1 down && ifconfig docker0 down && ip link delete cni0 && ip link delete flannel.1	
systemctl start docker

执行完成后,重新生成token并注册节点即可,具体可以参考上文内容。

最后

在k8s集群的部署过程中或者过后,大家可能会遇到很多问题。这也是本地部署k8s集群遇到的最大的挑战质疑,因此本篇笔者讲述了问题处理思路和常见错误,希望能够给予大家帮助。

如果通过详细异常和和日志还是无法推断出具体错误,建议大家可以根据具体信息在“https://stackoverflow.com”网站上进行搜索,也可以在相关社交网站(比如github)和群里请教,不过请教前,请给出你的诊断步骤和详细的错误日志。



往期内容


Docker+ Kubernetes已成为云计算的主流(二十六)

容器化之后如何节省云端成本?(二十七)

了解Kubernetes主体架构(二十八)

使用Minikube部署本地Kubernetes集群(二十九)

使用kubectl管理k8s集群(三十)

使用Kubeadm创建k8s集群之部署规划(三十一)

使用Kubeadm创建k8s集群之节点部署(三十二)

集群故障处理之处理思路以及健康状态检查(三十三)

集群故障处理之处理思路以及听诊三板斧(三十四)

640?wx_fmt=png

640?wx_fmt=jpeg


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/314392.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hyper-V + CentOS7 网络设置(视频教程)

Hyper-V Centos7 网络设置 本文目标:1、 设置虚拟机固定IP:无论物理机的网络环境怎么变化,都需要保持虚拟机的IP地址不变,保证本机使用xshell等终端访问始终用同一个IP地址2、物理机可访问虚拟机,虚拟机是否可访问网络…

P1829 [国家集训队]Crash的数字表格(推了好久的mobius反演)

P1829 [国家集训队]Crash的数字表格 / JZPTAB 推导过程 ∑i1n∑j1mlcm(i,j)\sum_{i 1} ^{n} \sum_{j 1} ^{m} lcm(i, j)i1∑n​j1∑m​lcm(i,j) ∑i1n∑j1mijgcd(i,j) \sum_{i 1} ^{n} \sum_{j 1} ^{m} \frac{ij}{gcd(i, j)}i1∑n​j1∑m​gcd(i,j)ij​ ∑d1n1d∑i1n∑jmi…

Consul的反熵

熵熵是衡量某个体系中事物混乱程度的一个指标,是从热力学第二定律借鉴过来的。熵增原理孤立系统的熵永不自动减少,熵在可逆过程中不变,在不可逆过程中增加。熵增加原理是热力学第二定律的又一种表述,它更为概括地指出了不可逆过程…

HDU 6833 A Very Easy Math Problem

A Very Easy Math Problem 推式子 ∑ai1n∑a21n⋯∑ax1n(∏j1xajk)f(gcd(a1,a2,…,ax))gcd(a1,a2,…,ax)\sum_{a_i 1} ^{n} \sum_{a_2 1} ^{n} \dots \sum_{a_x 1} ^{n} \left(\prod_{j 1} ^{x} a_j ^ k \right)f(gcd(a_1, a_2, \dots, a_x))\times gcd(a_1, a_2, \dots, …

通过Blazor使用C#开发SPA单页面应用程序(2)

今天我们尝试创建一个默认的Blazor应用。.Net Core 3.0需要Visual Studio 2019 的支持。安装.Net Core 3.0 预览版 SDK版本,注意预览版对应的VS版本,我这里安装的是v3.0.0-preview6。一定要开启预览选项才能使用Net Core Preview,在工具> …

通过Blazor使用C#开发SPA单页面应用程序(1)

2019年9月23——25日 .NET Core 3.0即将在.NET Conf上发布! .NET Core的发布及成熟重燃了.net程序员的热情和希望,一些.net大咖也在积极的为推动.NET Core而不懈的努力。在这次.NET Core 3.0中一项新的技术也首次出现在人们的视野,这就是Blazor。说起Bla…

luogu P6178 【模板】Matrix-Tree 定理

luogu P6178 【模板】Matrix-Tree 定理 1.无向图 假设现在给定一个图 G。 度数矩阵D:若存在边$ (x,y,z)(x,y,z)$ ,则 D[x][x]z;D[y][y]z;D[x][x]z;D[y][y]zD[x][x]z;D[y][y]z;D[x][x]z;D[y][y]zD[x][x]z;D[y][y]z;D[x][x]z;D[y][y]z; 邻接矩阵C:若存在边 (x,y,z)(x,y,z)(x,…

基于 WPF 模块化架构下的本地化设计实践

背景描述最近接到一个需求,就是要求我们的 WPF 客户端具备本地化功能,实现中英文多语言界面。刚开始接到这个需求,其实我内心是拒绝的的,但是没办法,需求是永无止境的。所以只能想办法解决这个问题。首先有必要说一下我…

HDU 6836 Expectation(矩阵生成树 + 期望)

Expectation 思路 题目要求每个生成树边权&\&&的期望值,假设当前这颗生成树对二进制数的第iii位有贡献,则这个位上的构成生成树的边权值一定是111,所以我们可以跑313131位二进制数的,矩阵树,每个位上的贡…

你会轻易打破规则吗?

这里是Z哥的个人公众号每周五11:45 按时送达当然了,也会时不时加个餐~我的第「86」篇原创敬上俗话说的好,不以规矩,不成方圆。但是有些时候,可能破坏规则反而是一个更有效的方式,这个时候到底该…

string(STL)

string 优点 常数相对较小,动态分配空间,自定义小于运算符和加法运算符。 转char 可以写成c_str()返回为char指针 获取长度 s.size()和s.lenth() 寻找某字符串第一次出现位置 s.find(t) 截取子串 s.substr(pos,len)长度不足则截取后缀。 访问…

P4449 于神之怒加强版

P4449 于神之怒加强版 推式子 ∑i1n∑j1ngcd(i,j)h\sum_{i 1} ^{n} \sum_{j 1} ^{n} gcd(i, j) ^ h i1∑n​j1∑n​gcd(i,j)h ∑d1ndh∑i1nd∑j1mdgcd(i,j)1\sum_{d 1} ^{n} d ^ h \sum_{i 1} ^{\frac{n}{d}} \sum_{j 1} ^{\frac{m}{d}}gcd(i, j) 1 d1∑n​dhi1∑dn​​…

架构杂谈《十》

常用开发模式一、瀑布式开发瀑布式开发是在1970年提出的软件开发模型,是一种较老的计算机软件开发模式,也是典型的预见性的开发模式,在瀑布式开发中,开发严格遵循预先计划的需求分析、设计、编码、集成、测试、维护的步骤进行&…

B-Donut Drone(循环/分块/DP)

B - Donut Drone 这是一道神题,其中蕴含的思维很巧妙。 在一个循环的二维矩阵中,每个点有一个权值,然后每次一个点只能向右上、正右和右下三个地方中权值最大的地方移动,要求支持两类操作,一种是移动k次,一…

[2020多校A层11.18] 三角田地(因式分解)

[2020多校A层11.18] 三角田地 对于平面上一些点&#xff0c;求解所有与含有边与x轴平行和与y轴平行的三角形面积和 n<100000 显然我们可以讨论每个直角顶点的贡献&#xff0c;然后本质上就是一个经典的数学问题&#xff0c;我们只要求出两个方向上的分量和&#xff0c;然后…

斗地主(矩阵快速幂)

地斗主 思路 看到这nnn非常大&#xff0c;感觉一定是个结论公式题&#xff0c;但是感觉又不像是排列组合&#xff0c;于是可以考虑矩阵快速幂了&#xff0c;所以关键就是得得到递推公式了。 我们将棋盘分成两部分n−num,numn - num, numn−num,num我们假定显然对num1,2,3,4,…

如何删除GIT仓库中的敏感信息

1. 前言正常Git仓库中应该尽量不包含数据库连接/AWS帐号/巨大二进制文件&#xff0c;否则一旦泄漏到Github&#xff0c;这些非常敏感信息会影响客户的信息安全已经公司的信誉。公司可能其它还有相关规定&#xff0c;如禁止私人邮件加入GIT仓库。如果违反这些规定&#xff0c;可…

CF896E Welcome home, Chtholly(分块/并查集/第二分块)

CF896E Welcome home, Chtholly 对于给定一个长度为n(n<1e5)的序列&#xff0c;值域范围为1e5,要求支持两类操作。 将区间[l,r]内所有大于x的数减x查询区间[l,r]内值为x的数的个数 首先由于n和值域同阶&#xff0c;所以我们应该在值域上进行操作&#xff0c;但是这个东西…

ASP.NET Core on K8S深入学习(4)你必须知道的Service

本篇已加入《.NET Core on K8S学习实践系列文章索引》&#xff0c;可以点击查看更多容器化技术相关系列文章。前面几篇文章我们都是使用的ClusterIP供集群内部访问&#xff0c;每个Pod都有一个自己的IP地址&#xff0c;那么问题来了&#xff1a;当控制器使用新的Pod替代发生故障…

输出程序运行时间

输出程序运行时间 用函数clock()返回一个时钟类型&#xff0c;本质上是一个long类型&#xff0c;然后表示从程序开始到当前经过的时钟单位&#xff0c;所以我们可以通过两个位置的差来得到一段的运行时间但是要除以一个常量CLOCKS_PER_SEC表示每秒的时钟单位&#xff0c;然后用…