KubeNode:阿里巴巴云原生 容器基础设施运维实践

简介: 目前 KubeNode 已经覆盖了阿里巴巴集团的所有的 ASI 集群,接下来,将随着阿里巴巴集团“统一资源池”的项目,推进 KubeNode 覆盖更大的范围、更多的场景,让云原生的容器基础设施运维架构发挥更大的价值。

 

 

阿里巴巴节点运维的挑战

 

在阿里巴巴的场景下,做节点运维面临的挑战主要来自于这几个方面:规模、复杂性、稳定性。

首先是规模大。从 18 年第一个集群的搭建,到现在线上共运行着数百个 ASI 集群、数十万个节点,其中单集群的节点数最多有超过1万台。在这之上,运行着阿里巴巴集团数万个不同的应用,比如,大家熟知的淘宝、天猫等,总容器实例数有数百万规模。ASI 是指 Alibaba Serverless Infrastructure,也就是阿里巴巴 Serverless 基础设施。ASI 的概念同时包含集群的管控面和节点两方面。每一个 ASI 集群都是调用 Aliyun 标准的 OpenAPI 创建的 ACK 托管版集群,然后在此之上,我们自研了调度器、开发部署了很多的 addon,进行功能增强、性能优化,并对接集团的各个系统,并做到节点全托管,不需要应用开发运维人员关心底层的容器基础设施。

其次是环境非常复杂。目前 IaaS 层运行着很多种异构的机型,有x86服务器,也有 ARM 国产化机型,同时为了服务新计算、AI 的业务,也有 GPU、FPGA 的机型。线上的内核版本也非常多,4.19 是去年开始规模上线的内核版本,同时 3.10 / 4.9 内核版本上的节点问题也需要继续支撑,不同的内核版本演进也需要具备规模化轮转的运维能力。目前上万个在线应用包含了像淘宝、天猫、菜鸟、高德、饿了么、考拉、盒马 等各种不同的业务,同时跟在线应用一起运行着混部、安全容器的业务,像大数据、离线计算、实时计算、搜索等这些业务类型也都跟在线业务运行在同一个主机环境中。

最后是对稳定性的高要求。在线业务的特点是对延迟和抖动非常敏感,单节点的抖动、夯机、宕机等故障都可能会影响某个用户在淘宝的下单付款,引发用户的吐槽和投诉,所以整体对稳定性的要求非常高,要求对单节点故障的处理有很高的及时性和有效性。

KubeNode:云原生节点运维底座介绍

 

KubeNode,是阿里巴巴自研的基于云原生方式来管理和运维节点的底座项目,相比于传统的过程式的运维手段,KubeNode 通过 K8s 扩展 CRD 以及对应的一组 Operator,能提供完整的节点生命周期和节点组件生命周期管理,通过申明式、面向终态的方式,把节点及节点组件的管理变得跟管理 K8s 中的一个应用一样简单,并实现节点的高度一致性以及自愈修复的能力。

上图右侧是 KubeNode 一个简化的架构,整体是由这几个部分组成的:

中心端有 Machine Operator 负责节点和节点组件管理,Remedy Operator 负责节点的故障自愈修复。节点侧有 Kube Node Agent,这个单机 agent 组件负责 watch 中心 Machine Operator、Remedy Operator 生成的 CRD 对象实例,并执行相应的操作,像节点组件的安装、故障自愈任务的执行等。

配合着 KubeNode,阿里巴巴还使用 NPD 进行单机的故障检测,以及对接 Kube Defender (阿里自研组件) 进行统一风控。当然社区版本的 NPD 提供的故障检测项是比较有限的,阿里巴巴在社区的基础上进行了扩展,结合阿里巴巴多年节点、容器运维的实践,加入了很多节点的故障检测项,大大丰富了单机故障检测的能力。

1. KubeNode 和社区项目关系

  • github.com / kube-node:不相关,该项目 2018 年初已停止。
  • ClusterAPI:KubeNode 可以作为 ClusterAPI 节点终态的补充。

功能对比:

 

这里解释下阿里巴巴自研的 KubeNode 项目跟社区项目的关系。大家看到 kube-node 这个名字的时候,可能会觉得有点似曾相识,在 github 上是有一个同名的项目 github.com/kube-node,但其实这个项目早在 2018 年初的时候就已经停止了,所以只是名字相同,两者并没有关系。

另外社区的 ClusterAPI 是一个创建并管理 K8s 集群和节点的项目,这里对比了两个项目的关系:

  • 集群创建:ClusterAPI 负责集群的创建,KubeNode 不提供此功能。
  • 节点创建:ClusterAPI 和 KubeNode 都可以创建节点。
  • 节点组件管理和终态维持:ClusterAPI 没有提供相应的功能,KubeNode 可以管理节点组件并保持终态。
  • 节点故障自愈:ClusterAPI 主要提供基于节点健康状态重建节点的自愈能力;KubeNode 提供了更丰富的节点组件自愈功能,能对节点上的各种软硬件故障进行自愈修复。

总的来说,KubeNode 可以和 ClusterAPI 一起配合工作,是对 ClusterAPI 的一个很好补充。

这里提到的节点组件,是指运行在节点上的 kubelet,Docker 的软件,阿里内部使用 Pouch 作为我们的容器运行时。除了 kubelet,Pouch 这些调度必须的组件外,还有用于分布式容器存储、监控采集、安全容器、故障检测等总共十多个组件。

通常安装升级 kubelet,Docker 是通过类似 Ansible 等面向过程的一次性动作来完成的。在长时间运行过程中,软件版本被意外修改或是碰到 bug 不能工作的问题是很常见的,同时这些组件在阿里巴巴的迭代速度非常快,往往一两周就需要发布推平一个版本。为了满足组件快速迭代又能安全升级、版本一致的需求,阿里巴巴自研了 KubeNode,通过将节点以及节点组件通过 K8s CRD 的方式进行描述,并进行面向终态的管理,从而确保版本一致性,配置一致性以及运行态正确性。

2. KubeNode - Machine Operator

 

 

上图是 Machine Operator 的架构,一个标准的 Operator 设计:扩展的一组 CRD 再加上中心的控制器。
CRD 定义包括:跟节点相关的 Machine、MachineSet,以及跟节点组件相关的 MachineComponent、MachineComponentSet。

中心端的控制器包括:Machine Controller、MachineSet Controller、MachineComponentSet Controller,分别用来控制节点的创建、导入,节点组件的安装、升级。

Infra Provider 具有可扩展性,可以对接不同的云厂商,目前只对接了阿里云,但是也可通过实现相应的 Provider 实现对接 AWS、Azure 等不同的云厂商。

单机上的 KubeNode 负责 watch CRD 资源,当发现有新的对象实例时,则进行节点组件的安装升级,定期检查各个组件是否运行正常,并上报组件的运行状态。

1)Use Case:节点导入

 

下面分享基于 KubeNode 对已有节点的导入过程。

首先用户会在我们的多集群管理系统中提交一个已有节点的导入操作,接下来系统先下发证书,并安装 KubeNode Agent,等 agent 正常运行并启动之后,第3步会提交 Machine CRD,接下来 Machine Controller 会修改状态为导入 phase,并等 Node ready 之后从 Machine 上同步 label / taint 到 Node。第 5 步是 MachineComponentSet, 根据 Machine 的信息确定要安装的节点组件,并同步到 Machine 上。最后 Kube Node Agent 会 watch 到 Machine、MachineComponent 的信息,完成节点组件的安装,并等所有组件运行正常后,节点导入操作完成。整个过程跟用户提交一个 Deployment 并最终启动一个业务 Pod 是类似的。

节点组件的终态一致主要包含了软件版本、软件配置和运行状态的正确、一致。

2)Use Case:组件升级

 

这里介绍下组件的升级过程,主要依赖的是 MachineComponentSet Controller 提供的分批次升级的能力。

首先用户在多集群管理系统上面提交一个组件升级操作,然后就进入一个逐批次循环升级的过程:先更新 MachineComponentSet 一个批次升级的机器数量是多少,之后 MachineComponentSet Controller 会计算并更新相应数量的节点上组件的版本信息。接下来 Kube Node Agent watch 到组件的变化,执行新版本的安装,并检查状态正常后上报组件状态正常。当这个批次所有的组件都升级成功后,再开始下一个批次的升级操作。

上面描述的单集群单个组件的升级流程是比较简单的,但对于线上十多个组件、上百个集群,要在所有的集群都完成版本推平工作就不那么简单了,我们通过 ASIOps 集群统一运维平台进行操作。在 ASIOps 系统中,将上百个集群配置到了有限的几个发布流水线,每条发布流水线都按照:测试 -> 预发 -> 正式 的顺序编排。一次正常的发布流程,就是选定一条发布流水线,按其预先设定好的集群顺序进行发布,在每个集群内部,又按照 1/5/10/50/100/... 的顺序进行自动发布,每一个批次发布完成,会触发健康巡检,如果有问题则暂停自动发布,没问题的话等观察期结束,则自动开始下一个批次的发布。通过这样的方式,做到了既安全又高效的完成一个组件新版本发布上线的过程。

3. KubeNode - Remedy Operator

 

 

接下来分享 KubeNode 里面的 Remedy Operator,也是一个标准的 Operator,用来做故障自愈修复。

Remedy Operator 也是由一组 CRD 以及对应的控制器组成。CRD 定义包括:NodeRemedier 和 RemedyOperationJob,控制器包括:Remedy Controller、RemedyJob Controller,同时也有故障自愈规则的注册中心,在单机侧有 NPD 和 Kube Node Agent。

Host Doctor 是在中心侧的一个独立的故障诊断系统,对接云厂商获取主动运维事件并转换为节点上的故障 Condition。在阿里云公有云上,ECS 所在的物理机发生的硬件类的故障或是计划中的运维操作,都会通过标准 OpenAPI 的形式获取,对接后就可以提前感知节点的问题,并提前自动迁移节点上的业务来避免故障。

Use Case:夯机自愈

 

这里以夯机自愈的案例来介绍一个典型的自愈流程。

首先我们会在多集群管理系统 ASI Captain 上配置下发 CRD 描述的自愈规则,并且这些规则是可以灵活动态增加的,针对每一种 Node Condition 都可以配置一条对应的修复操作。

接下来节点上的 NPD 会周期性的检查是否有发生各种类型的故障,当发现内核日志中有出现 "task xxx blocked for more than 120 seconds" 的异常日志之后,判定节点夯机,并给 Node 上报故障 Condition,Remedy Controller watch 到变化后,就触发自愈修复流程:首先会调用 Kube Defender 风控中心接口判断当前自愈操作是否允许执行,通过后就生成 RemedyOperationJob 自愈任务,Kube Node Agent watch 到 job 后执行自愈操作。

可以看到整个自愈流程不依赖于外部第三方系统,通过 NPD 做故障检测,Remedy Operator 执行自愈修复,以云原生的方式完成了整个的自愈修复流程,最快可以做到分钟级的故障发现并修复。同时,通过对 NPD 检测规则的增强,处理的故障范围覆盖了从硬件故障、OS 内核故障、到组件故障的全链路修复。值得强调的是,所有的自愈操作都会对接 Kube Defender 统一风控中心,进行分钟级、小时级、天级别的自愈修复流控,防止当出现 Region / Zone 级别断网、大规模 io hang、或是其他大面积软件 bug 的情况下,触发对整个 Region 所有节点的故障自愈,引发更严重的二次故障。

KubeNode 数据体系

 

KubeNode 数据体系建设的好坏对整体度量并提升 SLO 起着非常重要的作用。

在节点侧,NPD 会检测故障并上报事件中心,同时 walle 是单机侧的指标采集组件,会采集节点以及容器的各种指标项信息,包括像 CPU / Memory / IO / Network 等常见的指标,以及很多其他的像内核、安全容器等的指标项。中心侧 Promethes (阿里云公有云上的 ARMS 产品) 会采集所有节点的指标并进行存储,同时也采集扩展过的 Kube State Metrics 的数据,获取 Machine Operator 和 Remedy Operator 的关键指标信息。在获取到这些数据的基础之上,再在上层面向用户,配置监控大盘、故障报警、以及全链路诊断的能力。

通过数据体系的建设,我们就可以用来做资源利用率的分析统计,可以提供实时的监控报警,进行故障分析统计,也可以分析整体 KubeNode 中的节点以及节点组件的覆盖率、一致率、节点自愈的效率,并提供针对节点的全链路诊断功能,当排查节点问题时,可以查看该节点上历史发生过的所有的事件,从而帮助用户快速定位原因。

未来展望

目前 KubeNode 已经覆盖了阿里巴巴集团的所有的 ASI 集群,接下来,将随着阿里巴巴集团“统一资源池”的项目,推进 KubeNode 覆盖更大的范围、更多的场景,让云原生的容器基础设施运维架构发挥更大的价值。

作者:周涛 阿里云技术专家,2017 年加入的阿里,过去几年一直负责阿里巴巴数十万规模集群节点管控系统的研发工作,参与了历年的双十一大促。随着 2018 年底开始的集团上云项目,管理的节点从云下的物理机覆盖到了阿里云公有云上的神龙裸金属服务器,并支撑 双11 大促实现了交易核心系统的全面云原生化改造。

原文链接

本文为阿里云原创内容,未经允许不得转载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514096.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

扫盲贴|如何评价一款App的稳定性和质量?

简介: 我们不应该为了掩盖代码质量问题,通过手动try catch去规避某些问题,这样有可能会打断用户的正常使用,并造成感知性的阻断反馈,应该从用户使用APP时的真实感知出发,当出现问题时及时捕获和处理问题。 …

聊聊 5G 云专线

作者|小枣君来源|鲜枣课堂通过本文,和大家分享探讨一下 5G 云专线。我们从今天文章的标题开始说起吧。5G、云、专线,分开的3个词,作为通信人,大家应该都懂(专线可能陌生一点)。但是,合起来之后&…

谈AK管理之基础篇 - 如何进行访问密钥的全生命周期管理?

简介: 我们也常有听说例如AK被外部攻击者恶意获取,或者员工无心从github泄露的案例,最终导致安全事故或生产事故的发生。AK的应用场景极为广泛,因此做好AK的管理和治理就尤为重要了。本文将通过两种AK使用不安全的典型案例&#x…

2021信服云创新峰会:托管云成上云第三种选择

9月17日,以“万物皆可云”为主题的信服云创新峰会成功举办。中国工程院院士、中国科学院计算技术研究所研究员倪光南,IDC咨询(北京)有限公司副总裁/首席分析师武连峰,深信服科技股份有限公司创始人、CEO何朝曦&#xf…

三只松鼠:阿里云数据中台基座上的多渠道、多业态生长

简介: 刚刚过去的2020年,对三只松鼠来说更像是一座认知分水岭,三只松鼠CEO章燎原坦言“要忘记流量时代,并习惯放缓增长”,而随后的重要一步,就是以披荆斩棘的姿态进入数据中台建设新赛道。 刚刚过去的2020年…

浅谈专有云MQ存储空间的清理机制

简介: 浅谈专有云MQ存储空间的清理机制 在近⼀年的项⽬保障过程中,对专有云MQ产品的存储⽔位清理模式⼀直存疑,总想一探究竟但又苦于工作繁忙、精力有限,直到最近⼀次项⽬保障过程中再次出现了类似的问题,⼤家对MQ Bro…

气象气候应用在Intel最新处理器Icelake上的性能测评

浪潮HPC实验室 一、Intel第三代至强可扩展处理器(Icelake)性能大升级 Intel于今年发布了第三代至强可扩展处理器系列产品(代号Ice Lake),与上一代至强可扩展处理器系列产品(代号Cascade Lake)相比,第三代…

评审恩仇录——我为什么愿意执行代码评审

简介: 代码评审带来的好处不言自明, 但企业业务快速发展的诉求与代码评审推动落地两者之间, 往往存在矛盾。在如今快速发展的互联网时代,数字化、智能化已经是基础能力,单纯只靠人肉审查的时代已经过去了,基于各种自动化检查能力的…

AI+混合云模式,如何最大化挖掘数据价值?

9月8日,IBM举行了“科技一席谈”线上媒体访谈会,此次访谈以“数据与AI”为主题,由IBM 大中华区科技事业部、客户成功管理部总经理朱辉,IBM 中国混合云与 AI 华东及华南大区总经理许伟杰作主题分享。 在数字化转型的时代&#xff…

阿里云贾扬清:大数据和人工智能一体化是必然趋势

简介: 拥抱“融合”是大数据演进的新方向,⼤数据⼈⼯智能⼀体化是⼤数据发展的必然⽅向,而人工智能是⼤数据业务发展的终极出⼝ 。 12月13日,阿里云计算平台负责人贾扬清在Flink Forward Asia 2020 峰会上指出,拥抱“融…

云效安全那些事儿—访问控制与数据安全

简介: 云效 Codeup 提供了代码 GPG 签名,拒绝未签名的提交;支持代码属主验证,约束提交记录属主。 在质量管控上,云效 Codeup 精细化读写权限管控,支持代码提交卡点机制,保障提交质量。 接下来我…

深信服何朝曦:托管云为用户上云提供第三种选择

9月17日,以“万物皆可云”为主题的信服云创新峰会成功举办。会上,深信服科技股份有限公司CEO何朝曦分享了运用云计算技术帮助用户进行数字化转型的观点。他认为兼具公有云和私有云优势的托管云,可以帮助非科技型企业和中小企业获得“数字化平…

java 使用c .dll_Windows下java调用c的dll动态库--Dev_Cpp编译c生成dll

1.eclipse下建立一个HelloJNI.java内容如下:package JNI;public class HelloJNI{static{System.out.println("开始");System.loadLibrary("goodluck");System.out.println("结束");}public native static int get();public native st…

阿里云助力江苏省财政厅力推统一公共支付平台

简介: 为深化“放管服”改革,贯彻“互联网政务服务”要求,江苏省财政厅加快推进江苏省统一公共支付平台建设,实现全省政府非税收入、政务服务在线收缴和财政电子票据的集中统一处理,不仅节约了因“重复建设”产生的财政…

Midway Serverless 发布 2.0,一体化让前端研发再次提效

简介: 2021 年 3 月,Midway Serverless 推出了第二个大版本。就像两年前说的一样,开源只是开始,终态远没有到来。Midway 体系希望能够在当前的十字路口,不断向前演进,让前端可以去发展,朝着应用…

binaryviewer java_用java实现java的2进制文件字节序转换到C/C++的2进制文件字节序

展开全部package admit.action;/*用JAVA读取各种计算机文件系统的文件列表 当你安装了jdk,在32313133353236313431303231363533e78988e69d8331333332613732jdk的类库里,有一个标准的File类,通过该类,可以很方便的实现浏览各种文件…

ZDNS宣布完成B轮融资,根服务器之外,顶级域名系统迎重要机遇

从互联网诞生,由于IPv4技术中UDP报文数据容量限制,到2021的今天,全球也仅有13个根服务器(俗称“主根”),其中10个主根由美国持有,英国、瑞典、日本各持有1个。而中国只运营根镜像服务器。虽然目…

应用容灾中,MySQL数据表是否需要跨云同步?

简介: 容灾系统的重要目标在于保证系统数据和服务的“连续性”。当系统发生故障时,容灾系统能够快速恢复服务和保证数据的有效性。为了防止天灾人祸、不可抗力,在同城或异地建立对应的IT系统,其中最核心的工作是数据同步。本文选取…

java浮点数数转二进制的数吗_深入理解计算机系统(2.7)-二进制小数和IEEE浮点标准 - Java 技术驿站-Java 技术驿站...

整数的表示和运算我们已经讲完了,在实际应用中,整数能够解决我们大部分问题。但是某些需要精确表示的数,比如某件商品的价格,某两地之间的距离等等,我们如果用整数表示将会有很大的出入,这时候浮点数就产生…

Docker 终失 C 位,开源少年缘何黑化

作者 | 马超出品 | CSDN(ID:CSDNnews)开源真是火了,近些年成功的IT项目像TensorFlow、RocketMQ、TDEngine都是开源项目,而且这种火爆还出了圈,连带着RISC-V这种准开源的芯片也成为了各方争抢的香饽饽。但是…