网易云容器服务基于Kubernetes的实践探索

Kubernetes的特点

近年来Docker容器作为一种轻量级虚拟化技术革新了整个IT领域软件开发部署流程，如何高效自动管理容器和相关的计算、存储等资源，将容器技术真正落地上线，则需要一套强大容器编排服务，当前大红大紫的Kubernetes已经被公认为这个领域的领导者。Google基于内部Borg十多年大规模集群管理经验在2014年亲自倾心打造了Kubernetes这个开源项目，欲倚之与AWS在云计算2.0时代一争高下，即便如此，Kubernetes的定位主要是面向私有云市场，它最典型的部署模式是在GCE或AWS平台上基于云主机、云网络、云硬盘及负载均衡等技术给用户单独部署一整套Kubernetes容器管理集群，其本质上是卖的IAAS服务，Kubernetes集群还是需要靠用户自己维护，大家知道Kubernetes虽然功能强大但使用、管理、运维门槛也高，出问题了大多数用户会束手无策。

这几年国内容器云领域也是群雄割据，但多数还是以私有云为主，提供公有云容器服务的却很少，主要是公有云要考虑的问题多、挑战大。虽然如此，网易云的还是提供了公有云模式的容器服务。网易云从2015年开始做容器服务时也被Kubernetes强大的功能、插件化思想和背后强大的技术实力说吸引，至今已经跟随Kubernetes一起走过两年多，积累了不少经验。因为我们特别希望以公有云的方式提供一种更易用容器服务，任何对容器感兴趣的用户都能快速上手，为此也遇到了很多私有云下不会出现的问题。

列举几个Kubernetes在公有云容器场景下的需要特别解决的关键问题。一是Kubernetes里没有用户（租户）的概念，只有一个很弱的命名空间来做逻辑隔离。二是Kubernetes和Docker的安全问题很突出，API访问控制较弱且没有用户流控机制，一些资源全局可见。而Docker容器与宿主机共享内核的轻量级隔离从根本上没法做到彻底安全。三是Kubernetes集群所需要IAAS资源（如Node，PV）都要预先准备足够，否则容器随时会创建失败，公有云这样的话会造成严重的资源浪费，产生巨大的成本问题。四是Kubernetes单个集群能支撑的节点总数有限，最大安全规模只有5千个Node，公有云下扩展性将会有问题。

网易云容器如何解决Kubernetes在公有云上的问题

先看下网易云容器服务的架构图（如图1），这里的Kubernetes处于底层IAAS服务和上层容器平台的中间，因为我们的容器服务不仅仅提供Kubernetes本身容器编排管理功能，更是为提供一整套专业的容器解决方案，还包括容器镜像服务，负载均衡服务，通过使用DevOps 工具链高效管理微服务架构。考虑到Kubernetes概念较多、普通用户使用复杂，也为了便于整合其他配套服务，我们并没有直接暴露Kubernetes的API和所有概念给普通用户。

图片描述
公有云租户概念

网易云容器服务基于Kubernetes已有的Namespace的逻辑隔离特性，虚拟出一个租户的概念，并与Namespace进行永久绑定：一个Namespace只能属于一个租户，一个租户则可以有多个Namespace。这样Kubernetes里不同租户之间的Pod、Service、Secret就能自然分割，而且可以直接在原生的Namespace/Resouce级别的认证授权上进行租户级别的安全改造。

图片描述
多租户安全问题

关于Kubernetes的API的安全访问控制，尽管网易云容器没有直接暴露Kubernetes的API给用户，但用户容器所在的Node端也都要访问API，Node本质就是用户的资源。我们在最早基于Kubernetes 1.0开发的时候就专门增加了一套轻量级扩展授权控制插件：基于规则访问控制，比如配置各租户只能Get和Watch属于自己Namespace下的Pod资源，解决对Kubernetes资源API权限控制粒度不够精确且无法动态增减租户的问题。值得欣慰的是几个月前官方发布的1. 6新推出RBAC（基于角色访问控制）功能，使得授权管理机制得以增强，但服务端对用户Node端访问的异常流量控制的缺乏依然是一个隐患，为此，我们也在apiserver端增加请求数来源分类统计和控制模块，避免有不良用户从容器里逃逸到Node上进行恶意攻击。
原生的kube-proxy提供的内部负载必须要List&Watch集群所有Service和Endpoint，导致就算在多租户场景下Service和Endpoint也要全部暴露，同时导致iptables规则膨胀转发效率极低；为此我们对kube-proxy也做了优化改造：每个租户的Node上只会List&Watch自己的相关Namespace下资源即可，这样既解决了安全问题又优化性能，一箭双雕。

至于Docker的隔离不彻底的问题，我们则选择了最彻底的做法：在容器外加了一层用户看不见的虚拟机，通过IAAS层虚拟机的OS 内核隔离保证容器的安全。

容器的IAAS资源管理

容器云作为新一代的基础设施云服务，资源管理必然也是非常关键的。私有云场景下整个集群资源都属于企业自己，预留的所有资源都可以一起直接使用、释放、重用；而公有云多租户下的所有资源首先是要进行租户划分的，一旦加入kubernetes集群，Node、PV、Network的属主租户便已确定不变，如果给每个租户都预留资源，海量租户累计起来就非常恐怖了，没法接受。当然，可以让公有云用户在创建容器前，提前把所有需要的资源都准备好，但这样又会让用户用起来更复杂，与容器平台易用性的初衷不符，我们更希望能帮用户把精力花在业务本身。

于是我们需要改造kubernetes，以支持按需动态申请、释放资源。既然要按需实时申请资源，那就先理下容器的创建流程，简单起见，我们直接创建Pod来说明这个过程，如图3所示。

图片描述

Pod创建出来后，首先控制器会检查是否有PV（网易云容器为支持网络隔离还增加租户Network资源），PV资源是否匹配，不匹配则等待。如果Pod不需要PV或者PV匹配后调度器才能正常调度Pod，然后scheduler从集群所有Ready的 Node列表找合适Node绑定到Pod上，没有则调度失败，并从1秒开始以2的指数倍回退（backoff）等待并重新加入调度队列，直到调度成功。最后在调度的Node的kubelet上拉镜像并把容器创建并运行起来。

通过分析上述流程可以发现，可以在控制器上匹配PV或Network时实时创建资源，然后在调度器因缺少Node而调度失败时再实时创建Node（虚拟机VM），再等下次失败backoff重新调度。但是仔细分析后会发现还有很多问题，首先是IAAS中间层提供的创建资源接口都是异步的，轮询等待效率会很多，而且PV，Network，Node都串行申请会非常慢，容器本来就是秒级启动，不能到云服务上就变成分钟级别；其次Node从创建VM，初始化安装Docker、kubelet、kube-proxy到启动进程并注册到Kubernetes上时间漫长，调度器backoff重新调度多次也不一定就绪，最后，基于Kubernetes的修改要考虑少侵入，Kubernetes社区极度活跃一直保持3个月发布一个大版本的节奏，要跟上社区发展可能需要不断升级线上版本。

最终，我们通过增加独立的ResourceController，借助watch机制采用全异步非阻塞、全事件驱动模式。资源不足就发起资源异步申请，并接着处理后面流程，而资源一旦就绪立马触发再调度，申请Node时中间层也提前准备虚拟机资源池，并将Node初始化、安装步骤预先在虚拟机镜像中准备好。于是，我们详细的创建流程演变为图4所示。（注：最新Kubernetes 已经通过StorageClass类型支持PV dynamic provisioning）
图片描述
与原生的Kubernetes相比，我们增加了一个独立的 ResourceController管理所有IAAS资源相关的事情，具体的Pod创建步骤如下：

1、上层client请求apiserver创建一个Pod。
2、ResourceController watch到有新增Pod，检查PV和Network是否已经创建；
同时，另一边的scheduler也发现有新Pod尚未调度，也尝试对Pod进行调度。
3、因为资源都没有提前准备，最初ResourceController检查时发现没有与Pod匹配的PV和Network，会向IAAS中间层请求创建云盘和网络资源；
scheduler 则也因为找不到可调度的Node也同时向IAAS中间层请求创建对应规格的VM资源（Node），这时Pod也不再重入调度队列，后面一切准备就绪才会重调度。
4、因为IAAS中间层创建资源相对较慢，也只提供异步接口，待底层资源准备完毕，便立即通过apiserver注册PV、Network、Node资源
5~6、ResourceController当发现PV和Network都满足了，就将他们与Pod绑定；当发现Pod申请的Node注册上来，且PV和Network均绑定，会把Pod设置为ResourceReady就绪状态
7、Scheduler再次watch到Pod处于ResourceReady状态，则重新触发调度过程，
8、Pod调度成功与新动态创建Node进行绑定
9~10、对应Node的kubelet watch到新调度的Pod还没有启动，则会先拉取镜像再启动容器。

集群最大规模问题

从正式发布1.0版本至今最新的1.7，Kubernetes共经历了2次大规模的性能优化，从1.0的200个node主要通过增加apiserver cache提升到1000个node，再到1.6通过升级etcdv3和json改protobuf最终提升到5000 node。但是官方称后续不会再考虑继续优化单集群规模了，已有的集群联邦功能又太过简陋。如果公有云场景下随着已有用户规模不断增大，一旦快接近集群最大规模时，就只能将其中一些大用户一批批迁移出去来腾空间给剩余用户。

于是我们自己在社区版本基础上又做了大量定制化的性能优化，目前单集群性能测试最大安全规模已经超过3万，验收测试包括集群高水位下，大并发创建速度deployment和快速重启master端服务和所有node端kubelet等在内的多种极端异常操作，保证创建时间均值<5s，99值<15s，集群中心管控服务最差在3分钟内快速恢复正常。

具体的优化措施包括：

1、 scheduler优化
根据租户之间资源完全隔离互补影响的特性，我们将原有的串行调度流程，改造为租户间完全并行的调度模式，再配合协程池来争夺可并行的调度任务。在调度算法上，还采用预先排除资源不足的node、优化过滤函数顺序等策略进行局部优化。
2、 Controller优化
熟悉Kubernetes的人都知道，Kubernetes有个核心特点就是事件驱动，实时性很好，但是有个Sync事件却干扰了FIFO的顺序，我们通过将Add、Update、Delete、Sync事件排序并增加多优先级队列的方式解决这种异常干扰。
增加Secret本地缓存
3、 apiserver优化
apiserver的核心是提供类似CRUD的restful接口，优化方向无外乎降低响应时间，减少cpu、内存消耗以提高吞吐量，我们最主要的一个优化是增加以租户ID为过滤条件的查询索引，这样就能实现在租户内跨Namespace聚合查询的效果。另外apiserver的客户端原生的流控策略太暴力，客户端默认在流控被限制后会反复重试，进一步加剧apiserver的压力，我们增加了一种基于反馈的智能重试的策略抹平这种突发流量。
4、Node端优化
kube-proxy本来需要控制整个集群负载转发的，Apiserver有了租户查询索引后，我们就能只watch自己租户内的Service/Endpoint，急剧缩小iptables规则数量，提高查找转发效率。而且我们还精简kubelet和kube-proxy内存占用和连接数。

网易云容器服务的其他实践及总结

容器的网络是非常复杂一块，容器云服务至少要提供稳定、灵活、高效的跨主机网络，虽然开源网络实现很多，但是它们要么不支持多租户、要么性能不好，且直接拿没有经过大规模线上考验的开源软件问题总会很多。幸运的时网易云有自己专业的IAAS云网络团队，他们能提供专业级的VPC网络解决方案，天生就支持多租户、安全策略控制和高性能扩展，已经做到容器与虚拟主机的网络是完全互通且地位对等的。

网易云容器服务还在Kubernetes社区版本基础上结合产品需求新增了很多功能，包括支持特有的有状态容器，及Node故障时容器系统目录也能自动迁移以保持数据不变，多副本Pod可按Node的AvailableZone分布强制均衡调度（社区只尽力均衡）、容器垂直扩容、有状态容器动态挂卸载外网IP等。

相比容器的轻量级虚拟化，虚拟机虽然安全级别更高，但是在cpu、磁盘、网络等方面都存在一定的性能损耗，而有些业务却又对性能要求非常高。针对这些特殊需求，最近我们也在开发基于Kubernetes的高性能裸机容器，绕过虚拟机将网络、存储等虚拟化技术直接对接到Docker容器里，在结合SR-IOV网络技术、网易高性能云盘NBS（netease block storage）等技术将虚拟化的性能损耗降到最低。

最后，分享一些网易云容器服务上线近两年来的遇到的比较典型的坑。

1、Apiserver作为集群hub中心本身是无状态的可水平扩展，但是多apiserver读写会在Apiserver切换时可能会出现写入的数据不能立马读到的问题，原因是etcd的raft协议不是所有节点强一致写的。
2、haproxy连接的问题，多Apiserver前用haproxy做负载均衡，haproxy很容易出现客户端端口不够用和连接数过多的问题，可以通过扩大端口范围、增加源ip地址等方式解决端口问题，通过增加client/service的心跳探活解决异常连接GC的问题。
3、用户覆盖更新已有tag的私有容器镜像问题，强烈建议大家不要覆盖已有tag的镜像，也不要使用latest这样模糊的镜像标签，否则RS多Pod副本或者同一个Node上同镜像容器很容易出现版本不一致的诡异问题。
4、有些容器小文件非常多，很容易把inode用光而磁盘空间却剩余很多的问题，建议把这种类型应用调度到inode配置多的node上，另外原生kubelet也存在不会检查inode过多触发镜像回收的问题。
5、有些Pod删除时销毁过慢的问题，Pod支持graceful删除，但是如果容器镜像启动命令写得不好，可能会导致信号丢失不光没法graceful删除还会导致延迟30s的问题

总之，在公有云场景下，用户来源广泛，使用习惯千变万化没法控制，我们已经碰到过很多纯私有云场景下很难出现的问题，如用户镜像跑起不来，Pod多容器端口冲突，日志直接输出到标准输出，或者日志写太快没有切割，甚至把容器磁盘100%写满等，因为篇幅有限，所以只能挑选几个有代表性的专门说明。因为云上要考虑的问题太多，特别是这种基础设施服务类的，使用场景又非常灵活，线上出现的一些问题之前完全想不到，包括很多还是用户自己使用的问题，但为了要让用户有更好的体验，也只能尽力而为，优先选择一些通用的问题去解决。

作者：娄超，网易云容器编排技术负责人。曾经参与淘宝分布式文件系统tfs和阿里云缓存服务研发，2015年加入网易参与网易云容器服务研发，经历网易云基础服务（蜂巢）v1.0，v2.0的容器编排相关的设计和研发工作，并推动网易云内部Kubernetes版本不断升级。

本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅《程序员》，给我们投稿请联系邮箱weiwei@csdn.net。(责编／魏伟)

欢迎扫描下方二维码，关注CSDN云计算微信，获取更多干货原创内容。

图片描述