阿里云容器Kubernetes监控(一)

阿里云容器Kubernetes监控(一) - 资源监控

摘要：容器通过集装箱式的编译、打包、部署，大大提高了应用的迭代速度。对于架构师而言，容器带来的是分钟级的部署、秒级的伸缩与恢复、一个量级的迭代速度提升、50%左右的基础成本节省。

简介

容器通过集装箱式的编译、打包、部署，大大提高了应用的迭代速度。对于架构师而言，容器带来的是分钟级的部署、秒级的伸缩与恢复、一个量级的迭代速度提升、50%左右的基础成本节省。但是对于落地实施容器的开发者而言。80%的工作处理的是容器前和容器后的问题，容器前指的是如何本地开发、集成、测试并部署到容器环境；而容器后指的是如何对部署到容器环境后的监控、运维、告警与调优。今天我们主要来探讨的是如何在容器的环境中进行资源维度的监控。

先谈容器与监控

关于容器的监控方案有非常多的种类，大家耳熟能详的一些组件包括：prometheus、Telegraf、InfluxDB、Cadvisor、Heapster等等。但是从原理上来讲无外乎分为推模式采集与拉模式采集。推模式采集是指通过部署相应的agent，将监控的指标推送到server再进行数据聚合和报警的方式，例如Telegraf就是这种模式的代表。拉模式采集是指通过中心化的server使用API或者脚本等方式从容器直接拉取资源利用率的方式，而prometheus则是这种方式的集大成者。和传统应用监控相比，容器监控面临更大的挑战：首先由于容器更多的是在资源池中调度，传统的静态配置化的监控agent就变得非常麻烦，如果只在宿主机部署监控agent则会造成缺乏必要信息来识别监控对象；其次容器的生命周期与传统应用相比而言会更加短暂，而由容器抽象的上层概念例如swarm mode中的service或者kubernetes中的ReplicaSet、Deployment等等则没有太好的办法从采集的数据中进行反向的抽象，造成单纯的容器监控数据无法有效的进行监控数据的聚合和告警，一旦应用的发布可能会导致原有的监控与报警规则无法生效；最后容器的监控需要更多的维度，资源维度、逻辑资源的维度、应用的维度等等。

如何在容器服务上进行资源监控

其实容器之所以难以监控的主要原因在于无法将逻辑的概念和物理概念无法在监控数据、生命周期上面实现统一。阿里云容器服务Kubernetes与云监控进行了深度集成，用应用分组来抽象逻辑概念，今天我们来看下如何进行Kuberbetes的资源监控和告警。

首先Kubernetes节点从职能上分为Worker和Master两种不同的节点。Master节点上面通常会部署管控类型的应用，整体的资源要求以强鲁棒性为主；而Worker节点更多的承担实际的Pod调度，整体的资源以调度能力为主。当你创建一个Kubernetes集群时，容器服务会为你自动创建两个资源分组，一个是Master组，一个是Worker组。Master组中包含了Master节点以及与其相关的负载均衡器。Worker组包含了所有的工作节点。