阿里云容器Kubernetes监控(一) - 资源监控

摘要:  容器通过集装箱式的编译、打包、部署,大大提高了应用的迭代速度。对于架构师而言,容器带来的是分钟级的部署、秒级的伸缩与恢复、一个量级的迭代速度提升、50%左右的基础成本节省。

简介

容器通过集装箱式的编译、打包、部署,大大提高了应用的迭代速度。对于架构师而言,容器带来的是分钟级的部署、秒级的伸缩与恢复、一个量级的迭代速度提升、50%左右的基础成本节省。但是对于落地实施容器的开发者而言。80%的工作处理的是容器前和容器后的问题,容器前指的是如何本地开发、集成、测试并部署到容器环境;而容器后指的是如何对部署到容器环境后的监控、运维、告警与调优。今天我们主要来探讨的是如何在容器的环境中进行资源维度的监控。

先谈容器与监控

关于容器的监控方案有非常多的种类,大家耳熟能详的一些组件包括:prometheus、Telegraf、InfluxDB、Cadvisor、Heapster等等。但是从原理上来讲无外乎分为推模式采集与拉模式采集。推模式采集是指通过部署相应的agent,将监控的指标推送到server再进行数据聚合和报警的方式,例如Telegraf就是这种模式的代表。拉模式采集是指通过中心化的server使用API或者脚本等方式从容器直接拉取资源利用率的方式,而prometheus则是这种方式的集大成者。和传统应用监控相比,容器监控面临更大的挑战:首先由于容器更多的是在资源池中调度,传统的静态配置化的监控agent就变得非常麻烦,如果只在宿主机部署监控agent则会造成缺乏必要信息来识别监控对象;其次容器的生命周期与传统应用相比而言会更加短暂,而由容器抽象的上层概念例如swarm mode中的service或者kubernetes中的ReplicaSet、Deployment等等则没有太好的办法从采集的数据中进行反向的抽象,造成单纯的容器监控数据无法有效的进行监控数据的聚合和告警,一旦应用的发布可能会导致原有的监控与报警规则无法生效;最后容器的监控需要更多的维度,资源维度、逻辑资源的维度、应用的维度等等。

如何在容器服务上进行资源监控

其实容器之所以难以监控的主要原因在于无法将逻辑的概念和物理概念无法在监控数据、生命周期上面实现统一。阿里云容器服务Kubernetes与云监控进行了深度集成,用应用分组来抽象逻辑概念,今天我们来看下如何进行Kuberbetes的资源监控和告警。

首先Kubernetes节点从职能上分为Worker和Master两种不同的节点。Master节点上面通常会部署管控类型的应用,整体的资源要求以强鲁棒性为主;而Worker节点更多的承担实际的Pod调度,整体的资源以调度能力为主。当你创建一个Kubernetes集群时,容器服务会为你自动创建两个资源分组,一个是Master组,一个是Worker组。Master组中包含了Master节点以及与其相关的负载均衡器。Worker组包含了所有的工作节点。

可以通过点击列表视图显示当前资源分组中的资源,例如本例中Master分组包含了三个Master节点以及2个SLB。另外任何在资源组下的资源的报警规则都会被自动继承,因此在拓扑总览页面即可看到所有资源的健康状态。


在监控视图中可以详细的在组级别以及实例级别查看详细的监控数据


对于Mater节点而言,其上运行的各种组件的健康状态是更加重要的,因此在Master分组中设置了所有节点的核心组件的健康检查,健康检查状态出现问题时即可通过钉钉、邮件、短信的方式在第一件获取到Kubernetes的集群状态。


对于版本在1.8.4及以上的老集群而言,可以通过升级监控服务的方式快速建立资源报警分组。对于资源组中的资源可以通过新建报警规则的方式设置自定义的报警,而报警规则会自动应用到资源组中,且在集群自动伸缩等场景也会自动添加。


最后

本片文章我们讲解了如何如何通过资源分组进行监控与告警,针对kubernetes的pod、service的监控也即将在4月份进行发布,尽请期待。

原文链接

干货好文,请关注扫描以下二维码:


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521954.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes之路 3 - 解决服务依赖

摘要: 在容器服务的客户群中,一个经常被问起的问题就是如何处理服务间依赖。本文介绍了常见的解决方法来实现服务的依赖检查,还进一步用示例展示了如何利用init container, liveness/readiness探针等技术实现服务健康检查&#xf…

Logtail从入门到精通(一):日志采集杂谈

摘要: 目前logtail已承载阿里云全站、所有云产品服务、全球各Region部署、阿里巴巴集团(淘宝、天猫、菜鸟等)上重要服务的数据采集。每天采集接近百万服务器上数PB的实时数据,对接数千个应用与消费者。什么是日志提到日志&#xf…

互联网大佬马老师于昨日教师节正式卸任,让位现任CEO张勇;华为发布新一代CloudLink视讯解决方案,普惠4K+AI;联通……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go OPPO Reno2正式发布&#xf…

Logtail从入门到精通(二):开启日志采集之旅

摘要: 为了更好的了解日志采集,这里我们首先对日志采集中遇到的基本概念进行简要的介绍。Logtail相关概念为了更好的了解日志采集,这里我们首先对日志采集中遇到的基本概念进行简要的介绍。概念介绍项目: 项目(Project…

关于SDN的未来,Linux基金会专访阿里云网络大神

摘要: 近日,大家熟知的国际开源组织Linux基金会与阿里云进行了一次访谈。专访了阿里云网络团队掌门人江鹤。江鹤执掌阿里云网络产品线,并负责阿里集团网络虚拟化产品的研发管理工作。在软件定义网络(SDN)和网络功能虚拟…

5G 共建共享,究竟会带来什么影响?

戳蓝字“CSDN云计算”关注我们哦!共建共享真的来了。根据9月9日中国联通发布的公告,中国联通和中国电信正式签署了《5G网络共建共享框架合作协议书》,将在全国范围内合作共建一张5G接入网络。图片来源网络小枣君认为,这一事件对于…

object转float_人工智能-Object Detection API 模型转tflite并验证

最近在用TensorFlow Object Detection API训练目标检测模型,训练好的pb模型大小17.6M,用pb预测效果不错,于是想着如何在手机端运行,查看官网关于tflite的转换,网址:https://github.com/tensorflow/models/b…

Multi Task Learning在工业界如何更胜一筹

摘要: 本文主要介绍多任务学习和单任务学习的对比优势以及在工业界的一些使用。如何从单任务学习转变为多任务学习?怎样使AUC和预估的准确率达到最佳?如何对实时性要求较高的在线应用更加友好?本文将以淘宝实例为大家进行分享多任…

rsync一行代码实现远程文件同步之修改默认22端口

由于需求需要把应用服务器上的日志文件同步到文件服务器上,但是又不能用22端口 文章目录一、应用服务器脚本修改如下二、文件服务器操作三、执行脚本测试四、应用服务器生成ssh key五、文件服务器添加key5.1. 打开.ssh文件夹目录:5.2. 创建authorized_ke…

上云难?TA霸气回应:不要你觉得,一键上云 so easy!

戳蓝字“CSDN云计算”关注我们哦!图片来源网络2019年阿里提出的“All in Cloud”战略以及《全球云计算 IT 基础设施市场预测报告》的数据结果,都在表明企业上云已成不可逆之势;但上云事故接二连三发生似乎又在宣示企业上云之路道阻且长&#…

基于阿里云HiTSDB搭建工业物联网平台实践

摘要: 基于阿里云全面的物联网、云计算与大数据技术搭建云端的企业能源管理物联网平台实现能耗数据采集、统计分析、平衡调度、节能优化等全面的能源管控协同平台。是企业生产运行保障的利器,也是大量企业实现云上管理的实践案例。背景工业企业的能耗占了…

阿里巴巴开源的通用缓存访问框架JetCache介绍

摘要: JetCache是由阿里巴巴开源的通用缓存访问框架,如果你对Spring Cache很熟悉的话,请一定花一点时间了解一下JetCache,它更好用。JetCache可以做类似Spring Cache的注解式缓存,支持TTL、多级缓存、分布式自动刷新&a…

阿里深度学习的“金刚钻”——千亿特征XNN算法及其落地实践

摘要:随着十二点的钟声响起,无数人盯着购物车开启了一年一度的“剁手”之旅。可你有没有想过这购物狂欢的背后是什么支撑起了数据规模如此庞大的计算任务?其实不只是“双十一”,每一个用户的点击和浏览,每一件宝贝的排…

全球唯一:MySQL社区2018年度公司贡献奖颁给阿里云

摘要:在刚刚的Percona Live开源数据库大会上,MySQL社区委员会宣布将2018年度的MySQL社区公司贡献奖(Corporate Contributor Award)唯一颁给阿里云。图中右一为阿里云数据库RDS团队 彭立勋MySQL社区颁发次奖项是为了感谢阿里云多年…

模拟灰度传感器循迹的程序_灰度传感器的工作原理

灰度传感器是模拟传感器,有一只发光二极管和一只光敏电阻,安装在同一面上。灰度传感器利用不同颜色的检测面对光的反射程度不同,光敏电阻对不同检测面返回的光其阻值也不同的原理进行颜色深浅检测。在有效的检测距离内,发光二极管…

Docker Nexus3 maven 私服(搭建篇)

文章目录一、环境准备1. 安装docker2. 启动docker3. 拉取镜像4. 目录权限5. 创建容器6. 监控日志二、登录配置2.1. 效果验证2.2. 登录2.3. 初始化一、环境准备 1. 安装docker 使用yum命令在线安装 yum install docker2. 启动docker systemctl start docker3. 拉取镜像 doc…

这个充电宝太黑科技了,又小又不用自己带线,长见识了~

戳蓝字“CSDN云计算”关注我们哦!现如今我们出门时,手机几乎都是随身携带支付用手机,移动办公用手机,刷剧玩游戏用手机手机可以说与我们工作,生活密不可分。只不过手机频率使用如此之高,也使得用电量大增当…

QuickBI助你成为分析师——群空间自主开通嵌入第三方报表权限

摘要: 用户使用过程中经常需要将创建的仪表板嵌入至自己应用中,方便查看。目前目前高级版群空间下支持用户自助化开通报表权限,通过获取拼接Token方式后台验证更加严格,并且支持实时更新/关闭Token以保证数据安全。用户使用过程中…

如何查看一个组件的 classid是多少_万一免五(万1免5)是骗人的吗?如何查看自己的交易费率是多少?万一免五最新问题汇总!...

前言每天都会遇到很多问题,大多数问题是重复的,所以整理到公众号里,希望你们看一下,别再一遍遍问了....万一免五开户是真的吗?随着监管越来越严,可以给万一免五的券商也越来越少,只要赶在万一免…

阿里云直播转点播最佳实践

摘要: 在前不久刚刚落幕的深圳云栖大会现场,有一个直播间体验项目引起了现场参会嘉宾的关注。云栖直播间是以视频云技术为基础,为云计算从业者量身打造了一个科技直播间,让每位嘉宾都可以过一把当“网红主播”的瘾。前言在前不久刚…