通过Kubernetes监控探索应用架构,发现预期外的流量

简介: Kubernetes 监控立足于应用监控之下的 Kubernetes 容器界面和底层操作系统,是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案,在 Kubernetes 监控中可以同时看到关联的所有层的观测数据。我们希望通过 Kubernetes 监控的一系列最佳实践,让大家能够使用 Kubernetes 监控解决 Kubernetes 环境下棘手的可观测问题。

大家好,我是阿里云云原生应用平台的炎寻,很高兴能和大家一起在 Kubernetes 监控系列公开课上进行交流。本次公开课期望能够给大家在 Kubernetes 容器化环境中快速发现和定位问题带来新的解决思路。

为什么需要 Kubernetes 监控?

很多同学对应用性能监控应该并不陌生,这类监控主要关注业务应用逻辑、应用框架和语言运行时,监控对象有线程池满,数据库连接无法获取,MySQL, 内存溢出,还有各种调用链异常栈等。随着 Kubernetes 容器化技术带来的云原生技术演进,上层应用的开发和运维变得更加简单,但复杂度是恒定的,上层的复杂度降低必然伴随着底层的复杂度提升。如下图所示,复杂度逐渐转移到容器虚拟化层以及系统调用内核层对各种虚拟化技术的支持。每一层都可能出现问题,且这些问题会影响上层应用。比如容器虚拟化层的 Kubernetes 组件异常,如果调度器异常,Pod 将无法调度影响应用;比如文件系统相关的系统调用异常,上层应用无法读取文件,造成应用问题;比如内核异常,应用进程无法调度完成工作。

1.png

应用想要健康稳定的运行,需要的是软件栈端到端的健康稳定,虽然现在很多运维团队都搭建了应用监控和系统监控体系,但没有一个监控能够自顶向下、端到端的串联起来各层软件的行为,导致棘手的问题发生时,无从下手处理。在应用层,一个网络请求超时,在客户端和服务端看起来似乎都没有问题,但实际上是网络层包发送 RTT 过高,重传率过高,亦或是 DNS 解析慢,或者是 CNI 插件慢。如何在 Kubernetes 容器化环境下做到端到端的可观测性是Kubernetes 监控出现的意义。

Kubernetes 监控立足于应用监控之下的 Kubernetes 容器界面和底层操作系统。在容器虚拟化层,我们通过以下五个数据源获取观测数据,通过 Kubernetes 管控组件 exporter 来获取 Kubernetes 管控组件的观测数据;通过 cAdvisor 获取容器的资源观测数据;通过 kube-state-metrics 获取 Kubernetes 资源的状态数据,还有事件和 Kubernetes 资源的状态以及条件数据。在系统调用层,我们通过 Kprobe/tracepoints  等 Linux tracing 技术获取观测数据;在内核层,我们通过内核可观测模块获取观测数据,然后 Kubernetes 监控通过进程、容器、Kubernetes 资源和业务应用的关联关系向上关联打通应用性能监控,打造端到端的可观测性。所以 Kubernetes 监控是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案,在 Kubernetes 监控中可以同时看到关联的所有层的观测数据。我们希望通过 Kubernetes 监控的一系列最佳实践,让大家能够使用 Kubernetes 监控解决 Kubernetes 环境下棘手的可观测问题。

我们也将从两个类型去讲解,第一类是发现问题,主要包含五类问题的发现:应用架构问题、性能问题、资源问题、调度问题和网络问题。第二类是定位问题,主要包含对以上五类发现的问题进行根因定位,并且提供修复建议。

2.png

探索应用架构,发现预期外的流量

Kubernetes 监控系列公开课第一节课的主题是“如何使用 Kubernetes 监控进行应用架构探索,发现预期外的流量”,包含以下三点内容:

  • 背景介绍:应用架构探索的挑战;
  • 典型场景:在哪些场景下,我们需要进行应用架构的探索;
  • 最佳实践:介绍一种应用架构探索的模式,高效的发现定位问题。

一、应用架构探索的挑战

(1)混沌的微服务架构

在 Kubernetes 容器化环境里,微服务架构是最普遍的架构模式。在这种架构下,随着业务发展,一定会有越来越多的微服务,他们之间的关系也会越来越复杂。在复杂度不断增长的情况下,一些常见架构问题就变得困难,比如应用当前运行架构是怎样的,应用下游依赖服务是否正常,应用上游客户端流量是否正常,应用 DNS 解析是否正常,两个应用之间的连通性是否有问题等。因此,我们要进行应用架构探索,往往变得十分困难。

(2)多语言

在微服务架构里面,各个微服务通常可以使用不同编程语言,只要暴露出标准的服务即可。那么不同语言如何进行监控,是否有相同的埋点模式,是否对应语言有好用高效的埋点工具呢?代码侵入对性能有什么影响,是否埋点代码会影响业务运行呢?这是多语言场景下面临的观测难题。

(3)多通信协议

在微服务架构里面,各个微服务之间的通信可以使用不同通信协议,比如 HTTP、gRPC、Kafka、Dubbo 等,往往我们需要识别这些协议才能快速发现对应依赖服务的问题,但是识别协议意味着理解各个协议,在合适的地方需要进行埋点,不同通信协议如何统一埋点代码侵入,是否会影响业务性能,这是通信协议场景下面临的观测难题。

二、典型场景

(1)架构感知

架构感知是根据真实的网络调用,将微服务作为节点,微服务之间的调用作为边,绘制出一张拓扑图。通过对比静态设计的期望架构,我们可以发现问题,比如是不是多了或少了某个微服务,微服务之间的关系是不是正确,通常在新应用上线、新地区开服、整体链路梳理等需要关注结构大图的场景使用。

(2)架构异常发现

架构异常发现是指通过自定义架构拓扑图中节点和边的异常规则显示对应的异常颜色,能够快速发现异常的节点和边,通常在整体链路梳理和健康巡检等关注节点和边状态的场景下使用。

(3)关联分析

通过异常发现定位到某个节点或者边异常之后,我们通常需要关联关系的切换,快速查看相关节点或者边的上下游以及对应的自身服务实例,一步一步缩小问题范围。

三、最佳实践

以上三个典型场景构成了完整的实践流程:通过架构感知观测应用实际运行架构是否和预期一致,如果有结构性问题,需要进一步排查结构异常的服务,如果没有结构性问题,我们可以进行下一步。通过异常发现观测是否有颜色异常的节点和边,如果没有其异常节点和边就最好,否则我们进行下一步,定位到特定的节点和边之后,开始进行关联分析,先分析自身实例是不是有问题,再看上下游是不是有问题。

Kubernetes 监控是如何支持最佳实践的呢?首先是Kubernetes监控集群拓扑的架构感知能力。Kubernetes 监控通过关联真实的网络请求绘制出了应用架构拓扑。当前提供 Service 和 Workload 两种视图,前者是 Service 之间的服务调用,后者是 Deployment 、Daemonset、Statefulset 之间的服务调用。

进入拓扑图,默认对节点进行分组收敛,集群内按命名空间分组,集群外按服务类型进行分组。展开分组之后可以看到对应的节点和节点关系,点击节点可以看到选定时间范围内的性能指标聚合值和时序值,这些值会按网络协议进行划分,点击边可以看到选定时间范围内的性能指标聚合值和时序值,这些值会按网络协议进行划分,再配合节点过滤,比如查看两个特定命名空间的架构关系,以及节点查询,快速查看一个节点,可以很好的对架构进行探索。

3.png

再看 Kubernetes 监控的异常发现能力,Kubernetes 监控通过三个维度的异常条件,将节点和边绘制成异常的黄或者红的颜色。具体来说,这三个维度是性能指标异常,比如说错误率大于 10%,平均响应时间大于 500 毫秒;第二,资源指标异常,比如 CPU 使用率大于 70%,内存使用率大于 70%;第三,K8S 管控状态异常,比如 POD 一直无法到达 ready 状态,在分组收起的状态下会显示节点分组的异常占比,展开分组可以看到特定的节点变得异常。通过该能力,我们可以快速发现特定的微服务或者微服务关系的异常。

4.png

Kubernetes 监控还具备关联分析能力,支持查看特定节点的上下游,提供 3D 视图同时查看节点关联的上下游关系和自身的实力状态,可以在一张图进行所有关联数据的探索,极大提升问题定位的效率。

5.png

四、Kubernetes  监控的产品价值

阿里云 Kubernetes 监控是一套针对 Kubernetes 集群开发的一站式可观测性产品,它会关联起 Kubernetes 名下的所有指标、链路、日志和事件。主要具备六大特性:

  • 代码无侵入:阿里云 Kubernetes 监控通过旁路技术,不需要对代码进行埋点即可获取到丰富的网络性能数据。
  • 语言无关:阿里云 Kubernetes 监控在内核层进行网络协议解析,支持任意语言、任意框架。
  • 高性能:阿里云 Kubernetes 监控基于 eBPF 技术,能以极低的消耗获取丰富的网络性能数据。
  • 资源关联:阿里云 Kubernetes 监控通过网络拓扑、资源拓扑展示相关资源的关联。
  • 数据多样:阿里云 Kubernetes 监控支持可观测的各种类型数据(监控指标、链路、日志和事件),涵盖端到端的软件栈。
  • 整体性:阿里云 Kubernetes 监控通过控制台的场景设计、关联起架构感知拓扑、应用监控、Prometheus 监控、云拨测、健康巡检、事件中心、日志服务和云服务。

那么 Kubernetes 监控、应用性能监控、Prometheus 监控有什么异同点呢?下图清晰的表达了这三者的关系和区别,应用性能监控主要关注应用逻辑,框架与编程语言,而 Kubernetes 监控关注的是系统网络和容器界面,同时会向上关联应用性能监控。Prometheus 监控是基础设施,Kubernetes 监控和应用性能监控的指标类数据将会存储在 Prometheus 监控中。

6.png

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512364.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

追踪 Kubernetes 中的网络流量

作者 | Addo Zhang来源 | 云原生指北译者注:这篇文章很全面的罗列出了 Kubernetes 中涉及的网络知识,从 Linux 内核的网络内容,到容器、Kubernetes,一一进行了详细的说明。文章篇幅有点长,不得不说,网络是很…

Go 语言网络库 getty 的那些事

简介: Getty 维护团队不追求无意义的 benchmark 数据,不做无意义的炫技式优化,只根据生产环境需求来进行自身改进。只要维护团队在,Getty 稳定性和性能定会越来越优秀。 个人从事互联网基础架构系统研发十年余,包括我…

std中稳定排序算法_源代码库已开放 | 哈工大硕士生用 Python 实现了 11 种经典数据降维算法...

转自:AI开发者网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码。这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA、LDA、MDS、LLE、TSNE 等,并附有相关资料、展…

曲师大教务系统服务器,曲师大教务处信息门户入口地址

为了规范财务行为,加强财务管理,提高代管经费使用效益,提高项目建设质量,根据上级和学校有关财务规定,结合我校实际情况,特制定本办法。一、教务处代管的项目经费品牌特色专业建设经费、精品课程建设经费、…

云网管—云上构建网络自动化体系

简介: 云网管是基于阿里云网络多年技术和经验沉淀打造的云上智能网络管理运维平台,提供企业网络全生命周期管理运维的能力,让部署更快捷、运维更高效、网络更透明。 1.背景 云网管是基于阿里云网络多年技术和经验沉淀打造的云上智能网络管理…

【C++练级之路】【Lv.5】动态内存管理(都2023年了,不会有人还不知道new吧?)

目录 一、C/C内存分布二、new和delete的使用方式2.1 C语言内存管理2.2 C内存管理2.2.1 new和delete操作内置类型2.2.2 new和delete操作自定义类型 三、new和delete的底层原理3.1 operator new与operator delete函数3.2 原理总结3.2.1 内置类型3.2.2 自定义类型 四、定位new表达…

开工啦~Spring 完美导入 IDEA

作者 | 阿Q来源 | 阿Q说代码有小伙伴私信我说想要研究下Spring的源码,想让我出一期教程来实现IDEA导入Spring源码,今天它来了~版本 :IDEA 2020.2.3 ;Spring 5.0.x ;gradle 4.4.1 ;先从github上面把 spring …

基于MaxCompute分布式Python能力的大规模数据科学分析

简介: 如何利用云上分布式 Python 加速数据科学。 如果你熟悉 numpy、pandas 或者 sklearn 这样的数据科学技术栈,同时又受限于平台的计算性能无法处理,本文介绍的 MaxCompute 可以让您利用并行和分布式技术来加速数据科学。也就是说只要会用…

5新建没有头文件_开垦绿茵版图迎来“真金白银”保障,新建足球场地可获财政补贴...

本周二,国家发改委、体育总局、国务院足球改革发展部际联席会议办公室共同制定了《全国社会足球场地设施建设专项行动实施方案(试行)》。《方案》指出,对新建11人制标准足球场,每个球场补助200万元;对新建5人制、7人制(8人制)足球…

网站免费空间和服务器的区别,网站空间和服务器的区别

网站空间和服务器的区别 内容精选换一换汇总对象存储服务OBS的各项功能,并对其进行简单的介绍,帮助您从整体上了解OBS的功能特性。CCE Turbo集群是基于云原生基础设施构建的云原生2.0容器引擎服务,具备软硬协同、网络无损、安全可靠、调度智能…

基于 MaxCompute + Hologres 的人群圈选和数据服务实践

简介: 本文主要介绍如何通过 MaxCompute 进行海量人群的标签加工,通过 Hologres 进行分析建模,从而支持大规模人群复杂圈选场景下的交互式体验,以及基于API的数据服务最佳实践。 本文作者 刘一鸣 阿里云智能 高级产品专家 人群圈…

一款强大的 Kubernetes API 流量查看神器

作者 | 小碗汤来源 | 我的小碗汤mizu 是为 Kubernetes 提供的一个简单而强大的 API 流量查看器,可以查看微服务之间的所有 API 通信,以帮助调试和排除故障。相当于 Kubernetes 的 TCPDump 和 Wireshark。简单而强大的 CLI丰富的过滤规则API 调用实时监控…

Redis 巧用数据类型实现亿级数据统计

作者 | 码哥字节来源 | 码哥字节在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时还要对集合中的数据进行统计排序。常见的场景如下:给一个 userId ,判断用户登陆状态;两亿…

2021杭州·云栖大会来了!门票免费预约!

2021杭州云栖大会,定了! 10月19日-22日,就在杭州云栖小镇 2场重磅主论坛上百场分论坛 超4万平米科技展 今年,云栖大会将首次免费开放 门票可在官网免费预约 入口现已开启 戳此预约,我们不见不散! ​ …

js 可以做什么东西_Deno需要做什么才能取代Node.js?

全文共1843字,预计学习时长5分钟Deno是一个Javascript/TypeScript的运行时,旨在取代Node.js的地位。它拥有广泛功能,讨论度非常高,在Github上有将近68000个星星:既然这么受欢迎,那么有人要问了:…

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

简介: 介绍了 37 手游为何选择 Flink 作为计算引擎,并如何基于 Flink CDC Hudi 构建新的湖仓一体方案。 本文作者是 37 手游大数据开发徐润柏,介绍了 37 手游为何选择 Flink 作为计算引擎,并如何基于 Flink CDC Hudi 构建新的湖…

手把手搭建一个容器化+代理网关+可视化管理环境

作者 | togettoyou来源 | SuperGopher前言本文主要分享个人服务器的应用部署方案现状,容器化代理网关可视化管理。准备阶段我购买的是腾讯云服务器(2 核 4GB 3Mbps)域名也是在腾讯云备案过的,提前准备域名解析配置环境安装 Docker…

漫画 | 一口气搞懂 Serverless !

简介: 第二届云原生编程挑战赛为热爱技术的年轻人提供一个挑战世界级技术问题的舞台,希望用技术为全社会创造更大价值。 作者 | 刘欣 呃,我可能是别人眼中所说的不用奋斗的一代。 大家喜欢听的什么多姿多彩的生活,我都经历过一…

OpenKruise v0.10.0 新特性 WorkloadSpread 解读

简介: 针对需求,OpenKruise 在 v0.10.0 版本中新增了 WorkloadSpread 特性。目前它支持配合 Deployment、ReplicaSet、CloneSet 这些 workload,来管理它们下属 Pod 的分区部署与弹性伸缩。下文会深入介绍 WorkloadSpread 的应用场景和实现原理…

CSS 状态管理,玩出花样了!

作者 | 零一来源 | 前端印象CSS用于交互的方式无非就那么几种:伪类::hover、:link、:active ...动画:animation过渡动画:transition这些交互方式组合起来,真的可以玩出一些花样,例如我们本文的主题&#xf…