随着云原生技术的快速发展,越来越多的业务实现了上云,云原生团队在工作量增大的同时也随之变成了所有问题对接的入口,如何承担这个保姆的角色成为了一道难题,故障的定界和问题证据的交接更是让人头疼的问题。在这种情况下需要有工具帮助云原生团队快速完成故障的定界与故障的根因分析,并进行相关数据证据整理收集,做好接棒和交棒工作,才能摆脱保姆角色,实现加量不加价。
面临的挑战
一方面要支撑新业务的快速上线,另一方面又要保证稳定性。云原生团队也逐步成为底层基础设施的供给方,就变成了有了问题先找云原生团队看看再说,导致公司内云原生团队在同等团队资源情况下承担了越来越多的工作压力,而且常常忙于疲于应付来自各方的问题。
-
故障的定界与根因定位困难: 随着业务规模的扩大,系统故障变得更加复杂,团队需要更快速、更准确地定位故障,并找到问题的根本原因,以便有效解决问题。
-
问题证据的交接不清:多团队协作中,由于故障处理和交接不够清晰,导致问题的处理难以延续和交接,增加了团队间沟通和协作的难度。
-
工作量剧增:团队需要处理更多的容器部署、监控、维护和故障排查工作,使得团队工作量急剧增加。
-
资源限制: 虽然工作量增加,但团队的资源并没有得到相应的增加,这导致团队面临了资源不足的挑战,如人手不足、时间紧迫等。
AiOps无法解决核心问题
目前也有很多团队通过引入AIOps相关工具来试图解决眼下的问题,它的引入也确实帮很多团队解决了很多自动化、智能化运维的问题。但是由于当前AIOps的概念是过大的,导致没有清晰的产品边界和落地的核心能力项,另一方面现有很多产品并不能给出其推理根因的证据链数据,使得相关团队在实际处置中仍需要人工介入。
-
结论的可解释性: AIOps给出概率性的故障定位和根因分析,但并不能给出可解释的结论,同时也不能根据结论立即采取行动,仍需要人工介入梳理。
-
无法进行故障定界与流程闭环:多团队协同工作中,仍需要相关数据及进行佐证并进行工作的交接,才能形成排障流程的闭环。同时故障处置需要可行动的结论才能够展开,目前仍都需要人工参与。
-
专家经验的重要性:在涉及到特定领域的复杂问题时,AIOps 的结论仍需要相关领域的专家进行分析和验证。
在引入了很多工具后往往没有从根本上帮助团队提高能效,反而增加了学习成本和新的维护项。
需要有工具能够指明方向
Kindling-OriginX 通过自动化分析每条 Trace,找出 Trace 中节点 Span 突变的根因,并自动关联各种数据生成可行动、可解释的故障根因报告。相关团队可以由此快速完成故障的定界与数据证据收集,即可迅速展开标准化排障处置与故障问题交接。将云原生团队从保姆的角色中解放出来,能够将更多精力放在基础设施能力建设,为业务方提供更高效稳定的云原生技术底座。
结语
在云原生团队承担更多责任和职能的情况下,如何保证工作效率和质量是一个目前亟待解决的问题。Kindling-OriginX 的思路是通过自动化分析每条 Trace,找出 Trace 中节点 Span 突变的根因,关联各种数据证明推理的准确性,让团队能够更加清晰地完成故障定界与根因分析,为业务方提供强有力的支撑,帮助团队实现加量不加价。
相信随着技术的发展会有更多的工具和方法能够帮助到云原生团队来更好地应对各种挑战,也欢迎大家和我们一起讨论自己团队面临的挑战与解法。