期待已久!阿里云容器服务 ACK AI 助手正式上线

作者:行疾

大模型技术的蓬勃发展持续引领 AI 出圈潮流,各行各业都在尝试采用 AI 工具实现智能增效。

2023 年云栖大会上,阿里云容器服务团队正式发布 ACK AI 助手,带来大模型增强智能诊断,帮助企业和开发者降低 K8s 的运维复杂度。这款国内首家云原生容器场景的原生 AI 产品 —— ACK AI 助手 beta 版现已全面上线, 功能欢迎大家试用。

Kubernetes 好似一台复杂的飞机发动机

图片

Kubernetes复杂概念、运维体系犹如一台复杂的飞机发动机

“Kubernetes 是我在技术生涯中遇到的最令人沮丧、最痛苦、但却最美妙的东西。”

“Kubernetes 是一个复杂的软件,有许多可动组件和极高的可扩展性。正如你能用 Kubernetes 做很多事情一样,完成这些事情的方法也有很多种。如果你给某人一个Kubernetes 集群,却不告诉他们确切的操作方法,他们会找到你没有准备好的方法。他们会发现不同的工具,很快你们之间就会有分歧。”

这是两位 Kubernetes 用户的心声,Dimensional Research 和 Spectro Cloud 的一次联合调研报告发现,Kubernetes 为架构带来了一种独特的高复杂度,但也恰恰因此,Kubernetes才能为用户带来最为欣赏的灵活性。

CNCF 调研报告同样显示,Kubernetes 的使用者反馈使用容器服务的最大障碍和挑战是面对复杂的概念和运维体系的巨大学习成本。

参考:https://www.cncf.io/reports/cncf-annual-survey-2022/

Kubernetes 的运维体系的复杂,还体现在冗长的异常排查链路。可以看到下图为一次典型的 Kubernetes 上应用的异常恢复运维过程。

图片

一次典型的容器场景故障恢复的完整过程

故障恢复的全过程需要至少经过如下三个环节,才能最终闭环问题。

  1. 使用可观测性发现异常 (Observability)2. 运维止血 (Ops)

  2. 问题根因定位

每一个环节都需要有 Kubernetes 观测、运维经验的人员参与,才能缩短整个问题发现的流程。

当完成整个链路的排查,最终修复问题,可能需要数小时的时长,造成业务影响,甚至最终造成资损。

容器服务 ACK 团队正在探索,通过新一代的基于 AI 智能的可观测 & AIOps 能力,如何大幅缩短平均恢复时间 (Mean Time To Recovery)。

AI 能力的跨时代飞跃从“人工+自能”到人工智能

今日大语言模型 (LLM) 展现出惊人的推理、学习能力,AI 的成熟度也发生了具体大飞跃。

图片

以 ChatGPT 与 Warfare 为例的 AI 能力对比

如上图以 ChatGPT 与 Warfare 为例的 AI 能力对比,我们可以简单判断 AI 是否在成熟度上能对我们有一定的帮助 (Good/Evil):

大致 AI 的成熟度可体现在以下三个方面:

1. 可重复性 - AI 的推理和学习能力已经成熟到能帮助人胜任一些可重复的事务,并提供自动化。

2. 复杂度 - AI 能帮助我们完成一些复杂逻辑的推理。

3. 无人值守 - AI 能在没有或较少人为干涉的情况下进行工作。

所以当前随着 AI 能力的飞跃,我们可以通过 AI 能力提供下一代 AI-Powered Observability&AIOps 能力。

参考:https://www.cncf.io/blog/2023/09/05/ai-for-kubernetes-good-or-evil/

ACK AI 助手为 K8s 提供 AI 增强的 AIOps

ACK AI 助手已经上线智能快速诊断、智能问答两大能力

基于 ACK 可观测体系的监控数据,并结合容器服务 ACK 团队专业的 Kubernetes 经验沉淀,通过大模型 (LLM) 的分析推理能力进行问题的根因定位,提供更智能的 Kubernetes 产品使用体验。

图片

目前提供主要的功能场景:

  • 智能快速诊断
    • 通过和 ACK 上观测体系的结合,自动快速获取异常信息状态。
    • 结合 ACK 团队专业的 Kubernetes 经验沉淀,提供容器场景的专家知识,进行异常诊断智能判断。
    • 结合大模型 (LLM) 的推理能力,对综合监控信息进行根因定位。
    • 自动串联从问题观测发现、问题根因诊断、AIOps 的异常问题处理,与 ACK 专家诊断系统结合,闭环运维流程。
  • 智能问答
    • 结合 ACK 团队专业的 Kubernetes 经验沉淀,提供容器场景的专家知识问答。
    • 结合大模型 (LLM) 的推理能力,对综合监控信息进行整合。

AIOps 的基础来自于 ACK 可观测体系的结合

图片

示例一个异常 Deployment 的异常诊断拓扑结构

ACK AI 助手在快速故障诊断的场景下,能通过 ACK 上的可观测体系自动获取 ACK 集群上的异常监控状态信息的同时,也能根据 Kubernetes 的部署结构,智能感知下钻寻找根因。

如上图示例,用户看到某 Deployment 发生异常,实际的观测诊断信息需要结合 Kubernetes 的拓扑结构,下钻诊断 Deployment 下的某个异常 Pod,且可能还需要结合该异常 Pod 的事件,判断是否下钻诊断该异常 Pod 所在的节点 Node 等,最终下钻找到根因。最终诊断信息为一个拓扑树形结构。

由多年专家经验训练而得的 LLM

ACK AI 助手也融入了阿里云容器服务 ACK 团队沉淀的 Kubernetes 的异常诊断、故障恢复的经验。

如下是在 ACK 中一个 Pod 异常的专家系统故障诊断流程示例:

图片

示例一个 Pod 异常的专家系统故障诊断流程

ACK AI 助手在实际故障诊断的过程中,会把故障诊断大体上拆分成几个阶段:

  1. ACK AI 助手会根据可观测信息、拆分下钻问题并获取更多信息,从而浅析故障原因。

  2. ACK AI 助手会把浅析的结论,结合 ACK 已有的专业故障诊断系统(专家系统)的经验沉淀,得到更准确的诊断结论。

参考:https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/pod-troubleshooting-1

典型使用场景一:智能快速诊断

图片

如上图所示,是一个典型的 Pod 因为 Node Affinity(节点亲和性)配置,导致 Pod 无法被调度的场景。

ACK AI 助手可以通过在 ACK 控制台对应 Deployment/Pod 页面的异常状态附近找到“智能诊断”按钮,直接唤醒并发起 ACK AI 助手的快速诊断。

可以看到 ACK AI 助手会贴心的解释此异常的原因,以及给出修复建议。

如果 Deployment 的异常还是无法最终定位,ACK AI 助手也会在底部给出接下来您还可以直接对异常的 Pod 发起专家系统的故障诊断,从而给出更进一步的排查诊断结果。

目前 ACK AI 助手提供了 Deployment、Pod、Event、Node 的主要 Kubernetes 实体的智能诊断功能,您可以在发生异常时在 ACK 控制台对应页面找到“智能诊断”按钮。

典型使用场景二:智能问答

图片

如上图所示,ACK AI 助手的智能问答功能,可以在 ACK 控制台右下角的 icon 图标唤醒。您可以随时向他提问,咨询关于 Kubernetes 和 ACK 产品的相关问题。

帮助您快速了解容器领域的专家知识,有效降低用户的学习成本。

如何开启 ACK AI 助手?

ACK AI 助手的智能问答功能,可以在 ACK 控制台右下角的 icon 图标唤醒。

ACK AI 助手可以通过在 ACK 控制台对应节点列表、Deployment、Pod、Pod 事件页面的异常状态附近找到“智能诊断”按钮,直接唤醒并发起 ACK AI 助手的快速诊断。

ACK AI 助手,自阿里云容器服务团队在 2023 年云栖大会上宣发以来,作为国内首家推出云原生容器场景的原生 AI 产品功能,目前已发布 beta 版并全面对客户开放,欢迎各位用户开始试用。

我们诚邀您点击阅读原文,登录容器服务 ACK 控制台体验 ACK AI 助手能力,并加入钉钉群交流反馈您的使用体验。(钉钉群号:70080006301

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/643296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spark运行架构以及容错机制

Spark运行架构以及容错机制 1. Spark的角色区分1.1 Driver1.2 Excuter 2. Spark-Cluster模式的任务提交流程2.1 Spark On Yarn的任务提交流程2.1.1 yarn相关概念2.1.2 任务提交流程 2.2 Spark On K8S的任务提交流程2.2.1 k8s相关概念2.2.2 任务提交流程 3. Spark-Cluster模式的…

BACnet网关BA100实现Modbus转BACnet,专为Modbus协议设备与BA系统的高效对接设计

随着物联网技术的迅猛发展,人们深刻认识到在智能化生产和生活中,实时、可靠、安全的数据传输至关重要。在此背景下,高性能的物联网数据传输解决方案——协议转换网关应运而生,广泛应用于工业自动化和数字化工厂应用环境中。 钡铼…

搜维尔科技:【简报】元宇宙数字人赛道,《莉思菱娜》

个性有些古灵精怪时儿安静时而吵闹,虽然以人类寿命来算已经200多岁但在 吸血鬼中还只是个小毛头,从中学开始喜欢打扮偏爱黑白灰色系的服装喜欢时 尚圈,立志想成为美妆或时尚网红不过目前还是学生,脸上的浅色血迹是纹身 贴纸&#…

深度学习-循环神经网络-RNN实现股价预测-LSTM自动生成文本

序列模型(Sequence Model) 基于文本内容及其前后信息进行预测 基于目标不同时刻状态进行预测 基于数据历史信息进行预测 序列模型:输入或者输出中包含有序列数据的模型 突出数据的前后序列关系 两大特点: 输入(输出)元素之间是具有顺序关系。不同的顺序,得到的结果应…

安全基础~通用漏洞1

文章目录 知识补充Acess数据库注入MySQL数据库PostgreSQL-高权限读写注入MSSQL-sa高权限读写执行注入Oracle 注入Mongodb 注入sqlmap基础命令 知识补充 order by的意义: union 操作符用于合并两个或多个 select语句的结果集。 union 内部的每个 select 语句必须拥有…

哈希--73. 矩阵置零/medium 理解度A

73. 矩阵置零 1、题目2、题目分析3、复杂度最优解代码示例4、适用场景 1、题目 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,…

$.ajax与同源策略

1.jQuery中的ajax请求 学习Jquery中的ajax,我们借助官方文档 $.ajax(url,[settings]) | jQuery API 3.2 中文文档 | jQuery API 在线手册 使用$.ajax()方法完成图书案例 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8&quo…

mc我的世界服务器多少钱一个月?

我的世界服务器多少钱一个月&#xff1f;低至7元一个月&#xff0c;阿里云和腾讯云均可以选择mc服务器&#xff0c;阿里云2核2G3M轻量服务器87元一年、腾讯云轻量2核2G3M服务器88元一年&#xff0c;阿里云ECS云服务器2核2G3M带宽99元一年&#xff0c;腾讯云2核4G5M带宽轻量应用…

RabbitMQ中交换机的应用 ,原理 ,案例的实现

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是平顶山大师&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;推荐给大家我的博客专栏《RabbitMQ中交换机的应用及原理&#xff0c;案…

8.Gateway服务网关

3.Gateway服务网关 Spring Cloud Gateway 是 Spring Cloud 的一个全新项目&#xff0c;该项目是基于 Spring 5.0&#xff0c;Spring Boot 2.0 和 Project Reactor 等响应式编程和事件流技术开发的网关&#xff0c;它旨在为微服务架构提供一种简单有效的统一的 API 路由管理方式…

JVM工作原理与实战(二十五):堆的垃圾回收-垃圾回收算法

专栏导航 JVM工作原理与实战 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、垃圾回收算法介绍 1.垃圾回收算法的历史和分类 2.垃圾回收算法的评价标准 二、垃圾回收算法详解 1.标记清除算法 2.复制算法 3.标记整理算法 4.分代垃圾回收算法 总结 前言…

密码学的100个基本概念

密码学作为信息安全的基础&#xff0c;极为重要,本文分为上下两部分&#xff0c;总计10个章节&#xff0c;回顾了密码学的100个基本概念&#xff0c;供小伙伴们学习参考。本文将先介绍前五个章节的内容。 一、密码学历史 二、密码学基础 三、分组密码 四、序列密码 五、哈希…

生命在于折腾——WeChat机器人的研究和探索

一、前言 2022年&#xff0c;我玩过原神&#xff0c;当时看到了云崽的QQ机器人&#xff0c;很是感兴趣&#xff0c;支持各种插件&#xff0c;查询游戏内角色相关信息&#xff0c;当时我也自己写了几个插件&#xff0c;也看到很多大佬编写的好玩的插件&#xff0c;后来因为QQ不…

数据结构:搜索二叉树 | 红黑树 | 验证是否为红黑树

文章目录 1.红黑树的概述2.红黑树的性质3.红黑树的代码实现3.1.红黑树的节点定义3.2.红黑树的插入操作3.3.红黑树是否平衡 黑红树是一颗特殊的搜索二叉树&#xff0c;本文在前文的基础上&#xff0c;图解红黑树插入&#xff1a;前文 链接&#xff0c;完整对部分关键代码展示&a…

SG-8506CA 可编程晶体振荡器 (SPXO)

输出: LV-PECL频率范围: 50MHz ~ 800MHz电源电压: 2.5V to 3.3V外部尺寸规格: 7.0 5.0 1.5mm (8引脚)特性:用户指定一个起始频率, 7-bit I2C 地址:用户可编程: I2C 接口:基频的高频晶体:低抖动PLL技术应用:OTN, BTS, 测试设备 规格&#xff08;特征&#xff09; *1 这包括初…

Intel Atom + Artix-7 100T FPGA,CompactRIO单板控制器

模拟和数字I/O&#xff0c;RMC&#xff0c;DisplayPort&#xff0c;1.33 GHz双核CPU&#xff0c;1 GB DRAM&#xff0c;4 GB存储容量&#xff0c;Artix-7 100T FPGA&#xff0c;CompactRIO单板控制器 CompactRIO控制器是搭载了实时处理器和用户可编程FPGA的嵌入式控制器。其产…

Elasticsearch:聊天机器人、人工智能和人力资源:电信公司和企业组织的成功组合

作者&#xff1a;来自 Elastic Jrgen Obermann, Piotr Kobziakowski 让我们来谈谈大型企业人力资源领域中一些很酷且改变游戏规则的东西&#xff1a;生成式 AI 和 Elastic Stack 的绝佳组合。 现在&#xff0c;想象一下大型电信公司的典型人力资源部门 — 他们正在处理一百万件…

【Java IO】设计模式 (装饰者模式)

Java I/O 使用了装饰者模式来实现。 装饰者模式 请参考装饰者模式详解 装饰者(Decorator)和具体组件(ConcreteComponent)都继承自组件(Component)&#xff0c;具体组件的方法实现不需要依赖于其它对象&#xff0c;而装饰者组合了一个组件&#xff0c;这样它可以装饰其它装饰者…

022-安全开发-PHP应用留言板功能超全局变量数据库操作第三方插件引用

022-安全开发-PHP应用&留言板功能&超全局变量&数据库操作&第三方插件引用 #知识点&#xff1a; 1、PHP留言板前后端功能实现 2、数据库创建&架构&增删改查 3、内置超全局变量&HTML&JS混编 4、第三方应用插件&传参&对象调用 演示案例&a…

cad二次开发autolisp(二)

目录 一、选择集1.1 选择集的创建1.2 选择集的编辑1.3 操作选择集 二、命令行设置对话框2.1 设置图层2.2 加载线型2.3 设置字体样式2.4 设置标注样式&#xff08;了解即可&#xff09; 三、符号表3.1 简介3.2 符号表查找3.2 符号表删改增 一、选择集 定义&#xff1a;批量选择…