ACK 云原生 AI 套件:云原生 AI 工程化落地最优路径

作者:胡玉瑜(稚柳)

前言

在过去几年中,人工智能技术取得了突飞猛进的发展,涵盖了机器学习、深度学习和神经网络等关键技术的重大突破,这使得人工智能在各个领域都得到广泛应用,对各行各业产生了深远的影响。

特别值得一提的是,近年来,ChatGPT 的快速发展,使得人工智能技术在自然语言处理和对话生成方面取得了显著进展,让人工智能进一步走进人们的日常生活,改变我们的生活和工作方式。

随着人工智能技术的快速发展和应用,AI 工程化作为“人工智能业务创新的加速器”,也在不断地升级和演进。
为了满足日益增长的算力需求、更高的业务稳定性要求,以及更快的创新和迭代交付,越来越多企业选择在云上开发、训练和部署 AI 模型,利用云计算的优势,获取稳定、弹性的大规模异构算力,从而提高算法迭代和应用落地的效率,并提升规模化服务的可靠性。

同时,云原生技术和架构,如容器、Kubernetes、服务网格和 Serverless 等,也被广泛应用于支持 AI、大数据等多种工作负载类型,以及构建多角色协同的 AI 生产系统,进一步增强了 AI 工程化的弹性、可扩展性和灵活性。

图片

随着越来越多的企业在容器服务 ACK 上构建 AI 系统和应用,无论是 ACK 集群和 AI 平台的运维人员,还是使用容器技术调试和运行深度学习任务的算法工程师,他们都在享受云原生技术和架构带来的便利和高效的同时,仍然面临着持续的运维成本和生产效率的挑战。

因此,为了帮助客户更轻松、高效地在容器服务 ACK 上构建 AI 系统,并提升 AI 生产效率,我们推出了容器服务 ACK 云原生 AI 套件。

旨在利用云原生的技术和架构,为客户提供一个全面的云原生 AI 技术和产品方案,能够帮助客户在容器服务 ACK 上快速、定制化构建 AI 生产系统,并持续优化异构资源效率、高效运行异构负载。 让客户的 AI 工程化落地更加快速和有效,从而提升企业的竞争力和创新能力。

图片

什么是云原生 AI 套件

那云原生 AI 套件是以什么样的形态提供给客户的,适合什么样的客户场景,又具有哪些能力优势呢?

首先,我们看下云原生 AI 套件的产品形态,如何把云原生 AI 的能力提供给客户?

云原生 AI 套件通过多个可组装、可扩展、可定制的组件来提供云原生 AI 能力。以 Kubernetes 容器服务为底座,向下封装对各类异构资源的统一管理,向上提供标准 Kubernetes 集群环境和 API,运行各个核心组件。并结合容器镜像服务,以及可观测、智能诊断、弹性伸缩等容器服务相关能力,提供更加全面的产品方案。

云原生 AI 套件的核心组件能力包括四大分层模块,以满足企业客户不同角色、不同架构层级的场景需求。从下往上依次是异构算力管理、AI 任务管理、AI 数据加速、AI 工程管理。

云原生 AI 工程化的第一步,就是搭建一个 K8s 集群管理云上的异构算力,因此第一层就是异构算力管理模块,包括对异构资源的管理运维、弹性伸缩,以及调度与共享。

有了异构计算集群,算法工程师就可以开始提交 AI 作业,通过 K8s 集群的标准接口访问存储服务,以及进行 AI 作业调度和 GPU 资源分配,最后训练好的模型部署在集群中,这样基本实现了 AI 开发和生产流程。因此,往上一层是 AI 任务管理,包括对 AI 任务的提交运行、调度与弹性。

紧接着,企业对生产效率有了更高要求,也遇到更多问题。包括训练数据访问慢,缺少数据集、模型管理,模型发布缺乏质量和性能验证,上线后缺少服务化运维和治理手段,以及团队协作效率低下,Kubernetes 和容器对于算法工程师和数据科学家有一定使用门槛,等等。

因此,往上就 AI 数据加速和 AI 工程管理。AI 数据加速,包括数据集的抽象和管理、数据的访问加速、数据集的编排等等。AI 工程管理,包括命令行工具和 SDK、AI 开发和运维控制台,以及 MLOps 或者 LLMOps 的优化。客户可以根据具体需求选择不同的组件进行使用,快速、定制化构建自己的 AI 平台,或者直接使用云原生 AI 套件集成的阿里云 AI 平台和服务,从而全栈优化 AI 生产系统的性能、效率和成本。

使用云原生 AI 套件可以实现 GPU 利用率提升 100%,数据访问效率提升 30%,AI 训练速度提升 20%。

图片

那接下来我们具体看一下,四大分层能力模块,分别具备哪些优势特性,如何满足不同角色、不同架构层级、不同业务阶段的需求。

还是以从下往上的顺序来看,让我们看一下异构算力管理模块,我们基于容器服务 ACK 提供了资源的管理运维和弹性伸缩,能够支持 CPU、GPU、vGPU、NPU、FPGA 等异构资源的统一接入、监控、诊断和成本分析,帮助运维人员降低管理大规模 GPU 的复杂度,以及提供智能的削峰填谷,减少资源浪费。云原生 AI 套件还提供了资源调度与共享功能,包括 CPU/GPU 拓扑感知调度和 GPU 共享调度与隔离。CPU/GPU 拓扑感知调度基于节点异构资源的拓扑信息,如 GPU 卡之间的 NVLink、PcleSwitch 等通信方式,以及 CPU 的 NUMA 拓扑结构等,在集群维度进行最佳的调度选择,为工作负载提供更好的性能。GPU 共享调度与隔离,能够实现一个 GPU 供多个任务使用,同时也能够实现一个 GPU 上对各应用申请的显存进行隔离以及 GPU 的算力分割,从而提升 GPU 的资源利用率。

接着看一下 AI 任务管理模块,云原生 AI 套件兼容主流 AI 框架和工具,包括 tensorflow、pytorch、JupyterLab、TF-Serving、Triton 等等,也在不断的适配新的分布式训练和推理的框架,如 deepspeed、fasttransformer 等等,能够用统一的方式提交和管理任务。同时,支持集成 Kubeflow Pipelines 或 Argo 云原生工作流引擎,为复杂的 AI 任务提供工作流编排服务。AI 任务管理模块还提供多种调度策略,适用于各种典型的批量任务类型,如 AI 分布式训练。通过 ACK 调度器扩展 Kubernetes 原生调度框架,实现多种典型批量调度策略,包括 Gang Scheduling、Capacity Scheduling、Fair sharing、Binpack/Spread 等,以满足不同任务的调度需求。还支持任务队列,提供自定义的任务优先级管理和租户弹性资源配额控制,提高任务调度和资源利用的效率。此外,还支持弹性训练和推理任务,以提升任务运行的效率和优化成本。

再看一下 AI 数据加速模块,该模块主要通过面向云原生数据密集型应用的数据编排框架 Fluid 来支持。Fluid 提出弹性数据集的概念,将不同位置和类型的存储服务作为数据源聚合到同一数据集中,以实现数据的统一管理。Fluid 支持多种分布式缓存引擎,包括阿里云 JindoRuntime、EFCRuntime,以及开源社区提供的 AlluxioRuntime、JuiceFSRuntime,同时还可以通过对接 Fluid 的标准接口来扩展第三方或者自建的存储系统。结合 Fluid 提供数据集缓存预热,以及缓存数据的容量监控和弹性伸缩等功能,来降低计算任务拉取数据的开销,提升 GPU 计算效率。Fluid 还支持 Serverless 数据访问加速,实现数据访问吞吐的弹性扩容,以及混合云数据访问加速,在弹性上云的同时能够安全、快速地访问自建存储。Fluid 还支持应用协同编排和自动化数据流等功能,让用户在云上使用数据的过程更加简单化和自动化。

最后是 AI 工程管理模块,除了提供 Arena 命令行工具和 SDK,来屏蔽底层复杂性,简化任务管理之外,还提供简单的运维大盘和开发控制台,满足用户快速浏览集群状态、提交和查看任务的需要。同时,云原生 AI 套件致力于持续优化 AI 生产效率和体验,并且全面拥抱大模型生态,支持 MLOps、LLMOps 等相关领域的需求。

图片

通过前面的介绍,相信您已经基本了解了云原生 AI 套件,接下来让我们一起看两个典型的客户案例吧!

客户案例

第一个是任意门: 基于云原生 AI 套件打造人工智能社交网络平台的案例。

任意门的 SoulAPP 是基于兴趣图谱和游戏化玩法构建的移动社交网络,有丰富的 AI 业务场景,包括语音匹配、聊天机器人、文本识别、图像识别、多模态等。

但在传统的虚拟机构建部署方式下,缺乏一个统一的管控平台,导致:

  • 业务迭代速度慢:研发工程师需要花费大量时间在底层资源和环境的准备、管理和运维上,无法专注于业务开发。
  • 运维工作重复:需要做很多重复的环境配置和问题处理,人力投入大,运维效率低。
  • 资源性价比低:有大量堆积机器,且资源利用率低,导致资源闲置浪费。

任意门在阿里云上,通过容器服务 ACK 云原生AI 套件,构建了符合开源标准、自主掌控的 AI PaaS 平台,管理了从初期的数十张 GPU 卡到近千张的超大规模,节省 1 倍运维成本。并且开发迭代效率提升 2~5 倍,日承载 AI 业务发布数百次,很好地支撑了业务的高速发展。通过 GPU 共享及 Fluid 数据加速能力,提升业务效能,资源成本节约 50%。

图片

第二个案例是小米机器学习平台: 基于 Fluid 的 Serverless 混合云容器 AI 平台。

小米机器学习平台(CloudML)承载了图像、NLP、声学、搜索推荐等应用业务,是小米针对机器学习进行全流程优化的高性能、分布式云服务。

支撑 CloudML 的自建集群由于资源池容量、资源弹性能力相对有限,导致业务低谷时资源闲置成本高,业务高峰时资源紧张。迁移到基于 Serverless 容器架构的混合云之后,获得了 Serverless 容器带来的敏捷、安全、弹性、低成本等优势,然而也遇到了几个重要的技术挑战:

  • 无法定制扩展存储类型:公有云集群只支持阿里云存储类型(如 NAS、OSS等),无法直接适配内部自研的分布式文件存储(StarFS)。
  • 缺乏可信透明的数据接入方式:如何在 Serverless 容器的黑盒系统使用过程中规避数据泄露,如何确保数据存储、传输、访问过程中安全可靠,缺乏对应的解决方案。
  • 基础设施差异导致用户体验不一致:混合云场景中,当用户任务在公有云和自建集群之间进行迁移时,用户使用体验需要与自建集群上保持一致,不需要做过多的变更。

通过阿里云 ACK 云原生 AI 套件中提供的 Fluid 存储系统接入方案可以很好的解决以上问题:

首先,对于自建存储 StarFS 的访问提供了很好的扩展支持,并且得益于 Fluid 提供的数据集可观测性功能,能够获取云上工作负载的数据访问特性,从而支持数据热加载和资源分配调优。

其次,方案接入简单、管理便捷。可以自行完成 StarFS 与 Kubernetes 环境的对接工作,整个 thinRuntime开发简单,无需具备复杂的 Kubernetes 定制开发知识。

基于这套方案,只需要了解 Dockerfile 构建就可以完成,开发工作 2-3 小时左右,显著降低了使用 ECI 接入 StarFS 的工作成本。

图片

了解了云原生 AI 套件的能力优势和客户案例,如果您的业务也有类似的需求,那接下来我们就介绍一下云原生 AI 套件怎么用,并且会提供一些有趣的实验让您快速上手。

云原生 AI 套件用法

云原生 AI 套件通常存在两类用户角色,运维管理员主要负责搭建 AI 基础架构和日常管理,而数据科学家和算法工程师则使用云原生 AI 套件提交和管理任务。

这两类角色可以通过命令行工具和控制台进行高效的操作和协同。

首先运维管理员需要先创建和配置 ACK 集群,以及相关的资源和服务,并添加异构资源进行管理和运维。接着进行系统与环境搭建,包括开通和安装云原生 AI 套件,管理用户和配额,准备数据等工作。完成这些准备工作后,算法工程师和数据科学家就可以开始使用云原生 AI 套件提供的命令行工具 Arena 或 AI 套件开发控制台,进行模型的开发、训练与部署,利用调度、弹性、数据访问加速等能力,提高 AI 生产效率和性能,以及进行推理的服务化运维。运维管理员则可以通过运维控制台查看集群、节点、训练任务、资源配额、成本分析等监控大盘,从而对集群进行实时监控和管理。

这种高效协同的工作模式,能够提高生产效率,优化资源利用和管理。

图片

如果您想先从部分简单的功能入手,快速入门云原生 AI 套件,我们为您准备了低门槛、低成本的保姆级实验教程,让您通过简单有趣的小场景,感受云原生 AI 套件加速 AI 工程化的过程。

关于费用呢,云原生 AI 套件是按量计费,先试用,后付费。

使用云原生 AI 套件所产生费用 = 云原生 AI 套件费用 + ACK 费用 + 其他云产品费用

云原生 AI 套件采用阶梯型计费方式,若 GPU 卡数当日最大值不超过 8 张,云原生 AI 套件本身免费。

如果您希望全面、深入地了解云原生 AI 套件的更多能力,我们还为您提供了云原生 AI 工程化实践系列课程,这些课程将帮助您上手云原生 AI 套件的更多功能和最佳实践,让您能够更好地应用于实际项目中。

除了课程,我们还为您提供了交流群,您可以与我们进行互动和交流。在交流群中,您可以及时了解云原生 AI 套件的产品动态,探讨云原生 AI 最新的技术发展。同时,我们也将根据您的业务场景,为您提供更加针对性的解决方案和服务支持。

实验 1:云原生 AI 套件:五分钟微调宝可梦风格 StableDiffusion [ 1]

实验 2:云原生 AI 套件:一键训练大模型及部署 GPU 共享推理服务 [ 2]

更多实验请见:云原生 AI 工程化实践系列课 [ 3]

图片

希望您能够持续关注云原生 AI 套件,让我们帮助您以云原生的技术和架构加速 AI 工程化落地,提高 AI 生产效率并优化成本,同时,我们也将不断发掘云原生 AI 的技术和应用,为您提供更加丰富的产品能力,更加优质的服务和体验。欢迎使用钉钉通过搜索群码的方式与我们一起沟通。(钉钉群号:33214567)

相关链接:

[1] 云原生 AI 套件:五分钟微调宝可梦风格 StableDiffusion

https://developer.aliyun.com/adc/scenario/5d4b9f5be5104302b9c4ca2fd1a4755e

[2] 云原生 AI 套件:一键训练大模型及部署 GPU 共享推理服务

https://developer.aliyun.com/adc/scenario/99e00d4dea0e4fbf952780b30136209d

[3] 云原生 AI 工程化实践系列课

https://developer.aliyun.com/adc/scenarioSeries/e5427732f6e94cde939a7aeed1d19180

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/101182.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉处理的开源框架

计算机视觉是一门涉及图像和视频分析的领域,有许多开源的框架和库可用于构建计算机视觉应用程序。以下是一些常见的计算机视觉开源框架及其特点,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合…

地级市HVV | 未授权访问合集

在网站前后端分离盛行下,将大部分权限控制交给前端,导致js中隐藏未授权或者可绕过的前端鉴权。前后端分离的好处是提高开发效率,同时防止黑客更直接的对服务器造成危害,但权限控制的工作量全部交给前端会导致大量页面未授权或者后…

Flink---12、状态后端(HashMapStateBackend/RocksDB)、如何选择正确的状态后端

星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里 文章目录 1、状态后端(State Backends)1.1 状态后端的分类(HashMapStateBackend/RocksDB)1.2 如何选择正确的状态后端1.3 状态后端的配置 1、状态后端&am…

香港专用服务器拥有良好的国际网络连接

香港服务器在多个领域有着广泛的应用。无论是电子商务、金融交易、游戏娱乐还是社交媒体等,香港服务器都能够提供高效稳定的服务。对于跨境电商来说,搭建香港服务器可以更好地满足亚洲用户的购物需求;对于金融机构来说,香港服务器…

力扣第98题 验证二叉搜索树 c++ 与上一篇文章相似

题目 98. 验证二叉搜索树 中等 相关标签 树 深度优先搜索 二叉搜索树 二叉树 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下: 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当…

如何在小程序中设置导航栏文字颜色和背景颜色

不同商家有不同的颜色风格,例如有些做设计的公司,主要是黑色风格;有些卖珠宝的商家,主要是金色风格;他们的小程序,也需要进行同样的风格设定。下面具体介绍怎么在小程序中进行整个风格设定。 1. 在小程序管…

Gooxi国鑫搭载第四代英特尔至强可扩展处理器系列服务器焕新登场

由算力驱动的数字经济渗透到了百行千业,在驱动传统经济转型升级和效能优化的同时,也大幅度增加了各行业数据处理能力的需求 。 面对千行百业加速创新应用和AIGC时代像潮水一样奔涌算力需求,得益于第四代英特尔至强可扩展处理器以及基于Gooxi最…

MySQL之MHA高可用配置及故障切换实例

MySQL之MHA高可用配置及故障切换实例 1、MHA概述1.1MHA 是什么1.2、MHA 的组成1.3MHA 的特点 2、MHA搭建准备2.1实验思路2.2实验准备 3、MHA搭建的步骤3.1配置主从复制3.2安装 MHA 软件3.3故障模拟 1、MHA概述 1.1MHA 是什么 MHA(MasterHigh Availability&#xf…

大端字节序存储 | 小端字节序存储介绍

为什么存储的顺序有些变动呢? 大小端的介绍 我们在创建变量时,操作系统就会给你分配空间,比如你创建了【short/int/double/float】的变量,这些变量的类型都是大于1个字节的,操作系统会根据你这个变量的类型&#xff…

虹科分享 | 想买车无忧?AR为您带来全新体验!

新能源汽车的蓬勃发展,推动着汽车行业加速进行数字化变革。据数据显示,全球新能源汽车销售额持续上升,预计到2025年,新能源汽车市场规模将达到约 4200亿美元,年复合增长率超过 30%。这表明消费者对清洁能源出行的需求不…

AIGC AI绘画 Midjourney 参数大全详细列表

AIGC ChatGPT 职场案例 AI 绘画 与 短视频制作, Power BI 商业智能 68集, 数据库Mysql8.0 54集 数据库Oracle21C 142集, Office 2021实战, Python 数据分析, ETL Informatica 案例实战 Excel 2021实操,函数大全,图表大全,大屏可视化制作 加技巧500集 数据分析可视化T…

Android 13 骁龙相机点击拍照流程分析(一)——点击拍照到更新到左下角缩略图

一.背景 由于最近客户定制需要将文件挂载类型修改为sdcardfs,由于修改了文件挂载类型,导致了骁龙相机拍照后不能点击进入相册,故对骁龙相机从点击事件开始进行问题的排查,此处不介绍最终的sdcardfs挂载后的问题解决方案 二.流程介绍 拍照的流程大概分为几个阶段:打开相机…

【MySql】mysql之进阶查询语句

目录 一、常用查询 1、order by按关键字排序❤ 1.1 升序排序 1.2 降序排序 1.3 结合where进项条件过滤再排序 1.4 多字段排序 2、and和or判断 2.1 and和or的使用 2.2 嵌套、多条件使用 3、distinct 查询不重复记录 4、group by 对结果进行分组 5、limit限制结果…

深度学习笔记之优化算法(五)AdaGrad算法的简单认识

深度学习笔记之优化算法——AdaGrad算法的简单认识 引言回顾:动量法与Nesterov动量法优化学习率的合理性AdaGrad算法的简单认识AdaGrad的算法过程描述(2023/10/10)补充:AdaGrad示例代码 引言 上一节对 Nesterov \text{Nesterov} Nesterov动量法进行了简…

算法题:买卖股票的最佳时机 II (贪心算法解决股票问题)

这道题是贪心算法的中级难度练习题,由于题目设定,整个价格都是透明的,这里并不涉及需要预测股票涨势的问题。解决思路不难,就是一旦股票价格开始下降了就买入,一旦上升了,就赶紧卖出。(完整题目…

SpringBoot 如何使用 Grafana 进行可视化监控

使用Spring Boot Sleuth进行分布式跟踪 在现代分布式应用程序中,跟踪请求和了解应用程序的性能是至关重要的。Spring Boot Sleuth是一个分布式跟踪解决方案,它可以帮助您在分布式系统中跟踪请求并分析性能问题。本文将介绍如何在Spring Boot应用程序中使…

DC2DC电源设计注意事项--1,Feedback

电源采集图如下图 Feedback 采集电压点应该在靠近负载侧。这样可以减少大电流导线导致的电压差,真实反应输出电压值 FB_1P21采集电路靠近芯片侧, 2.1,采集分压电路上侧为Vout Vnoise, 那么一分压就噪声就小了。假如采集电路远离芯片侧&…

CSS学习基础知识

CSS学习笔记 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-width,…

Java-Atomic原子操作类详解及源码分析,Java原子操作类进阶,LongAdder源码分析

文章目录 一、Java原子操作类概述1、什么是原子操作类2、为什么要用原子操作类3、CAS入门 二、基本类型原子类1、概述2、代码实例 三、数组类型原子类1、概述2、代码实例 四、引用类型原子类1、概述2、AtomicReference3、ABA问题与AtomicStampedReference4、一次性修改&#xf…

ubuntu疑难杂症

1.ubuntu 使用apt 安装软件时提示出现不能获得lock $ sudo rm /var/lib/dpkg/lock$ sudo dpkg --configure -a$ sudo rm /var/lib/apt/lists/locksudo rm /var/lib/dpkg/lock sudo rm /var/lib/dpkg/lock-frontend sudo rm /var/cache/apt/archives/lock