云原生演进中的AI算力高效使用

0 1 云原生技术的普及与发展

云原生技术是一种基于容器技术的轻量级、高可用的应用架构,具有弹性扩展、快速部署、统一管理等特点。随着企业对敏捷开发和快速迭代的需求不断增加,云原生技术的普及与发展已成为不可逆转的趋势。

图1. 云原生技术发展之路

云原生技术通过将应用与底层基础设施解耦,实现了应用的快速部署和动态扩展。它采用了容器化、微服务、CICD等技术手段,使得应用可以更加高效地运行在云环境中。同时,云原生技术还提供了强大的监控和日志功能,帮助企业更好地管理和维护应用。

图片

图2. 云原生三大特征

随着云原生理念的推广与技术的不断丰富,云原生已经进入成熟阶段,越来越多的企业开始采用云原生架构来构建和部署应用。当前云原生引领数字化转型升级已成为趋势,在人工智能、大数据、边缘计算、金融等领域崭露头角。云原生技术(例如:容器、微服务、DevOps等)提供的极致弹性能力和故障自愈能力已成为应用开发的最佳技术手段。原生理念及其技术以灵活性、敏捷性和便捷性已获得各行各业的广泛关注。云原生促使产业融合速度加快、网络业务迭代周期缩短。

0 2 人工智能通过容器实现最佳表现

2.1 容器非常适合人工智能应用的部署和管理

首先,容器可以帮助人工智能应用实现快速部署和动态扩展。由于容器具有轻量级、可移植性和快速部署的特性,人工智能应用可以轻松地在不同的云平台之间进行迁移和部署。同时,容器还可以根据需求动态地扩展或缩减应用,从而确保人工智能应用能够高效地应对突发流量或节省资源。

其次,容器可以帮助人工智能应用实现高可用性和容错性。容器可以在多个节点之间自动进行负载均衡和容错处理,从而确保人工智能应用的可用性和稳定性。当某个节点出现故障时,容器可以快速地将应用切换到其他节点上,从而保证应用的正常运行。

此外,容器还可以帮助人工智能应用实现数据安全和隐私保护。由于容器具有隔离性,可以限制对底层资源的访问权限,从而防止数据泄露和攻击。同时,容器还可以通过加密通信、访问控制和安全审计等手段来保护数据的安全性和隐私性。

最后,容器可以帮助人工智能应用实现高效的资源利用和管理。容器可以对CPU、内存和存储等资源进行精细化管理,从而确保人工智能应用能够高效地利用资源并降低成本。

综上所述,容器是一种非常适合人工智能应用的部署和管理方式。通过容器化人工智能应用,可以实现快速部署、动态扩展、高可用性、数据安全和资源高效利用等多种优势。

据统计,目前AI容器化场景是最常见的部署形态。这也佐证了云原生是AI应用开发、部署的最好形式。

2.2 AI应用转换为容器的好处

将整个 AI 应用程序开发到部署转换为容器的好处如下:

· 针对不同版本的框架、操作系统和边缘设备/平台,为每个 AI 模型提供单独的轻量容器。

· 每个 AI 模型可以都有一个容器,用于自定义部署。例如:一个容器对开发人员友好,而另一个容器对用户友好且无需编码即可使用。

· 每个 AI 模型的单独容器,用于 AI 项目中的不同版本或环境(开发团队、QA 团队、UAT(用户验收测试)等)。

· 容器应用程序真正更有效地加速了 AI 应用程序开发-部署,并有助于维护和管理用于多种用途的多个模型。

0 3 AI应用多种形态并存的现状

云原生技术发展之路并非一蹴而就,因为它不仅涉及到架构改变,也包括理念的变化,公司流程和人员配置的相应调整等。

此外,每个企业的IT基础设施水平是不一样的,甚至企业内部也可能存在多重基础设施形态。如KVM虚拟机,OpenStack虚拟机,VMWare虚拟机,裸服务器,虚拟化节点,docker,K8S等,不同应用在云原生进展中会存在进度不一致的现象。如果等所有云原生应用完成,则会无法尽快享受到软件定义AI算力的效益。

AI赋能千行百业,在AI浪潮席卷而来的背景下,所有人都希望尽快参与到AI的盛宴中,首先关注的是make it work,于是就不可避免的出现了多AI应用形态并存的局面。

目前主流使用AI算力的形态是最粗放的方式,即直通物理GPU或者简单切分后的vGPU直通。

图3. 常见的算力使用的方式

根据AI底层基础实施层的形态,也就有了如下的组合方式:

· 直通KVM/VMWare虚拟机。

· 直通Docker容器。

· 裸服务器直接使用。

· K8S通过device plugin挂载物理整卡使用。

· OpenStack 通过cyborg挂载物理或者虚拟GPU使用等。

0 4 OrionX赋能云原生

4.1 OrionX池化解决方案的部署灵活性

OrionX部署的灵活性可以通过3个关键字来概括:“一池多芯”、“一池多云”和“分离部署”:

“一池多芯”,即OrionX不仅支持Nvidia GPU卡,也支持国产加速卡。

“一池多云”,指软件可以部署在任何的云环境中,甚至是虚拟化节点,以及裸服务器中。

图片

图4. OrionX支持“一池多芯,一池多云”的部署

“分离部署”,即OrionX通过远程调用,可以基于高速无损网络,跨节点甚至跨集群调取智算资源,使 AI应用与物理GPU服务器分离部署,从而进一步降低碎片化率。

图片

图5. 阶段3的“远程调用”能力

所以总体上,有如下两条路线可以解决云原生中多形态并存的池化算力使用问题:

· 通过“一池多云”提供“多应用-算力集群”部署。

· 通过“分离部署”提供“多应用集群-单算力集群”部署。

4.2 异构多云场景下的算力集群统一纳管

该方案是指,每种形态的应用维持原有AI算力资源拓扑使用,通过各自部署一套OrionX软件,进行AI算力的纳管和灵活高效的调度,并通过oCenter作为管理界面,进行多资源池的统一运维和管理。

图片

图6. 异构多云算力集群统一纳管

这种方式不需要依赖于高速无损网络互联所有的服务器,部署和使用相对简单;缺点是由于每个应用环境独立维护,并由各自算力池化集群支持,所以维护成本较高、池化复用的效果没有发挥极致。

4.3 多应用集群下的算力底座

在该方案中,所有的AI算力通过部署了OrionX的智算容器云纳管,调度和分配,其它多个应用集群的应用都通过无损网络来使用这个算力集群的算力。随着时间推移,完成云原生改造的业务可以逐步向智算容器云中迁移。

图片

图7. 多应用场景下的算力底座
 

这种部署需要依赖于高速无损网络,但对运维管理和后续的逐步迁移中比较友好。

4.4 总结

这两种情况各有优缺点,建议企业在云原生演进进程中,根据各自环境情况进行选择。实际方案选择依赖于现有基础设施的几个关键因素,比如包括但不限于:集群内的互联网络技术(包括现有网路互联方式、是否有后续组网改造计划),以及多种形态集群的规模等。

归纳一下:

· 异构多云场景下的算力集群统一纳管适合于多种形态应用并存且数量较多,不同形态应用之间没有高速无损互联网络的企业。通过异构多云部署,用户可以在统一界面管理多个应用,并尽可能发挥每个集群内的AI算力效能。

· 多应用集群下的算力底座适合配置了高速无损网络的企业,通过算力池化技术,用户可远程调用智算容器云中的AI算力给多个应用,避免为了某些极少应用单独配置基础设施的采购及运维成本。

展望未来,在长距离无损网络成为现实情况下,企业将内部所有算力基础设施整合为一朵的智算容器云,会是最理想的状态。现有的方案作为中间的演进方案都具备了未来平滑演进到最终形态的企业智算基础设施。

参考文献

1. 《云原生架构:构建高可用、可伸缩的现代互联网应用》

https://www.51cto.com/article/764431.html 

2.《容器技术引领数字化转型:开启高效部署和可扩展的新时代》https://baijiahao.baidu.com/s?id=1769912365777860254&wfr=spider&for=pc 

3. 《通过AI 应用程序容器化实现高效的MLOpshttps://www.elecfans.com/d/1863258.html 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/633311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电商平台spu和sku的完整设计

一、关于数据库表的设计 1、商品属性表 比如一个衣服有颜色、尺码、款式这个叫属性表 -- ------------------------ -- 商品属性表 -- ------------------------ DROP TABLE IF EXISTS attribute; CREATE TABLE attribute (id int(11) NOT NULL PRIMARY KEY AUTO_INCREMENT CO…

HCIA-H12-811题目解析(12)

1、如图所示, 关于OSPF的拓扑和配置,下列说法中正确的是? 2、如图所示,私有网络中有一台web服务器需要向公网用户提供HTTP服务,因此网络管理员需要在网关路由器RTA上配置NAT以实现需求,则下面配置中能满足…

区间预测 | Matlab实现LSSVM-ABKDE的最小二乘支持向量机结合自适应带宽核密度估计多变量回归区间预测

区间预测 | Matlab实现LSSVM-ABKDE的最小二乘支持向量机结合自适应带宽核密度估计多变量回归区间预测 目录 区间预测 | Matlab实现LSSVM-ABKDE的最小二乘支持向量机结合自适应带宽核密度估计多变量回归区间预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现…

爬虫接口获取外汇数据(汇率,外汇储备,贸易顺差,美国CPI,M2,国债利率)

akshare是一个很好用的财经数据api接口,完全免费!!和Tushare不一样。 除了我标题显示的数据外,他还提供各种股票数据,债券数据,外汇,期货,宏观经济,基金,银行…

深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?

深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度? 目录 深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?引言1 数据预处理2 数据集增强3 特征选择4 模型选择5 模型正则化与泛化6 优化器7 学习率8 超…

年龄性别预测2:Pytorch实现年龄性别预测和识别(含训练代码和数据)

年龄性别预测2:Pytorch实现年龄性别预测和识别(含训练代码和数据) 目录 年龄性别预测2:Pytorch实现年龄性别预测和识别(含训练代码和数据) 1.年龄性别预测和识别方法 2.年龄性别预测和识别数据集 3.人脸检测模型 4.年龄性别预测和识别模型训练 &a…

窗口辅助管理工具--Magnet 中文

Magnet是一款窗口管理工具软件,可以帮助用户更高效地组织和管理打开的窗口。它通过简单的拖放操作将窗口捕捉到特定的位置和大小,支持快速将窗口分割成不同的区域,并在屏幕上创建自定义的布局。用户可以选择预设的布局选项,也可以…

密码学学习笔记(二十四):TCP/IP协议栈

TCP/IP协议栈的基础结构包括应用层、传输层、网络层、数据链路层和物理层。 应用层 应用层位于TCP/IP协议栈的最顶层,是用户与网络通信的接口。这一层包括了各种高级应用协议,如HTTP(用于网页浏览)、FTP(用于文件传输…

适用于电脑的 10 款最佳文件恢复软件

由于在线可用选项数量众多,寻找适用于 Windows 11 的最佳文件恢复软件可能会很棘手,但本指南将为您提供有关此主题所需的所有信息。 文件或数据丢失是指意外或无意丢失电子设备上存储的重要数字文件的事件。这可能是由于外部或内部问题造成的&#xff0…

element-ui的el-upload组件实现上传拖拽排序图片顺序(sortablejs)

<template><!-- 省略其他配置 --><el-upload ref"upload" :file-list.sync"fileList"></el-upload></template><script>import Sortable from sortablejs;export default {data() {return {fileList: []};},mounted()…

【数据结构与算法】排序算法:冒泡排序,冒泡排序优化,选择排序、选择排序优化

目录 一、冒泡排序 1、冒泡排序思想 2、冒泡排序算法的性能分析 代码实现&#xff1a; 二、选择排序 1、选择排序思想 2、选择排序算法的性能分析 代码实现&#xff1a; 一、冒泡排序 1、冒泡排序思想 冒泡排序的基本思想是通过相邻元素之间的比较和交换来逐步将最大…

基于springboot+vue的房产销售系统(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容&#xff1a;毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目背景…

UI自动化Selenium 无头模式运行

1、导入浏览器参数设置 from selenium.webdriver.chrome.options import Options 2、创建参数&#xff0c;并使用无厘头模式创建driver对象 opt Options() # 新建参数对象 opt.add_argument("--headless") # 无头 self.driver webdriver.Chrome(optionsopt) …

List详解,线性表

什么是List 在集合框架中&#xff0c;list是一个接口&#xff0c;继承自collection&#xff0c;collection也是接口&#xff0c;继承自Iterable&#xff1b; Iterable是一个接口&#xff0c;表示实现该接口的类是可以逐个元素进行遍历的&#xff0c;如下&#xff1a; 第一个是…

游卡:OceanBase在游戏核心业务的规模化降本实践

从 2023 年 9 月测试 OceanBase&#xff0c;到如今 3 个核心业务应用 OceanBase&#xff0c;国内最早卡牌游戏研发者之一的游卡仅用了两个月。是什么原因让游卡放弃游戏行业通用的 MySQL方案&#xff0c;选择升级至 OceanBase&#xff1f;杭州游卡网络技术有限公司&#xff08;…

密码产品推介 | 沃通安全电子签章系统(ES-1)

产品介绍 沃通安全电子签章系统&#xff08;ES-1&#xff09;是一款基于密码技术、完全自主研发的商用密码产品&#xff0c;严格遵循国家密码管理局制定的相关标准&#xff0c;可为企业和个人提供安全、合规的电子签章功能服务。产品的主要用途是为各类文书、合同、表单等电子…

半波整流电路原理详解+参数与计算公式

什么是半波整流电路&#xff1f; 半波整流电路的基本操作非常简单&#xff0c;输入信号通过二极管&#xff0c;由于只能通过一个方向的电流&#xff0c;二极管的整流作用&#xff0c;单个二极管只允许通过一半的波形。 下图说明了半波整流电路的基本原理。 半波整流电路工作图…

自动驾驶概述

自动驾驶技术主要解决的问题 无人驾驶分级 L1:巡航定速(ACC),巡航装置可以纵向控制车辆,可以加速减速 L2:车道保持辅助,系统可以纵向控制也可以横向控制汽车,但车是辅助,人才是主导。 L2.5:可以提供简单路况下的变道能力,比如特斯拉。 L3:L2的基础上提供变道能力,…

PGSQL主键序列

PostgreSQL和 MySQL数据库还是有一定的区别。 下面了解一下 PGSQL的主键序列。 一、主键 1、系统自带主键序列 在 PostgreSQL 中&#xff0c;GENERATED BY DEFAULT 和 GENERATED ALWAYS 是用于定义自动生成的列&#xff08;Generated Column&#xff09;的选项。一般可作用…

C#根据 App.config 文件中的配置信息去查找并加载指定目录下的 DLL

C#根据 App.config 文件中的配置信息去查找并加载指定目录下的 DLL System.IO.FileNotFoundException:“未能加载文件或程序集“AliNPOIExcel, Version1.0.0.0, Cultureneutral, PublicKeyTokennull”或它的某一个依赖项。系统找不到指定的文件。” 如何让程序识别不同目录下…