AI算力池化赋能企业大模型价值探索

1. 大语言模型企业落地中的算力痛点

随着人工智能技术的飞速发展,自然语言处理(NLP)成为了热门的研究领域之一。在这一领域中,大语言模型(Large Language Models)凭借其强大的语言理解和生成能力,逐渐成为了研究和应用的热点,越来越多的企业开始将其应用于实际场景,如智能客服、虚拟助手、内容创作、内容审核、机器翻译等。

目前各大厂商都发布了自家的大模型,除了基于大模型改造或者重构现有的应用系统之外,一些大型的厂商选择将自家的大模型进行开源,因此大模型也逐渐被应用于医疗、金融、智能制造等领域。这些领域都需要处理海量的数据和实现复杂的任务,大模型能够提供更高效、更精准的解决方案,具有广阔的应用前景。

对于大部分企业来说,从头开始构建基础大模型不切实际,因为需要花费巨大的成本构建AI算力集群。据相关报道,GPT-3的训练使用了微软专门建设的 AI 计算系统,由1万个 V100 GPU 组成的高性能网络集群,如此大规模、长时间的 GPU 集群训练任务,对AI算力成本提出极致要求。好消息是目前已经有很多开源的大模型,企业只需要基于开源的大模型结合自身行业数据运用大模型微调技术就可以构建一个属于自己的行业大模型,大大的降低了大模型的使用门槛,但企业在尝试大模型的时候也面临了一些问题,主要包括以下几点。

(一)算力资源无法共享:不同业务部门基于开源基础大模型进行微调,构建自己的行业大模型,如果独自采购AI算力资源,各部门之间的算力资源无法实现共享,对于公司来讲无法实现物尽其用就是一种浪费;另外一方面,企业招聘AI工程师成本也非常高,如果由于不同业务部门AI算力资源不能共享导致AI工程师不能正常的开展工作,对于企业来讲也是一种损失。

(二)业务场景无法混部:部门内部也会出现开发训练推理部署环境隔离的情况,导致AI算力资源无法实现灵活复用。比如在白天的时候,开发和推理业务会比较繁忙,资源会出现瓶颈,但这个时候其实是可以把训练资源挪一部分给开发推理使用,毕竟训练任务都是长周期运行,短暂的减少部分训练资源也可以接受。到了晚上,AI开发工程师下班,同时推理业务也处于一天中的低谷期,这时可以把开发和推理资源挪给训练任务使用,从而加快训练的速度,弥补白天减少的训练时间。

(三)运营运维无法统一:不同部门、不同业务、不同场景下构建的AI算力基础设施缺乏统一的管理运维工具。AI算力是企业的重要资产,首先要做的就是知根知底,必须要有一个清晰AI算力资源大图,能够实时的监控到AI服务器、AI算力卡的分配、使用以及健康状态。同时由于任务类型差异、任务规模差异、任务优先级差异以及任务调度能力等多方面因素,会出现AI资源碎片、AI资源使用不均以及软件系统升级维护问题,最后就是无法从部门、业务、场景的维度出发,以每日、每周、每月、每季度的维度统计生成数据报表,为AI算力资源运营提供数据参考。

(四)异构厂商无法兼容:随着国产信创工作的推进,越来越多的企业也开始采购国产AI加速卡开展大模型业务。未来客户数据中心将会出现不同厂商的异构AI算力卡,如何更好地管理和使用各家的AI算力卡也是企业面临的一大挑战。

2. 算力调度解决方案

如何对稀缺、昂贵的算力资源充分利用,实现算力的最大化共享,降低其不可分配的碎片概率,可以考虑借鉴云计算的思路。首先通过虚拟化软件对不同节点上的GPU、AI芯片等进行切分,然后将切分后的资源上报给集群调度框架插件,最后集群调度框架插件根据任务对于资源的需求进行灵活的调度和分配,使能资源可按任务的实际需求进行有序供给。

目前业界的方案包括集群调度框架插件和节点虚拟化软件两部分构成,一般都是同一个厂商将这两部分打包成自己的解决方案。

(一)集群调度框架插件:通过高性能算力网络打通服务器间通路,使得分散在各服务器中的CPU、GPU、AI芯片等算力资源可以通过高速无损网络实现互联互通、透明共享。根据任务对于资源的需求,通过先进的调度策略将任务调度到不同的节点,如果任务要求整卡的资源,那么就会被调度到有空闲整卡的节点,如果任务要求细粒度卡的资源,则会被调度到有空闲虚拟卡的节点,从而实现资源的高效分配。

但不论是调度到整卡还是虚拟卡,集群调度框架插件只会按照任务的需求选择合适的AI算力进行分配,而无法决定任务是否真正在使用AI算力资源。比如要启动一个Jupyter开发任务,并为其分配了一张虚拟卡,但实际上连接到这个Jupyter服务的开发人员却没有运行AI应用程序,因此这张虚拟卡就被白白占用浪费。目前比较常见的集群调度框架插件有基于K8S开源的gpushare和elastic-gpu,基于Volcano开源的GPU Sharing以及宣称有GPU虚拟化能力的K8S类厂商。

(二)节点虚拟化软件:通过用户态或内核态的方式对AI算力资源进行虚拟化,可以实现算力和显存维度的简单或任意比例切分,能够实现单机多卡的聚合,如果是多机多卡等跨节点的资源需求则依赖任务管理模块将作业切分成多个分布式的任务,然后任务被集群调度框架插件调度到合适的节点,因此节点虚拟化软件和集群调度框架插件必须同时使用才能在一定程度上解决以上问题,目前比较常见的节点虚拟化软件有cGPU、qGPU等云厂商的GPU虚拟化方案,以及开源的GPU Manager。

3. 算力池化解决方案

相较于集群调度框架插件和节点虚拟化软件构成的算力调度解决方案,趋动科技的OrionX AI算力资源池化解决方案是基于软件定义的技术在硬件AI算力之上实现的资源池化,可以实现真正意义上的AI应用与算力的解耦。

这就意味着AI应用可以任意部署,正在运行的AI算力任务可以热迁移,无需跟AI服务器绑定,可以将AI应用部署在CPU的服务器上,通过远程调用的方式访问AI服务器算力,在需要AI算力的时候可以在整个数据中心按需取用。具体表现为AI应用真正运行时才从整个数据中心的AI资源池中分配合适的算力资源,当AI应用执行完成之后,就会把算力资源重新释放到数据中心AI资源池中,让其他的AI应用能够使用。对于AI应用跨节点的资源需求,可以不依赖上层任务管理模块将作业拆分成多个任务,而是直接将多个节点的AI算力资源进行聚合使用。

正因为OrionX是用户态实现的软件定义的AI算力池化方案,因此不需要侵入操作系统内核,同时暴露所有的API便于上层管理平台对接,不管是物理机、虚拟机还是容器、K8S场景,都可以很好的适配。

图片

图:趋动科技OrionX算力池化解决方案

OrionX支持主流的训练和推理框架,通过算力池化技术满足大模型在预训练、监督微调、人类反馈强化学习过程中对于AI算力资源的需求,同时基于共享的理念构建的开发、训练和推理一体化AI算力资源池,帮助企业提升资源利用率5-8倍。

总之,AI算力池化解决方案可在实现多厂商AI算力硬件统一管理、统一运营、统一调度、统一使用的同时,结合软件定义AI算力技术实现AI算力的统筹分配、资源池化、高效保障和运维管理,提高企业的人效和物效,加速企业的业务创新,赋能企业在大模型场景下的价值探索。

4. 算力池化下的大模型应用场景

(一)大模型开发及训练场景:通过资源动态调用、动态释放以及队列优先级等功能,代替传统独占GPU卡的方式,可以让开发和训练资源混合部署,实现资源弹性伸缩,打破GPU资源孤岛,节省GPU卡数量,提升算力运行效率;在大模型训练场景下,还可以利用故障检测和热迁移的能力保障训练的稳定运行,利用作业优先级合理调度算力资源。

(二)大模型微调场景:通过远程调用实现CPU和GPU资源的合理配比,将通用算力和AI算力解耦,从而节省GPU卡资源;还可以通过跨机聚合把多机碎片化的资源进行用于训练任务,大大简化了传统分布式训练任务的配置工作。

(三)大模型推理场景:通过灵活切分可以实现多个大模型并行运行在同一张GPU卡上,基于进程级的封装和隔离避免大模型之间的资源争抢,提升GPU卡的利用率,还可以在不增加硬件的情况下通过显存超分实现业务的叠加,大大提升系统的吞吐量。

(四)大模型算力服务场景:通过自定义算力设备可以屏蔽底层硬件资源型号,实现资源抽象定义,为最终用户提供容易理解的各种规格的自定义算力型号,并通过多级资源池对多K8S集群算力资源进行统一管理和分配,打破资源孤岛,更好地支持多租户的算力管理。

(五)运维场景:通过客户端热迁移和故障卡的自动隔离功能,可以有效保证大模型训练任务连续性,减少业务宕机时间;通过服务端热迁移满足运维人员对于负载均衡、碎片整理以及下线维护等运维场景需求,通过逻辑资源组满足统一AI算力池化后的隔离管理需求,支持多部门基于同一资源池高效开展AI业务。

(六)信创场景:通过异构混部实现海光、寒武纪、华为等国产不同厂商AI算力共池管理,通过交叉拉远让AI业务灵活的访问到整个AI算力池中所有不同厂商的算力资源,基于CUDA on DCU支持将CUDA业务无缝迁移至DCU平台,加速信创改造。

5. 客户案例

目前,趋动科技的OrionX AI算力资源池化解决方案已经在金融、互联网、教育、制造等行业被广泛应用在大模型场景的价值探索。

客户基于开源的LLama、ChatGLM、Baichuan等大模型结合企业内部的私有数据进行微调,之后又将微调后的模型服务于企业内部各业务部门,提升员工的办公效率;也有一些客户部署Stable Diffusion用于素材创作,直接为企业创造价值;还有一些高校的客户基于OrionX AI算力资源池化解决方案构建自己的行业大模型,比如南京农业大学就基于自身对于古籍领域的数据积累,打造了荀子古籍大语言模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/758293.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习笔记-华为IPD转型2020:3,IPD的实施

3. IPD的实施 1999 年开始的 IPD 转型是计划中的多个转型项目中的第一个(Liu,2015)。华为为此次转型成立了一个专门的团队,从大约20人开始,他们是华为第一产业的高层领导。董事会主席孙雅芳是这个团队的负责人。该团…

【Maven】使用maven-jar、maven-assembly、maven-shade优雅的实现第三方依赖一同打Jar包

文章目录 一.前言二.常规Jar 打包:maven-jar-plugin三.Shade 打包:maven-shade-plugin1.如何使用2.将部分jar包添加或排除3.将依赖jar包内部资源添加或排除4.自动将所有不使用的类排除5.将依赖的类重命名并打包进来 (隔离方案)6.修…

【Linux】项目部署CPU彪高如何定位

1.查看所有CPU占比 使用top指令获取彪高进程的PID 2.输出进程的信息 ps H -eo pid,tid,%cpu | grep 1313 3.查看线程的信息 jstack tid nid都是十六进制的 4.进制转换 将 tid的十进制转为十六进制 找到nid 可以定位到具体位置 5.关闭程序 ps -ef | grep java kill -9 jav…

机器人路径规划:基于迪杰斯特拉算法(Dijkstra)的机器人路径规划(提供Python代码)

迪杰斯特拉算法(Dijkstra)是由荷兰计算机科学家狄克斯特拉于1959年提出的,因此又叫狄克斯特拉算法。是从一个顶点到其余各顶点的最短路径算法,解决的是有权图中最短路径问题。迪杰斯特拉算法主要特点是从起始点开始,采用贪心算法的策略&#…

通过更新路书当前坐标下marker的icon来展示沿途的风景

通过更新路书当前坐标下marker的icon来展示沿途的风景 1.效果图2.[工程链接](https://download.csdn.net/download/m0_61864577/88978866)3.需修改地方: 本文演示了如何通过百度地图的路书功能,展示途经的风景。定时缩放,既有全局路径,又有当前位置和运动轨迹;可以显示当前坐标…

万界星空科技铜拉丝行业生产管理MES系统

铜拉丝加工作为金属加工行业中的一个重要分支,在国内乃至全球工业领域都扮演着不可或缺的角色。特别是在高导材料领域,铜拉丝加工更是发挥着重要作用。 铜作为一种传统的金属材料,其拉丝加工技术早在古代就有应用。随着工业化进程的加快&…

综合练习(python)

前言 有了前面的知识积累,我们这里做两个小练习,都要灵活运用前面的知识。 First 需求 根据美国/英国各自YouTube的数据,绘制出各自的评论数量的直方图 第一版 import numpy as np from matplotlib import pyplot as plt import matplo…

Flutter Widget:State 状态管理

响应式的编程框架永恒的主题——“状态(State)管理” 无论是在 React/Vue/Flutter 中讨论的问题和解决的思想都是一致的。 StatefulWidget的状态应该被谁管理?Widget本身?父 Widget ?都会?还是另一个对象? 下面是官…

webpack的热更新是如何做到的?

Webpack的热更新(Hot Module Replacement,HMR)技术是现代前端开发中极为重要的一部分,它极大地提高了开发效率,并让开发者能够实时地查看代码更改后的效果,而无需手动刷新页面。在本文中,我们将…

什么是晶振精度?对电路有什么影响?

晶振的精度是衡量其频率稳定性的重要指标,指在温度为25℃条件下晶振正常工作时输出的频率工差范围,通常以ppm(parts per million)表示即“PPM”。这意味着晶振的频率每百万分之一的偏差,如果以10ppm的精度为例,意味着每秒钟的工作…

VMware虚拟机硬盘容量扩容方法

扩容后不会影响原文件。亲测有效,高效便捷 - 在关机状态下,先在VM上直接扩容硬盘容量,输入扩容后的硬盘最大容量 注意,如果想在原硬盘上增加容量,需要将原来的快照都删除 - 输入最大磁盘大小 运行虚拟机进入系统&…

VUE3实现一键复制功能

1.使用vueuse/core (安全策略的问题,非https网页下面不让你拷贝) vueuse/core是一个为 Vue.js 提供常用功能和实用工具函数的库。它是基于 Composition API,为开发者提供了一组易于使用和可复用的函数 http网页使用解决方法:解决方法! 2.使用插件 n…

账号+密码+图片验证码认证

账号密码图片验证码认证 实现步骤 实现账号密码认证,执行流程如下 第一步: 对于验证码服务工程的生成验证码图片的接口在网关处需要放行,否则页面无法获取生成的验证码图片 /**临时放行所有请求 /auth/**认证服务地址 /content/open/**内容管理公开访问文件接口 …

C语言——自定义类型——结构体(从零到一的跨越)

目录 前言 1.什么是结构体 2.结构体类型的声明 2.1结构体的声明 2.2结构体的创建和初始化 2.3结构成员访问操作符 2.3.1结构体成员直接访问 2.3.2结构体成员的间接访问 2.4结构体变量的重命名 2.5结构体的特殊声明 2.6结构的自引用 3.结构体内存对齐 3.1对齐规则 3…

10:00面试,10:06就出来了,问的问题有点变态。。。

从小厂出来,没想到在另一家公司又寄了。 到这家公司开始上班,加班是每天必不可少的,看在钱给的比较多的份上,就不太计较了。没想到8月一纸通知,所有人不准加班,加班费不仅没有了,薪资还要降40%…

echart trigger 为 axis 的时候不显示 tooltip 解决办法

echart trigger 为 axis 的时候不显示 tooltip 解决办法 在项目 vitetsvue3 中使用 echart 显示了一个曲线图: 但当把图表的 trigger 设置成 axis 的时候,鼠标扫过并不显示具体的数值,如上图所示。 但 trigger item 的时候是正常的。 解决…

【virtio-networking 和 vhost-net 简介】

文章目录 Virtio 基本构建块Virtio spec 和 vhost 协议Vhost-net/virtio-net architectureVirtio-networking and OVS总结参考链接 Virtio 是作为虚拟机 (VM)访问简化device(如块设备和网络适配器)的 标准化开放接口而开发的。Virtio-net是一种虚拟以太…

【Linux】多线程概念 | POSIX线程库

文章目录 一、线程的概念1. 什么是线程Linux下并不存在真正的多线程,而是用进程模拟的!Linux没有真正意义上的线程相关的系统调用!原生线程库pthread 2. 线程和进程的联系和区别3. 线程的优点4. 线程的缺点5. 线程异常6. 线程用途 二、二级页…

excel 破解 保护工作簿及保护工作表

excel 破解 保护工作簿及保护工作表 对于这种 保护工作簿及保护工作表 不知道密码时,可以使用以下方法破解 保护工作簿破解 打开受保存的excel 右键点击sheet名称 —> 查看代码 复制以下代码,粘贴到代码区域 Sub 工作簿密码破解() ActiveWorkbook.…

C++ —— 类和对象(终)

目录 1. 日期类的实现 1.1 前置 和 后置 重载 1.2 >> 和 << 的重载 2. const 成员 3. 取地址及const取地址操作符重载 4. 再谈构造函数 4.1 构造函数体赋值 4.2 初始化列表 4.3 隐式类型转换 4.4 explict 关键字 5. static 成员 5.1 概念 5.2 特性 …