高校建设AI算力平台方案探索

近年来,人工智能行业发展迅速,在自动驾驶、金融、医疗、教育等行业广泛应用。尤其是ChatGPT发布以后更是掀起了生成式AI的热潮,国内各大互联网厂商也相继发布自己的AI大模型。这也造成了大量的AI人才缺口,同时促进了高校的AI专业建设,为社会培养AI人才。

当前高校在AI专业建设面临很多问题,其中AI开发训练平台和AI算力平台的建设因为缺乏高效的解决方案,已成为困扰很多学校的难题。本文将针对高校面临的问题和解决方案进行讨论。

1、 AI算力分布在不同学院或科研团队,资源独享,给学校算力建设和统一管理带来困难

AI算力的建设通常与相关项目同步建设,可能分散在不同的学院或科研团队,各学院/团队分散管理和使用,且建设方式多采用工作站或少量服务器的形式;造成各学院/团队资源相对独立,团队间无法共建共用,即使资源在闲置的情况下,也无法相互复用资源,造成资源严重浪费。

通过趋动科技的算力池化方案即可轻松解决上述问题。学校通过信息中心建设校级的算力中心,利用OrionX创建AI算力资源池,通过软件定义AI算力的形式改变传统以物理卡为单位的方式使用算力。能够实现AI算力资源的切分、远程调用、跨机聚合、算力超分、热迁移等功能。最终达到全校师生共享算力资源,提高资源利用率,减少算力资源总投资。

图片

OrionX方案架构图

2、传统IaaS平台无法高效使用GPU资源

一些高校信息中心在做基础资源平台建设时,通常会采用增购硬件的方式来满足不断增长的算力需求。但随着硬件采购受限,且一般的IaaS平台对算力管理调度、尤其是异构算力的管理和使用能力有限,多以直通方式为主,现有的资源提供模式的弊端就会突显出来:AI算力不能在各个任务之间灵活切换,使资源使用率不理想,也增加了运维人员的工作量。

趋动科技的OrionX池化方案适应容器、K8S、KVM、物理机等各个场景,可以很好地解决资源使用的问题,云平台的虚拟机通过调用OrionX vGPU资源即可满足师生对算力的需求。

图片

OrionX vGPU具备动态加载和释放的能力,当有AI任务执行时,才会占用GPU的算力资源,任务执行完毕GPU资源会立即释放,这样就能很好解决GPU在不同使用者之间切换的问题。

传统IaaS平台直通GPU的方式受到服务器GPU卡数量的限制,单一虚拟机最多能用到其所在物理节点的GPU数量,这样就不能满足一些大算力需求的场景。通过OrionX的跨机聚合能力,可以快速方便的提供多卡的运行环境,提升使用效率。

3、新设AI专业的高校,在AI实训平台建设时缺乏整体解决方案

一些刚开设AI相关专业的高校,在AI实训平台的建设方面还处在摸索阶段:在大量学生需要实验的场景下会通过配置PC机+低端GPU的方案来满足;在针对科研场景时,又会购买性能较好的GPU服务器来满足需求。这种方案导致GPU资源不能共享利用,增加建设成本,造成资源浪费。

针对这种应用场景,趋动科技提供Gemini + OrionX的整体解决方案。Gemini提供AI开发训练的基础平台,包含租户管理、算法开发工具、数据管理、模型训练、输出管理等功能。OrionX做底层的算力管理,提供资源切分、资源聚合、资源超分等能力。

图片

OrionX+Gemini方案

学校通过OrionX的资源切分能力结合Gemini AI开发训练平台,可以满足大量学生实训的场景;通过OrionX的资源聚合能力快速提供多卡环境给科研团队做算力支撑,结合Gemini任务训练能力,轻松完成分布式模型训练。

学校可以充分利用现有的终端设备和实验环境,连接AI开发训练平台即可完成各类AI学习和相关实验课程。无需采购大量含有GPU的终端设备,从而减少硬件投资,提高资源利用率,实现降本增效的目标。

4、多校区带来的资源管理问题

很多高校都会有不同的校区,这些分散的校区对AI算力平台的建设带来了硬件资源分配、资源管理、运维监控等挑战;加之GPU采购又难度加大,还需要面对同时管理GPU集群和国产AI芯片集群的问题。

趋动科技的池化方案可以建设多个异构算力池进行,实现跨机房、多集群、国产AI芯片与GPU的统一管理,更灵活地满足学校的算力需求。

图片

多数据中心管理

总结来看,趋动科技的Gemini+OrionX方案主要有如下优势:

01 利用率提升

将物理GPU切片为任意大小的虚拟GPU,1个GPU虚拟化成多个虚拟GPU,供多个学生同时使用,互不干扰,充分利用资源,节约成本。

02 场景灵活转换

统一资源池,同时支持教学和教研场景,瞬间转换,资源随时就绪;使用结束后立即释放,无回收之忧。

03 灵活的资源调度

自助式服务,简化管理,简化运维,师生只需关注自己专业,不用在意底层算力资源情况。

04 弹性伸缩

基于资源池的灵活扩展,按需分配,资源大小可以动态调节,无需重启。

05 资源监控

提供全局资源池性能监控,为运维人员提供直观的资源利用率等信息。

06 GPU资源统一管理

支持对多个数据中心的GPU设备,统一管理,灵活分配,充分保护学校投资。

案例分享

案例一:西安工业大学

痛点:

  1.  以物理卡直通到虚拟机的方式很难让GPU在不同用户之间切换,会导致资源长期被占用但是又没有任务运行的情况;

  2. AI科研老师会自己采购一些GPU服务器来满足算力需求,课题研究完毕时,设备也会闲置,导致资源浪费。

解决方案:

学校在新建云平台的项目中,采用了OrionX的池化方案与云平台集成的整体方案,满足师生对GPU的需求。

将GPU服务器从云平台中剥离出来,部署OrionX的池化组件,统一管理GPU资源;在云平台中创建师生常用的系统,安装OrionX的Client相关组件,通过远程调用的方式获取到GPU资源;测试正常后,制作成新的系统镜像,共享给整个云平台用户。这样全校师生就能通过云平台方便的创建和使用含有OrionX vGPU资源的虚拟机。整个租户和计费的管理都由云平台负责,保留了用户的使用习惯。

图片

解决方案示意图

客户收益:

  1. 解耦GPU与VM的绑定关系。通过OrionX的动态加载与释放的能力,避免了VM长期占用GPU但没有实际任务运行的情况;

  2. 实现了GPU资源的共享,避免重复建设,减少机房、电力、运维等多方便的投入,实现绿色发展;

  3. 通过OrionX的横向扩展能力和异构管理能力,在未来多种AI算力并存的场景下,保持一致的管理能力和使用体验。

案例分享

案例二:西南民族大学

痛点:

  1. 西南民族大学前期已经使用基于VMware平台的AI开发训练平台,该平台底层采用Nvidia vGPU实现物理GPU资源固定切分,GPU资源使用不灵活,无法按照需求灵活切分GPU资源;

  2. 当在不同场景下使用GPU资源时,需要有专人对GPU资源进行切分管理和维护,人力成本一直居高不下;

  3. 管理效果不理想,无法同时满足学生、老师的实训要求和科研要求。

解决方案:

通过OrionX创建AI算力资源池,替代Nvidia vGPU方案,实现GPU资源集中管理和 GPU 资源自动调度,满足实训、科研、以及学生毕业设计时的场景需求。

能够自动根据学生或老师的需求切分GPU资源,并自动调度到合适的GPU资源。平台上线后,能够最大限度保持学生、老师的使用习惯,不增加新的学习成本和时间成本。

图片

解决方案示意图

客户收益:

  1. 能够不断降低高校的硬件购置成本,减少GPU硬件采购规模,提升GPU资源利用率,使资源利用更加合理、科学;

  2. 构建基于OrionX可弹性伸缩的GPU资源池,既能满足实训需求,又能满足科研需要,缩短AI模型的开发、训练周期;

  3. 资源按需索取,简化业务上线流程,原来需要花费数天的GPU资源申请流程,仅需要几秒钟即可完成;

  4. 利用OrionX的GPU自动池化调度替代传统的人工管理方式,大大降低了运维复杂度和运维管理成本。

除上述高校外,还有核心信息交叉学院、天津大学、上海工程大学、南京农业大学等高校也正通OrionX AI算力池化方案解决AI算力使用中面临的各种问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/665851.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSP-202305-2-矩阵运算

CSP-202305-2-矩阵运算&#xff1a;题目链接 知识点一&#xff1a;申请矩阵 1.动态分配 // 申请 int** dynamicArray new int*[rows]; for (int i 0; i < rows; i) {dynamicArray[i] new int[cols]; }// 释放 for (int i 0; i < rows; i) {delete[] dynamicArray[…

解决浏览器端 globalThis is not defined 报错

解决浏览器端 globalThis is not defined 报错 前言解决办法&#xff1a; 前言 在使用低版本火狐浏览器出现报错globalThis is not defined 解决办法&#xff1a; 在vue的index.html 中添加 this.globalThis || (this.globalThis this) <head><script>this.g…

Lambda表达式(匿名函数)

C11中引入了lambda表达式&#xff0c;定义匿名的内联函数。 我们可以直接原地定义函数而不用再跑到外面去定义函数跳来跳去。 同时在stl的排序上也有作用。 [capture] (parameters) mutable ->return-type {statement}下面逐一介绍各个参数的含义. [capture] : 捕获&#…

Java语法学习线程基础

Java语法学习线程基础 大纲 概念创建线程线程终止常用方法用户线程和守护线程线程的七大状态线程的同步互斥锁线程死锁释放锁 具体案例 1.概念 2. 创建线程 第一种&#xff1a; class Cat extends Thread {int time 0;Overridepublic void run() {while (true) {System.o…

重写Sylar基于协程的服务器(5、IO协程调度模块的设计)

重写Sylar基于协程的服务器&#xff08;5、IO协程调度模块的设计&#xff09; 重写Sylar基于协程的服务器系列&#xff1a; 重写Sylar基于协程的服务器&#xff08;0、搭建开发环境以及项目框架 || 下载编译简化版Sylar&#xff09; 重写Sylar基于协程的服务器&#xff08;1、…

红日靶场1搭建渗透

环境搭建 下载好镜像文件并解压&#xff0c;启动vmware 这里我用自己的win7 sp1虚拟机作为攻击机&#xff0c;设置为双网卡NAT&#xff0c;vm2 其中用ipconfig查看攻击机ip地址 设置win7 x64为双网卡&#xff0c;vm1&#xff0c;vm2 设置win08单网卡vm1&#xff0c;win2k3为单…

jupyter notebook更改工作目录的2个细节

详细步骤参考知乎原文&#xff1a; 如何更改Jupyter Notebook的默认工作路径&#xff1f; - 知乎 (zhihu.com​​​​​​) 步骤4中需要删除 #符号和后面的空格&#xff01;一定要删除空格&#xff0c;否则会出现语法错误的报错 步骤5中&#xff0c;经过评论区提醒后&#xf…

蓝桥杯备战——12.PCF8591芯片的使用

目录 1.芯片简介2.读写时序3.控制字4.代码封装库5.原理图分析6.使用示例 1.芯片简介 截取自NXP的PCF8591芯片数据手册&#xff0c;我把重点关注部分划出来了&#xff0c;请务必自行阅读一遍数据手册&#xff01; 2.读写时序 ①器件地址&#xff1a; Bit0决定是读还是写操作&…

Python 数据分析(PYDA)第三版(七)

原文&#xff1a;wesmckinney.com/book/ 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 附录 附录 A&#xff1a;高级 NumPy 原文&#xff1a;wesmckinney.com/book/advanced-numpy 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 此开放访问网络版本的《Pyt…

ctfshow web-77

开启环境: 先直接用伪协议获取 flag 位置。 c?><?php $anew DirectoryIterator("glob:///*"); foreach($a as $f) {echo($f->__toString(). );} exit(0); ?> 发现 flag36x.txt 文件。同时根目录下还有 readflag&#xff0c;估计需要调用 readflag 获…

魔改冰蝎 —— 绕过检测,自动生成免杀后门

为什么要魔改工具&#xff1f; 生成的代码很容易被监测 生成的后门很容易被杀软杀掉 了解冰蝎流量特征 开启http代理&#xff0c;数据经过BP抓包进行分析数据 冰蝎数据包分析&#xff1a; 1、三个请求头固定 AcceptAccept-LanguageUser-Agent&#xff08;内部有十个&a…

Web3行业研究逐步加强,“链上数据”缘何成为关注焦点?

据中国电子报报道&#xff0c;近日&#xff0c;由中关村区块链产业联盟指导&#xff0c;中国信息通信研究院牵头&#xff0c;欧科云链控股有限公司参与编写的《全球Web3产业全景与发展趋势研究报告&#xff08;2023年&#xff09;》正式发布。研究报告通过全面追踪国内外Web3产…

给mysql设置时区

每次重启MySQL服务器后&#xff0c;使用IDEA的database navigator连接都会出现这种情况 解决方式就是 命令行登录后 set global time_zone 8:00;嘿嘿把之前自家简书文章 给mysql设置时区 搬运过来了&#xff0c;方便查阅

01-Java基础语法

Java基础语法 1. 注释使用的技巧&#xff1a;注意点 2. 关键字2.1 概念2.2 第一个关键字class 3. 字面量区分技巧&#xff1a;扩展&#xff1a; 制表符&#xff1a; 4. 变量4.1 什么是变量&#xff1f;4.2 变量的定义格式4.2.1 格式详解4.2.2 常用的数据类型4.2.3 变量的注意事…

斗地主登录界面(JAVA图形化界面)设置

1.实现代码 import CodeUtil.CodeUtil; import domain.User;import javax.swing.*; import java.awt.*; import java.awt.event.MouseEvent; import java.awt.event.MouseListener; import java.util.ArrayList;public class LoginGame extends JFrame implements MouseListen…

MongoDB复制集实战及原理分析

文章目录 MongoDB复制集复制集架构三节点复制集模式PSS模式&#xff08;官方推荐模式&#xff09;PSA模式 典型三节点复制集环境搭建复制集注意事项环境准备配置复制集复制集状态查询使用mtools创建复制集安全认证复制集连接方式 复制集成员角色属性一&#xff1a;Priority 0属…

【数据分享】1929-2023年全球站点的逐月降雪深度数据(Shp\Excel\免费获取)

气象数据是在各项研究中都经常使用的数据&#xff0c;气象指标包括气温、风速、降水、能见度等指标&#xff0c;说到气象数据&#xff0c;最详细的气象数据是具体到气象监测站点的数据&#xff01; 之前我们分享过1929-2023年全球气象站点的逐月平均气温数据、逐月最高气温数据…

【鸿蒙】大模型对话应用(四):页面发起请求实现对话能力

Demo介绍 本demo对接阿里云和百度的大模型API&#xff0c;实现一个简单的对话应用。 DecEco Studio版本&#xff1a;DevEco Studio 3.1.1 Release HarmonyOS SDK版本&#xff1a;API9 关键点&#xff1a;ArkTS、ArkUI、UIAbility、网络http请求、列表布局、层叠布局 定义接…

C#(C Sharp)学习笔记_前言及Visual Studio Code配置C#运行环境【一】

前言 这可以说是我第一次正式的踏入C#的学习道路&#xff0c;我真没想过我两年前是怎么跳过C#去学Unity3D游戏开发的&#xff08;当然了&#xff0c;游戏开发肯定是没有成功的&#xff0c;都是照搬代码&#xff09;。而现在&#xff0c;我真正地学习一下C#&#xff0c;就和去年…

笔记本从零安装ubuntu系统(2):环境配置

文章目录 前言相关链接ubuntu Server 安装教程屏幕自动息屏关上盖子不休眠MobaXterm外网SSH内网穿透IPV6远程 为什么我要笔记本装Linux为什么要换ubuntu Server版能否连接wifi之后Linux 配置清单总结 前言 之前装了个ubuntu desktop 版&#xff0c;发现没有命令行&#xff0c;…