OGAI详解:AIStation调度平台如何实现大模型高效长时间持续训练

大模型是当前通用人工智能产业发展创新的核心技术,目前国内已发布的生成式AI模型超过了100个。面向以大模型为核心的生成式AI开发与应用场景,近日浪潮信息发布了大模型智算软件栈OGAI(Open GenAI Infra)——“元脑生智”,为大模型业务提供了全栈全流程的智算软件栈,包括AI算力系统环境部署、算力调度保障、模型开发管理等。OGAI软件栈由5层架构组成,从L0到L4分别对应于基础设施层的智算中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模

一、大模型训练面临巨大挑战

1.大模型训练巨大算力成本和算力利用难题

大模型训练要面对的首要挑战就是海量数据和计算量,算力开销巨大,如GPT-3是在10000个GPU上训练得到的,“源1.0”模型是在2128个GPU上通过AIStation平台完成1800亿tokens的训练,训练一个万亿token的700亿参数模型将花费上百万美元。但计算平台的性能通常不能随着算力线性增长,而是会出现耗损,因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化,还需要借助高效的算力调度平台,以根据算力集群的硬件特点和计算负载特性实现最优化的算力调度,整体提高算力利用率和训练效率。

2.耗时且维护复杂的多种网络兼容适配

大模型训练过程中,成千上万颗GPU会在节点内和节点间不断地进行通信。为了获得最优的训练效果,单台GPU服务器会搭载多张InfiniBand、ROCE等高性能网卡,为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣,InfiniBand因性能优异已被公认为大模型训练的首选,但其成本较高;RoCE虽然成本较低,但在大规模的网络环境下,其性能和稳定性不如InfiniBand方案。因此要想满足大模型训练对通信的要求,就要对集群网络中的通信设备适配使用和网络情况进行探索和设计。

3.不稳定的大模型训练和高门槛的系统级别优化

大模型训练过程比传统的分布式训练复杂,训练周期长达数月。集群计算效力低、故障频发且处理复杂,会导致训练中断后不能及时恢复,从而会降低大模型训练的成功概率,也会使得大模型训练成本居高不下。因此,大模型对训练的稳定性、故障检测与训练容错提出了更高的要求。同时简化大模型分布式任务提交、实现智能与自动化的任务资源匹配和训练健壮性也是提升训练效率的重要保证。

Meta在训练模型体量与GPT3规模相当的Open Pre-trained Transformer (OPT)-175B时,遇到的一大工程问题就是训练不稳定。如下图所示,可以看到有许多训练停止的时间节点,原因有GPU掉卡、GPU性能异常导致训练意外中断等。训练稳定性和有效的断点续训是目前大模型训练中亟待解决的问题。型工具层的YLink产品和多模纳管层的MModel产品。

其中L2层AIStation是面向大模型开发的AI算力调度平台,AIStation针对大模型训练中的资源使用与调度、训练流程与保障、算法与应用管理等方面进行了系统性优化,具备大模型断点续训能力,保证长时间持续训练。AIStation支撑浪潮信息“源”大模型的训练算力效率达到44.8%。某大型商业银行基于AIStation打造的大规模并行运算集群,帮助其充分发掘计算潜能进行大模型训练,并荣获2022 IDC“未来数字基础架构领军者”奖项。

本文将重点讨论大模型训练面临的挑战、AIStation如何提升大模型训练效率,以及取得的效果。

图1 OPT-175B训练过程中的意外中断情况(其中横坐标为训练时间,纵坐标为困惑度PPL,来源:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/chronicles/56_percent_update.md#infrastructure-stability))

总之,在超大规模分布式环境下开展大模型训练,如果想要缩短训练周期、降低训练成本,就需要解决算力调度、网络通信、训练稳定性等各种挑战。不仅要灵活、充分地利用集群内的所有资源,通过多种手段优化数据使用、通讯,还要及时处理大规模计算集群的异常。

二、AIStation全流程简化和提速大模型训练

浪潮信息AIStation提供了系统性软硬一体优化的平台与软件栈能力,来保障大模型的训练需求。AIStation平台从资源使用与调度、训练流程与保障、算法与应用等角度进行了系统性的优化,实现了对大模型训练的端到端优化和加速。

图2 AIStation全面支撑与保障大模型业务

1.毫秒级调度,高效使用大规模算力,解决算力利用低难题

AIStation在大模型训练实践中,针对云原生调度系统性能做了优化,实现了上千POD极速启动和环境就绪。如下表所示,AIStation调度器与原生社区版相比,能大幅提升大规模POD任务的调度性能,尤其能保证大模型训练的计算资源的调度使用。

表1 大规模POD调度任务性能对比

社区调度器AIStation调度器效果对比
1000 pod 吞吐量4.97 (pods/s)26.31 (pods/s)POD吞吐量提升5倍
1000 pod调度时延/500节点100346 ms18523 ms时延下降5倍

此外,AIStation平台能够支持大模型特有的开发模式,提供多种尺度作业资源使用方式,包括小尺度资源调度,大尺度资源调度、高性能调度等。算力调度器通过动态、智能地管理和调配集群计算资源,制定合理的作业执行计划,以最大限度地利用资源,满足各类训练任务的时延和吞吐需求,保证作业高效稳定运行,实现算力平台高利用率、强扩展性、高容错性。

通过多种资源高效管理和调度策略,AIStation能实现毫秒级调度,将整体资源利用率提升到70%以上,帮助客户更好地利用计算集群算力,充分发挥算力价值。

2.高效网络资源管理,多卡加速比达90%,极致加速训练过程

AIStation定义了互相独立的计算高性能网络、存储高性能网络,并且支持交换机级别的资源调度,减少跨交换机流量,同时具备网络故障自动识别和处理功能。针对大模型训练通信要求高的场景,AIStation提供集群拓扑感知能力,容器网络与集群物理网络一致,保证了容器互联性能,满足训练通信要求。分布式通信优化结合集群的InfiniBand或 RoCE高性能网络和专门优化的通信拓扑,使得AIStation在千卡规模集群测试中,多卡加速比达到了90%。尤其AIStation对大规模RoCE无损网络下的大模型训练也做了相应优化,实测网络性能稳定性达到了业界较高水平。

借助AIStation平台,某大型商业银行实现了主流大模型训练框架,如DeepSpeed、Megatron-LM和大语言模型在RoCE网络环境的训练,快速实现大模型的落地实践。

3.大规模训练系统级别优化,故障处理时间缩短90%,最大限度降低实验成本

大模型任务提交时,经常会伴随着大量的环境配置、依赖库适配和超参数调整。AIStation能够自动化配置计算、存储、网络环境,同时对一些基本的超参数提供自定义修改,方便用户使用,通过几步就能启动大模型分布式训练,目前支持诸多大模型训练框架和开源方案,如Megatron-LMDeepSpeed等。

图3 AIStation上快速部署Megatron-LM,提供训练全过程保障

AIStation在大规模训练集群上利用自研数据缓存系统,提高了训练前、训练中的数据读取速率,大大减少对存储系统和网络的依赖。配合优化的调度策略,与直接使用存储系统相比,可让模型训练效率获得200%-300%的提升,硬件性能100%释放。

健壮性与稳定性是高效完成大模型训练的必要条件。AIStation针对资源故障等集群突发情况,会自动进行容错处理或者执行弹性扩缩容策略,保证训练任务中断后能以最快速度恢复,为需要长时间训练的大模型提供可靠环境,平均将异常故障处理时间缩短90%以上。

图4 大规模预训练任务的异常处理和断点续训流程

综上,针对大规模分布式计算,AIStation内置分布式训练自适应系统,覆盖训练的全生命周期,满足了大模型训练的诸多诉求,提供资源使用视图、计算与网络调度策略、分布式训练加速、训练监控、训练容错与自愈能力,在加速训练的同时,能够自动定位故障和恢复任务,保证了训练的稳定性和效率。某银行客户在AIStation智能容错的机制保障下,在极其严苛的业务投产测试中能够实现快速故障排查和恢复,大幅降低业务投产上线时间。

三、AIStation助力行业提升大模型开发效率

AIStation平台在AI开发、应用部署和大模型工程实践上积累了宝贵的经验和技术,帮助诸多行业客户在资源、开发、部署层面实现降本增效。在垂直行业领域,AIStation平台帮助头部金融客户、生物制药服务公司快速利用密集数据训练、验证大模型,大大降低大模型业务成本。某大型商业银行基于AIStation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022 IDC“未来数字基础架构领军者”奖项。

浪潮信息AIStation在大模型方面已经取得了诸多业界领先的经验和积累,实现了端到端的优化,是更适合大模型时代的人工智能平台。未来AIStation将与浪潮信息OGAI软件栈一同进化,进一步通过低代码、标准化的大模型开发流程,以及低成本和高效的推理服务部署,帮助客户快速实现大模型开发和落地,抢占先机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/79670.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为云创新中心黑湖科技:将智能制造进行到底

编辑:阿冒 设计:沐由 一如去年,第二届828 B2B企业节从8月28日-9月15日期间,再一次成为广大企业界关注的焦点。 当前,数字技术已经被广泛被融入到产品、服务与流程当中,用以转变客户的业务成果,以…

ChatGPT在职业规划中的智能助手

随着科技的不断发展,人工智能(AI)正逐渐成为我们日常生活的一部分。ChatGPT作为一种智能语言模型,可以在职业规划中充当智能助手的角色。本文将探讨ChatGPT在职业规划中的应用,以及它如何成为未来工作的智能伙伴。 首先…

基于SpringBoot+Vue实现的党校培训管理系统源代码+数据库

一、简介 项目简介: 基于微服务架构的党校培训管理系统, 完整代码下载地址:党校培训管理系统 大体总结: 前端使用Vue.js框架,UI组件库使用Element UI与Ant Design Vue,后端基于Spring Boot,使…

实现客户端pineline的思路

背景: redis集群不支持客户端的mget操作,但是业务上对这个redis集群的批量操作的需求一直都在,所以有各种客户端实现了各式各样的pineline实现,本文就记录下我们公司的实现方式 pineline实现思路 1.pineline要快 pineline之所以快是因为可…

【华为重启门】华为/荣耀手机一直自动重启原因解决方案(荣耀V10)

文章目录 【目前:系统回退安卓10、CPU贴了硅胶片。一天没重启了】1.问题描述2.分析原因3.解决方案4.实际操作 【目前:系统回退安卓10、CPU贴了硅胶片。一天没重启了】 1.问题描述 荣耀V10,莫名其妙的、无规律的死机重启。 一开始是重启后进…

Ubuntu22.04配置WiFi

Ubuntu22.04配置WiFi 注意:在/etc/netplan/​下的配置文件,格式一定要正确,否则用sudo netplan try​的时候会报错 一、查看无线网卡的名称 //choice-1 ls /sys/class/net//choice-2 ip a//choice-3 ifconfig -a‍ 二、修改配置文件 文件…

jmeter接口测试及详细步骤以及项目实战教程

在接口测试项目实战中,JMeter是一款非常强大和流行的自动化测试工具,它可以测试各种类型的应用程序,并通过采样和报告来识别性能瓶颈和API的问题。本文将为你提供一个基于实际项目的JMeter接口测试项目实战教程,指导你如何使用JMe…

分布式事务解决方案之2PC

分布式事务解决方案之2PC 前面已经学习了分布式事务的基础理论,以理论为基础,针对不同的分布式场景业界常见的解决方案有2PC、 TCC、可靠消息最终一致性、最大努力通知这几种。 什么是2PC 2PC即两阶段提交协议,是将整个事务流程分为两个阶段…

一种新的图像去噪方式:图像修补+斑点检测的预处理

灵感来源于我之前写的一篇博客:图像处理:基于cv2.inpaint()图像修补。 这种方式可以有效的去除白色的噪点,这里我们需要一张噪点的图像,你可以用下面的代码随机生成一张噪点图片: import cv2 import numpy as np # i…

软件设计模式系列之六——单例模式

1 模式的定义 单例模式(Singleton Pattern)是一种常见的创建型设计模式,其主要目的是确保一个类只有一个实例,并提供一个全局访问点来获取该实例。这意味着无论何时何地,只要需要该类的实例,都会返回同一个…

vue2以ElementUI为例构建notify便捷精美提示

我们先引入一个 第三方UI库 这里 我们以elementUI为例 先引入依赖 npm install element-ui --save然后 在 main.js 入口文件中 引入一下 import ElementUI from element-ui import element-ui/lib/theme-chalk/index.cssVue.use(ElementUI)然后 在组件中使用 this.$notify({…

如何使用 RunwayML 进行创意 AI 创作

标题:如何使用 RunwayML 进行创意 AI 创作 介绍 RunwayML 是一个基于浏览器的人工智能创作工具,可让用户使用各种 AI 功能来生成图像、视频、音乐、文字和其他创意内容。RunwayML 的功能包括: * 图像生成:使用生成式对抗网络 (…

每日刷题-6

目录 一、选择题 二、算法题 1.Fibonacci数列 2.合法括号序列判断 一、选择题 1、 解析:内联函数是一种可以提高函数执行效率的方法,它的原理是编译时在函数调用点直接展开函数体的代码,从而避免了函数调用的开销。 但是,内联函…

Haproxy负载均衡集群 超详细 (附部署实例)

Haproxy 一、Web集群调度器1.1 常用的Web集群调度器1.2 常用集群调度器的优缺点(LVS ,Nginx,Haproxy)1.2.1 Nginx1.2.2 LVS1.2.3 Haproxy 1.3 LVS、Nginx、Haproxy的区别 二、Haproxy2.1 简介2.2 Haproxy的主要特性2.3 Haproxy应用分析2.4 Haproxy的调度算法(负载均…

牛客: BM5 合并k个已排序的链表

牛客: BM5 合并k个已排序的链表 文章目录 牛客: BM5 合并k个已排序的链表题目描述题解思路题解代码 题目描述 题解思路 合并链表数组中的前两条链表,直到链表数组的长度为一, 返回这个唯一的链表 题解代码 package main/** type ListNode struct{* Val int* Next *ListN…

#循循渐进学51单片机#步进电机与蜂鸣器#not.8

1、能够理解清楚单片机IO口的结构。 2)t1相当于PnP三级管,t2相当于npn三极管 3) 强推挽io具有较强的驱动能力,电流输出能力很强。 2、能够看懂上下拉电阻的电路应用,并且熟练使用上下拉电阻。 3、理解28BYJ-48减速步进电机的工作…

链表oj题 链表与LinkedList 栈的概念 队列的概念 树和二叉树

第 1 题(编程题) 题目名称: 求环的入口点 题目内容: 求环的入口点https://leetcode-cn.com/problems/linked-list-cycle-ii/description/ 第 2 题(编程题) 题目名称: 判断链表带环 题目…

软件设计模式(二):工厂、门面、调停者和装饰器模式

前言 在这篇文章中,荔枝将会梳理软件设计模式中的四种:工厂模式、Facade模式、Mediator模式和装饰器Decorator模式。其中比较重要的就是工厂模式和装饰器模式,工厂模式在开发中使用的频数比较高。希望荔枝的这篇文章能讲清楚哈哈哈哈&#xf…

Ceph入门到精通-ceph对于长文件名如何处理

RADOS object with short name 上一篇博文,我们将介绍了对象相关的数据结构ghobject_t,以及对象在底层文件系统存储的文件名,以及如何从文件名对应到 ghobject_t对象。 映射关系如下图所示: 这里面有一个漏洞,即obje…

【栈与队列面试题】有效的括号(动图演示)

leetcode20.括号匹配问题 前言: 💥🎈个人主页:​​​​​​Dream_Chaser~ 🎈💥 ✨✨刷题专栏:http://t.csdn.cn/UlvTc ⛳⛳本篇内容:力扣上栈与队列的面试OJ题目 目录 leetcode20.括号匹配问题 1.问题描…